РОЗРОБЛЕННЯ Й ДОСЛІДЖЕННЯ ПІДХОДУ ДО ВИЯВЛЕННЯ АНОМАЛІЙ У ПОТОКОВИХ КОНВЕЄРАХ ДАНИХ НА ОСНОВІ ОПЕРАЦІЙНОЇ ТЕЛЕМЕТРІЇ

Ірина Кириченко; Вадим Демчук; Віталій Луценко

doi:10.30837/0135-1710.2026.189.165

Автор(и)

Ірина Кириченко Харківський національний університет радіоелектроніки, Україна https://orcid.org/0000-0002-7686-6439
Вадим Демчук Харківський національний університет радіоелектроніки, Україна https://orcid.org/0000-0003-3700-2344
Віталій Луценко Харківський національний університет радіоелектроніки, Україна https://orcid.org/0009-0003-8965-5758

DOI:

https://doi.org/10.30837/0135-1710.2026.189.165

Ключові слова:

потокове оброблення даних, конвеєри даних, виявлення аномалій, операційна телеметрія, машинне навчання, Isolation Forest, Apache Kafka, Apache Spark, Shift-Lef-архітектура, спостережуваність систем

Анотація

Об’єктом вивчення є процес операційного моніторингу, діагностики й забезпечення функціональної надійності розподілених потокових конвеєрів даних у режимі реального часу; предметом – методи й алгоритми автоматизованого виявлення аномалій у потокових системах на основі аналізу багатовимірних часових рядів операційної телеметрії (метрик продуктивності та використання ресурсів) інфраструктурних компонентів Apache Spark Structured Streaming і Apache Kafka. Мета дослідження полягає в розробленні та експериментальній валідації легковагового підходу проактивного виявлення аномалій у швидкісних конвеєрах даних, яка функціонує виключно на основі метапоказників інфраструктури без ресурсомісткої інспекції корисного навантаження, для мінімізації часу реакції на інциденти й усунення додаткових затримок в обробленні даних. Досягнуті результати. У процесі дослідження розроблено архітектуру системи моніторингу й сформовано 14-вимірний вектор простору ознак, який передбачає нормалізовані значення системних метрик, швидкості їх зміни (градієнти) й синтетичні безрозмірні коефіцієнти (ефективність оброблення, нормований лаг). Для класифікації станів системи застосовано ансамблевий алгоритм машинного навчання. Експериментальне моделювання типових збоїв (сплески затримки, падіння пропускної здатності, аномальний лаг) на хмарному кластері AWS підтвердило високу ефективність підходу. Запропонований багатовимірний підхід підвищив точність виявлення інцидентів (F1-score) з 0.62 (показник класичного Rule-based-методу на основі статичних порогів) до 0.92 за рівня хибних спрацювань (FPR) лише 0.8%. Середній час виявлення аномалії (MTTD) було скорочено зі 115 с до 25 с. Обчислювальні накладні витрати мікросервісу моніторингу становили менше ніж 1.5% процесорного часу кластера. Висновки. Експериментально доведено, що аналіз багатовимірної операційної телеметрії за допомогою методів машинного навчання є високоефективним проксі-індикатором "здоров’я" конвеєрів даних. Запропонований підхід успішно розв’язує питання важкої валідації, притаманної традиційним інструментам перевірки якості даних, і повністю відповідає парадигмі сучасної Shift-Left-архітектури. Рішення забезпечує глибоку спостережуваність із нульовим впливом на продуктивність, є надійною першою лінією проактивного захисту й створює технологічне підґрунтя для реалізації механізмів автоматичного самовідновлення інфраструктури.

Біографії авторів

Ірина Кириченко, Харківський національний університет радіоелектроніки

кандидат технічних наук, доцент кафедри програмної інженерії

Вадим Демчук, Харківський національний університет радіоелектроніки

аспірант кафедри програмної інженерії

Віталій Луценко, Харківський національний університет радіоелектроніки

студент кафедри програмної інженерії

Посилання

Goedegebuure, A., Kumara, I., Driessen, S. (2024), "Data Mesh: A Systematic Gray Literature Review", ACM Computing Surveys, Vol. 57, pp. 1–36. DOI: https://doi.org/10.1145/3687301

Sulaiman, S., Rizwan, M. (2025), "Decentralizing Data for Larger Organizations: A Data Mesh Approach", Journal of Computational Analysis & Applications, Vol. 34, pp. 177–186. DOI: https://doi.org/10.48047/jocaaa.2025.34.11.15

Borodii, I., Osukhivska, H. (2026), "Research on the efficiency of data loading and storage in Data Lakehouse architectures for the formation of analytical data systems", Information Technology: Computer Science, Software Engineering and Cyber Security, No. 4, pp. 28–36. DOI: https://doi.org/10.48550/arXiv.2604.21449

Sudhanshubhai, P. J. (2026), "The Evolution of Shift-Left Testing in Modern Software Development", Journal of Computational Analysis & Applications, Vol. 35, pp. 1091–1100. DOI: https://doi.org/10.48047/jocaaa.2026.35.01.88

Zhong, Z. (2023), "A Survey of Time Series Anomaly Detection Methods in the AIOps Domain", arXiv preprint arXiv:2308.00393, pp. 1–36. DOI: https://doi.org/10.48550/arXiv.2308.00393

Skaperas, S., Koukis, G., Kapetanidou, I. A., Tsaoussidis, V., Mamatas, L. (2024), "A Pragmatical Approach to Anomaly Detection Evaluation in Edge Cloud Systems", Proc. IEEE INFOCOM Workshops, pp. 1–6. DOI: https://doi.org/10.48550/arXiv.2401.07717

Schmidl, S., Wenig, P., Papenbrock, T. (2022), "Anomaly Detection in Time Series: A Comprehensive Evaluation", Proc. VLDB Endow., vol. 15, no. 9, pp. 1779–1797. DOI: https://doi.org/10.14778/3538598.3538602

Islam, M. S., Rakha, M. S., Pourmajidi, W., Sivaloganathan, J., Steinbacher, J., Miranskyy, A. (2024), "Anomaly Detection in Large-Scale Cloud Systems: An Industry Case and Dataset", arXiv preprint arXiv:2411.09047, pp. 1–12. DOI: https://doi.org/10.48550/arXiv.2411.09047

Darban, Z. Z., Webb, G. I., Pan, S., Aggarwal, C. C., Salehi, M. (2024), "Deep Learning for Time Series Anomaly Detection: A Survey", ACM Comput. Surv., vol. 57, no. 2, Art. no. 39, pp. 1–42. DOI: https://doi.org/10.1145/3691338

Jacob, V., Diao, Y. (2025), "Unsupervised Anomaly Detection in Multivariate Time Series across Heterogeneous Domains", arXiv preprint arXiv:2503.23060, pp. 1–21. DOI: https://doi.org/10.48550/arXiv.2503.23060

Wang, Z., et al. (2024), "Revisiting VAE for Unsupervised Time Series Anomaly Detection: A Frequency Perspective", in Proc. ACM Web Conf. (WWW), pp. 1–10. DOI: https://doi.org/10.48550/arXiv.2402.02820

Mayer, R., Mayer, L., Laich, L. (2020), "How Fast Can We Insert? An Empirical Performance Evaluation of Apache Kafka", in Proc. IEEE Int. Conf. Cloud Eng. (IC2E), pp. 186–196. DOI: https://doi.org/10.48550/arXiv.2003.06452

Fedorovych, I., Osukhivska, H., Lutsyk, N. (2024), "Performance Benchmarking of Continuous Processing and Micro-Batch Modes in Spark Structured Streaming", in Proc. ITTAP, CEUR Workshop Proc., vol. 3896, paper 5, pp. 1–11.

Jacob, V., Song, F., Stiegler, A., Diao, Y., Tatbul, N. (2021), "Exathlon: A Benchmark for Explainable Anomaly Detection over Time Series", Proc. VLDB Endow., vol. 14, no. 11, pp. 2613–2626. DOI: https://doi.org/10.14778/3476249.347630

Pragathi, B. C., Maddirala, H., Sneha, M. (2024), "Implementing an Effective Infrastructure Monitoring Solution with Prometheus and Grafana", Int. J. Comput. Appl., vol. 186, no. 38, pp. 7–14. DOI: https://doi.org/10.5120/ijca2024923873

Pham, L., Ha, H., Zhang, H. (2024), "Root Cause Analysis for Microservice System Based on Causal Inference: How Far Are We?", Proc. 39th IEEE/ACM Int. Conf. Autom. Softw. Eng. (ASE), pp. 1–13. DOI: https://doi.org/10.48550/arXiv.2408.13729

Vysotska, V., Kyrychenko, I., Demchuk, V. (2025), "Competency module of shift-left architecture in big data", in Proc. PhD Workshop on Artificial Intelligence in Computer Science at CoLInS, pp. 1–15. DOI: https://doi.org/10.31110/COLINS/2025-3/003

Bhardwaj, A. K. (2026), "Integrating Security Early A Shift-Left Model for DevSecOps in Modern Software Pipelines", 2026 6th International Conference on Image Processing and Capsule Networks (ICIPCN). DOI: https://doi.org/10.1109/ICIPCN67432.2026.11438475

Vysotska, V., Kyrychenko, I., Demchuk, V., Gruzdo, I. (2024), "Holistic Adaptive Optimization Techniques for Distributed Data Streaming Systems", CEUR Workshop Proc., vol. 3624, pp. 1–13. DOI: https://doi.org/10.31110/COLINS/2024-2/009

Mandala, N. R. (2021), "ETL in Data Lakes vs. Data Warehouses", ESP J. Eng. Technol. Adv., vol. 1, pp. 224–230. DOI: https://doi.org/10.56472/25832646/JETA-V1I2P123

Vysotska, V., Kyrychenko, I., Demchuk, V. (2025), "Adaptive Issue Detection in Holistic Optimization of Distributed Data Streaming Systems", in Proc. MoDaST 2025: Modern Data Science Technologies Doctoral Consortium, Lviv, Ukraine, pp. 1–17. URL: https://ceur-ws.org/Vol-4005/paper15.pdf.

Sharma, M. (2025), "Streaming Queries: Enabling Real-Time Elastic Scaling in Modern Applications", Journal of Computer Science and Technology Studies, Vol. 3, pp. 319–326. DOI: https://doi.org/10.32996/jcsts.2025.7.3.36

Chandola, V., Banerjee, A., Kumar, V. (2009), "Anomaly detection: A survey", ACM Comput. Surv., vol. 41, no. 3, Art. no. 15, pp. 1–58. DOI: https://doi.org/10.1145/1541880.1541882