РОЗРОБЛЕННЯ Й ДОСЛІДЖЕННЯ ПІДХОДУ ДО ВИЯВЛЕННЯ АНОМАЛІЙ У ПОТОКОВИХ КОНВЕЄРАХ ДАНИХ НА ОСНОВІ ОПЕРАЦІЙНОЇ ТЕЛЕМЕТРІЇ
DOI:
https://doi.org/10.30837/0135-1710.2026.189.165Ключові слова:
потокове оброблення даних, конвеєри даних, виявлення аномалій, операційна телеметрія, машинне навчання, Isolation Forest, Apache Kafka, Apache Spark, Shift-Lef-архітектура, спостережуваність системАнотація
Об’єктом вивчення є процес операційного моніторингу, діагностики й забезпечення функціональної надійності розподілених потокових конвеєрів даних у режимі реального часу; предметом – методи й алгоритми автоматизованого виявлення аномалій у потокових системах на основі аналізу багатовимірних часових рядів операційної телеметрії (метрик продуктивності та використання ресурсів) інфраструктурних компонентів Apache Spark Structured Streaming і Apache Kafka. Мета дослідження полягає в розробленні та експериментальній валідації легковагового підходу проактивного виявлення аномалій у швидкісних конвеєрах даних, яка функціонує виключно на основі метапоказників інфраструктури без ресурсомісткої інспекції корисного навантаження, для мінімізації часу реакції на інциденти й усунення додаткових затримок в обробленні даних. Досягнуті результати. У процесі дослідження розроблено архітектуру системи моніторингу й сформовано 14-вимірний вектор простору ознак, який передбачає нормалізовані значення системних метрик, швидкості їх зміни (градієнти) й синтетичні безрозмірні коефіцієнти (ефективність оброблення, нормований лаг). Для класифікації станів системи застосовано ансамблевий алгоритм машинного навчання. Експериментальне моделювання типових збоїв (сплески затримки, падіння пропускної здатності, аномальний лаг) на хмарному кластері AWS підтвердило високу ефективність підходу. Запропонований багатовимірний підхід підвищив точність виявлення інцидентів (F1-score) з 0.62 (показник класичного Rule-based-методу на основі статичних порогів) до 0.92 за рівня хибних спрацювань (FPR) лише 0.8%. Середній час виявлення аномалії (MTTD) було скорочено зі 115 с до 25 с. Обчислювальні накладні витрати мікросервісу моніторингу становили менше ніж 1.5% процесорного часу кластера. Висновки. Експериментально доведено, що аналіз багатовимірної операційної телеметрії за допомогою методів машинного навчання є високоефективним проксі-індикатором "здоров’я" конвеєрів даних. Запропонований підхід успішно розв’язує питання важкої валідації, притаманної традиційним інструментам перевірки якості даних, і повністю відповідає парадигмі сучасної Shift-Left-архітектури. Рішення забезпечує глибоку спостережуваність із нульовим впливом на продуктивність, є надійною першою лінією проактивного захисту й створює технологічне підґрунтя для реалізації механізмів автоматичного самовідновлення інфраструктури.
Посилання
Goedegebuure, A., Kumara, I., Driessen, S. (2024), "Data Mesh: A Systematic Gray Literature Review", ACM Computing Surveys, Vol. 57, pp. 1–36. DOI: https://doi.org/10.1145/3687301
Sulaiman, S., Rizwan, M. (2025), "Decentralizing Data for Larger Organizations: A Data Mesh Approach", Journal of Computational Analysis & Applications, Vol. 34, pp. 177–186. DOI: https://doi.org/10.48047/jocaaa.2025.34.11.15
Borodii, I., Osukhivska, H. (2026), "Research on the efficiency of data loading and storage in Data Lakehouse architectures for the formation of analytical data systems", Information Technology: Computer Science, Software Engineering and Cyber Security, No. 4, pp. 28–36. DOI: https://doi.org/10.48550/arXiv.2604.21449
Sudhanshubhai, P. J. (2026), "The Evolution of Shift-Left Testing in Modern Software Development", Journal of Computational Analysis & Applications, Vol. 35, pp. 1091–1100. DOI: https://doi.org/10.48047/jocaaa.2026.35.01.88
Zhong, Z. (2023), "A Survey of Time Series Anomaly Detection Methods in the AIOps Domain", arXiv preprint arXiv:2308.00393, pp. 1–36. DOI: https://doi.org/10.48550/arXiv.2308.00393
Skaperas, S., Koukis, G., Kapetanidou, I. A., Tsaoussidis, V., Mamatas, L. (2024), "A Pragmatical Approach to Anomaly Detection Evaluation in Edge Cloud Systems", Proc. IEEE INFOCOM Workshops, pp. 1–6. DOI: https://doi.org/10.48550/arXiv.2401.07717
Schmidl, S., Wenig, P., Papenbrock, T. (2022), "Anomaly Detection in Time Series: A Comprehensive Evaluation", Proc. VLDB Endow., vol. 15, no. 9, pp. 1779–1797. DOI: https://doi.org/10.14778/3538598.3538602
Islam, M. S., Rakha, M. S., Pourmajidi, W., Sivaloganathan, J., Steinbacher, J., Miranskyy, A. (2024), "Anomaly Detection in Large-Scale Cloud Systems: An Industry Case and Dataset", arXiv preprint arXiv:2411.09047, pp. 1–12. DOI: https://doi.org/10.48550/arXiv.2411.09047
Darban, Z. Z., Webb, G. I., Pan, S., Aggarwal, C. C., Salehi, M. (2024), "Deep Learning for Time Series Anomaly Detection: A Survey", ACM Comput. Surv., vol. 57, no. 2, Art. no. 39, pp. 1–42. DOI: https://doi.org/10.1145/3691338
Jacob, V., Diao, Y. (2025), "Unsupervised Anomaly Detection in Multivariate Time Series across Heterogeneous Domains", arXiv preprint arXiv:2503.23060, pp. 1–21. DOI: https://doi.org/10.48550/arXiv.2503.23060
Wang, Z., et al. (2024), "Revisiting VAE for Unsupervised Time Series Anomaly Detection: A Frequency Perspective", in Proc. ACM Web Conf. (WWW), pp. 1–10. DOI: https://doi.org/10.48550/arXiv.2402.02820
Mayer, R., Mayer, L., Laich, L. (2020), "How Fast Can We Insert? An Empirical Performance Evaluation of Apache Kafka", in Proc. IEEE Int. Conf. Cloud Eng. (IC2E), pp. 186–196. DOI: https://doi.org/10.48550/arXiv.2003.06452
Fedorovych, I., Osukhivska, H., Lutsyk, N. (2024), "Performance Benchmarking of Continuous Processing and Micro-Batch Modes in Spark Structured Streaming", in Proc. ITTAP, CEUR Workshop Proc., vol. 3896, paper 5, pp. 1–11.
Jacob, V., Song, F., Stiegler, A., Diao, Y., Tatbul, N. (2021), "Exathlon: A Benchmark for Explainable Anomaly Detection over Time Series", Proc. VLDB Endow., vol. 14, no. 11, pp. 2613–2626. DOI: https://doi.org/10.14778/3476249.347630
Pragathi, B. C., Maddirala, H., Sneha, M. (2024), "Implementing an Effective Infrastructure Monitoring Solution with Prometheus and Grafana", Int. J. Comput. Appl., vol. 186, no. 38, pp. 7–14. DOI: https://doi.org/10.5120/ijca2024923873
Pham, L., Ha, H., Zhang, H. (2024), "Root Cause Analysis for Microservice System Based on Causal Inference: How Far Are We?", Proc. 39th IEEE/ACM Int. Conf. Autom. Softw. Eng. (ASE), pp. 1–13. DOI: https://doi.org/10.48550/arXiv.2408.13729
Vysotska, V., Kyrychenko, I., Demchuk, V. (2025), "Competency module of shift-left architecture in big data", in Proc. PhD Workshop on Artificial Intelligence in Computer Science at CoLInS, pp. 1–15. DOI: https://doi.org/10.31110/COLINS/2025-3/003
Bhardwaj, A. K. (2026), "Integrating Security Early A Shift-Left Model for DevSecOps in Modern Software Pipelines", 2026 6th International Conference on Image Processing and Capsule Networks (ICIPCN). DOI: https://doi.org/10.1109/ICIPCN67432.2026.11438475
Vysotska, V., Kyrychenko, I., Demchuk, V., Gruzdo, I. (2024), "Holistic Adaptive Optimization Techniques for Distributed Data Streaming Systems", CEUR Workshop Proc., vol. 3624, pp. 1–13. DOI: https://doi.org/10.31110/COLINS/2024-2/009
Mandala, N. R. (2021), "ETL in Data Lakes vs. Data Warehouses", ESP J. Eng. Technol. Adv., vol. 1, pp. 224–230. DOI: https://doi.org/10.56472/25832646/JETA-V1I2P123
Vysotska, V., Kyrychenko, I., Demchuk, V. (2025), "Adaptive Issue Detection in Holistic Optimization of Distributed Data Streaming Systems", in Proc. MoDaST 2025: Modern Data Science Technologies Doctoral Consortium, Lviv, Ukraine, pp. 1–17. URL: https://ceur-ws.org/Vol-4005/paper15.pdf.
Sharma, M. (2025), "Streaming Queries: Enabling Real-Time Elastic Scaling in Modern Applications", Journal of Computer Science and Technology Studies, Vol. 3, pp. 319–326. DOI: https://doi.org/10.32996/jcsts.2025.7.3.36
Chandola, V., Banerjee, A., Kumar, V. (2009), "Anomaly detection: A survey", ACM Comput. Surv., vol. 41, no. 3, Art. no. 15, pp. 1–58. DOI: https://doi.org/10.1145/1541880.1541882
UA
EN 


