Hybrid machine learning model for classifying software bugs in SaaS cloud applications

Олександр Шматко; Ігор Гамаюн; Олексій Коломійцев

doi:10.30837/0135-1710.2025.187.156

Автор(и)

Олександр Шматко Харківський національний університет радіоелектроніки, Україна https://orcid.org/0000-0002-2426-900X
Ігор Гамаюн Національний технічний університет "Харківський політехнічний інститут", Україна https://orcid.org/0000-0003-2099-4658
Олексій Коломійцев Національний технічний університет "Харківський політехнічний інститут", Україна https://orcid.org/0000-0001-8228-8404

DOI:

https://doi.org/10.30837/0135-1710.2025.187.156

Ключові слова:

класифікація помилок, хмарні обчислення, машинне навчання, TF-IDF, Word2Vec, випадковий ліс, автоматизація тестування

Анотація

У сучасних хмарних обчислювальних середовищах забезпечення стабільності та надійності програмних застосунків є одним із ключових чинників ефективної роботи інформаційних систем. Значну частину збоїв у таких системах спричиняють програмні помилки (баги), які ускладнюють експлуатацію та знижують продуктивність сервісів. Традиційні методи ручного аналізу звітів про помилки є трудомісткими, тому необхідно розробити інтелектуальні підходи до автоматизованої класифікації та пріоритизації помилок із використанням методів машинного навчання. Мета статті – підвищення точності класифікації типів програмних помилок у хмарних застосунках. Завдання дослідження: формування повного конвеєра автоматизованого оброблення даних баг-репортів, що охоплює всі етапи – від попереднього очищення до побудови моделі класифікації. Методологічна основа дослідження полягає у використанні методів оброблення природної мови (NLP), техніки SMOTE для балансування вибірки, класичних алгоритмів машинного навчання, а також процедури оптимізації гіперпараметрів RandomizedSearchCV. Якість моделей оцінюється на основі стандартних класифікаційних метрик, таких як accuracy, precision, recall та F1-score, що забезпечує комплексний і об’єктивний аналіз отриманих результатів. Результати дослідження. Розроблено гібридну модель для автоматизованої класифікації помилок, що охоплює етапи збирання, попереднього оброблення, векторизації та моделювання даних. Проведено порівняльний аналіз точності чотирьох алгоритмів машинного навчання – наївного баєсівського класифікатора, дерева рішень, випадкового лісу й логістичної регресії – із використанням різних методів векторизації (Bag-of-Words, TF‑IDF, Word2Vec). Для підвищення точності класифікації застосовано техніку балансування даних SMOTE. Експериментальні дослідження на реальному наборі даних із хмарного середовища продемонстрували, що модель Random Forest досягла найвищих показників точності – до 91,7 %. Результати підтверджують ефективність інтеграції алгоритмів машинного навчання в процеси аналізу й підтримки програмних продуктів у хмарних інфраструктурах. Висновки. Запропонований підхід забезпечує підвищення точності класифікації помилок у хмарних обчислювальних системах і може бути використаний у системах моніторингу, DevOps-платформах і засобах автоматизованого тестування. Результати дослідження є основою для подальшого розроблення інтелектуальних інструментів прогнозування й пріоритизації дефектів програмного забезпечення.

Біографії авторів

Олександр Шматко, Харківський національний університет радіоелектроніки

кандидат технічних наук, доцент, доцент кафедри електронних обчислювальних машин

Ігор Гамаюн, Національний технічний університет "Харківський політехнічний інститут"

доктор технічних наук, професор, професор кафедри програмної інженерії та інтелектуальних технологій управління

Олексій Коломійцев, Національний технічний університет "Харківський політехнічний інститут"

заслужений винахідник України, доктор технічних наук, професор, професор кафедри комп’ютерної інженерії та програмування

Посилання

Gupta, M., Gupta, D., Rai, P. (2024), "Exploring the Impact of Software as a Service (SaaS) on Human Life", EAI Endorsed Transactions on Internet of Things. DOI: https://doi.org/10.4108/eetiot.4821

Zhao, Y., Damevski, K., Chen, H. (2023), "A systematic survey of just-in-time software defect prediction", ACM Computing Surveys, Vol. 55, No. 10, P. 1–35. DOI: https://doi.org/10.1145/3567550

Bugayenko, Y., Bakare, A., Cheverda, A., Farina, M., Kruglov, A., Plaksin, Y., Succi, G. (2023), "Prioritizing tasks in software development: A systematic literature review", PLOS ONE, Vol. 18, No. 4, Article e0283838. DOI: https://doi.org/10.1371/journal.pone.0283838

Shiri Harzevili, N., Boaye Belle, A., Wang, J., Wang, S., Jiang, Z. M., Nagappan, N. (2024), "A systematic literature review on automated software vulnerability detection using machine learning", ACM Computing Surveys, Vol. 57, No. 3, P. 1–36. DOI: https://doi.org/10.1145/3699711

Tabianan, K., Velu, S., Ravi, V. (2022), "K-means clustering approach for intelligent customer segmentation using customer purchase behavior data", Sustainability, Vol. 14, No. 12, Article 7243. DOI: https://doi.org/10.3390/su14127243

Waqar, A. (2020), "Software Bug Prioritization in Beta Testing Using Machine Learning Techniques", Journal of Computer Science, Vol. 1, P. 24–34. DOI: https://doi.org/10.17509/jcs.v1i1.25355

Huda, S., Liu, K., Abdelrazek, M., Ibrahim, A., Alyahya, S., Al-Dossari, H., Ahmad, S. (2018), "An Ensemble Oversampling Model for Class Imbalance Problem in Software Defect Prediction", IEEE Access, Vol. 6, P. 24184–24195. DOI: https://doi.org/10.1109/ACCESS.2018.2817572

Goyal, A., Sardana, N. (2019), "Empirical Analysis of Ensemble Machine Learning Techniques for Bug Triaging", Proceedings of the Twelfth International Conference on Contemporary Computing (IC3), P. 1–6. DOI: https://doi.org/10.1109/IC3.2019.8844876

Gupta, A., Sharma, S., Goyal, S., Rashid, M. (2020), "Novel XGBoost Tuned Machine Learning Model for Software Bug Prediction", Proceedings of the International Conference on Intelligent Engineering and Management (ICIEM), P. 376–380. DOI: https://doi.org/10.1109/ICIEM48762.2020.9160152

Ahmed, H. A., Bawany, N. Z., Shamsi, J. A. (2021), "CaPBug-A Framework for Automatic Bug Categorization and Prioritization Using NLP and Machine Learning Algorithms", IEEE Access, Vol. 9, P. 50496–50512. DOI: https://doi.org/10.1109/ACCESS.2021.3069248

Tabassum, N., Alyas, T., Hamid, M., Saleem, M., Malik, S. (2022), "Hyper-convergence storage framework for ecocloud correlates", Computers, Materials & Continua, Vol. 70, No. 1, P. 1573–1584. DOI: https://doi.org/10.32604/cmc.2022.019389