Гібридна модель машинного навчання для класифікації програмних помилок у хмарних SaaS-застосунках
DOI:
https://doi.org/10.30837/0135-1710.2025.187.156Ключові слова:
класифікація помилок, хмарні обчислення, машинне навчання, TF-IDF, Word2Vec, випадковий ліс, автоматизація тестуванняАнотація
У сучасних хмарних обчислювальних середовищах забезпечення стабільності та надійності програмних застосунків є одним із ключових чинників ефективної роботи інформаційних систем. Значну частину збоїв у таких системах спричиняють програмні помилки (баги), які ускладнюють експлуатацію та знижують продуктивність сервісів. Традиційні методи ручного аналізу звітів про помилки є трудомісткими, тому необхідно розробити інтелектуальні підходи до автоматизованої класифікації та пріоритизації помилок із використанням методів машинного навчання. Мета статті – підвищення точності класифікації типів програмних помилок у хмарних застосунках. Завдання дослідження: формування повного конвеєра автоматизованого оброблення даних баг-репортів, що охоплює всі етапи – від попереднього очищення до побудови моделі класифікації. Методологічна основа дослідження полягає у використанні методів оброблення природної мови (NLP), техніки SMOTE для балансування вибірки, класичних алгоритмів машинного навчання, а також процедури оптимізації гіперпараметрів RandomizedSearchCV. Якість моделей оцінюється на основі стандартних класифікаційних метрик, таких як accuracy, precision, recall та F1-score, що забезпечує комплексний і об’єктивний аналіз отриманих результатів. Результати дослідження. Розроблено гібридну модель для автоматизованої класифікації помилок, що охоплює етапи збирання, попереднього оброблення, векторизації та моделювання даних. Проведено порівняльний аналіз точності чотирьох алгоритмів машинного навчання – наївного баєсівського класифікатора, дерева рішень, випадкового лісу й логістичної регресії – із використанням різних методів векторизації (Bag-of-Words, TF‑IDF, Word2Vec). Для підвищення точності класифікації застосовано техніку балансування даних SMOTE. Експериментальні дослідження на реальному наборі даних із хмарного середовища продемонстрували, що модель Random Forest досягла найвищих показників точності – до 91,7 %. Результати підтверджують ефективність інтеграції алгоритмів машинного навчання в процеси аналізу й підтримки програмних продуктів у хмарних інфраструктурах. Висновки. Запропонований підхід забезпечує підвищення точності класифікації помилок у хмарних обчислювальних системах і може бути використаний у системах моніторингу, DevOps-платформах і засобах автоматизованого тестування. Результати дослідження є основою для подальшого розроблення інтелектуальних інструментів прогнозування й пріоритизації дефектів програмного забезпечення.
Посилання
Gupta, M., Gupta, D., Rai, P. (2024), "Exploring the Impact of Software as a Service (SaaS) on Human Life", EAI Endorsed Transactions on Internet of Things. DOI: https://doi.org/10.4108/eetiot.4821
Zhao, Y., Damevski, K., Chen, H. (2023), "A systematic survey of just-in-time software defect prediction", ACM Computing Surveys, Vol. 55, No. 10, P. 1–35. DOI: https://doi.org/10.1145/3567550
Bugayenko, Y., Bakare, A., Cheverda, A., Farina, M., Kruglov, A., Plaksin, Y., Succi, G. (2023), "Prioritizing tasks in software development: A systematic literature review", PLOS ONE, Vol. 18, No. 4, Article e0283838. DOI: https://doi.org/10.1371/journal.pone.0283838
Shiri Harzevili, N., Boaye Belle, A., Wang, J., Wang, S., Jiang, Z. M., Nagappan, N. (2024), "A systematic literature review on automated software vulnerability detection using machine learning", ACM Computing Surveys, Vol. 57, No. 3, P. 1–36. DOI: https://doi.org/10.1145/3699711
Tabianan, K., Velu, S., Ravi, V. (2022), "K-means clustering approach for intelligent customer segmentation using customer purchase behavior data", Sustainability, Vol. 14, No. 12, Article 7243. DOI: https://doi.org/10.3390/su14127243
Waqar, A. (2020), "Software Bug Prioritization in Beta Testing Using Machine Learning Techniques", Journal of Computer Science, Vol. 1, P. 24–34. DOI: https://doi.org/10.17509/jcs.v1i1.25355
Huda, S., Liu, K., Abdelrazek, M., Ibrahim, A., Alyahya, S., Al-Dossari, H., Ahmad, S. (2018), "An Ensemble Oversampling Model for Class Imbalance Problem in Software Defect Prediction", IEEE Access, Vol. 6, P. 24184–24195. DOI: https://doi.org/10.1109/ACCESS.2018.2817572
Goyal, A., Sardana, N. (2019), "Empirical Analysis of Ensemble Machine Learning Techniques for Bug Triaging", Proceedings of the Twelfth International Conference on Contemporary Computing (IC3), P. 1–6. DOI: https://doi.org/10.1109/IC3.2019.8844876
Gupta, A., Sharma, S., Goyal, S., Rashid, M. (2020), "Novel XGBoost Tuned Machine Learning Model for Software Bug Prediction", Proceedings of the International Conference on Intelligent Engineering and Management (ICIEM), P. 376–380. DOI: https://doi.org/10.1109/ICIEM48762.2020.9160152
Ahmed, H. A., Bawany, N. Z., Shamsi, J. A. (2021), "CaPBug-A Framework for Automatic Bug Categorization and Prioritization Using NLP and Machine Learning Algorithms", IEEE Access, Vol. 9, P. 50496–50512. DOI: https://doi.org/10.1109/ACCESS.2021.3069248
Tabassum, N., Alyas, T., Hamid, M., Saleem, M., Malik, S. (2022), "Hyper-convergence storage framework for ecocloud correlates", Computers, Materials & Continua, Vol. 70, No. 1, P. 1573–1584. DOI: https://doi.org/10.32604/cmc.2022.019389
UA
EN
