Вибір методики оцінювання точності для завдань аналізу статичних сцен на основі згорткових нейронних мереж

Галина Влах-Вигриновська; Владислав Кромкач

doi:10.30837/0135-1710.2025.187.005

Автор(и)

Галина Влах-Вигриновська Національний університет "Львівська політехніка", Україна https://orcid.org/0000-0003-4429-1578
Владислав Кромкач Національний університет "Львівська політехніка", Україна https://orcid.org/0009-0001-5608-5715

DOI:

https://doi.org/10.30837/0135-1710.2025.187.005

Ключові слова:

комп’ютерний зір, семантична сегментація, детекція об’єктів, згорткові нейромережі, метрики оцінювання

Анотація

Об’єктом вивчення є методики кількісного оцінювання точності й надійності прогнозів згорткових нейронних мереж у завданнях аналізу статичних сцен, зокрема семантична сегментація та монокулярне метричне оцінювання глибини. Використані теоретичні, аналітичні та емпіричні наукові методи дослідження: порівняльний аналіз, синтез, систематизація, експериментальне моделювання тощо. Актуальність роботи зумовлена тим, що традиційні метрики оцінювання точності не завжди беруть до уваги особливості завдань аналізу статичних сцен – дисбаланс класів, локалізацію та малі об’єкти, шум чи змінне освітлення. Це знижує точність результатів і потребує впровадження гібридних метрик, гранично-орієнтованих і метрик кількісного оцінювання невизначеності (UQ) для забезпечення надійності й безпеки систем. Метою дослідження є обґрунтування й вибір найбільш ефективної та доцільної методики оцінювання точності для завдань аналізу статичних сцен на основі згорткових нейронних мереж способом порівняння й систематизації наявних метрик, аналізу їх переваг і обмежень у різних класах завдань і розроблення інтегрованого фреймворку для підвищення якості оцінювання. Для досягнення окресленої мети необхідно виконати такі завдання: провести порівняльний аналіз традиційних метрик; дослідити сучасні підходи й вибір релевантних метрик і протоколів для конкретних класів завдань; розробити концептуальний гібридний фреймворк, що забезпечує повну валідацію моделі, зважаючи на перекриття, геометричну точність і калібрування впевненості. Унаслідок дослідження сформульовано висновки. Для аналізу статичних сцен оптимально комбінувати такі метрики: accuracy й F1 – з метою класифікації, IoU і mAP – для детекції. Найбільш ефективні – mAP для складних сцен і для детекції малих об’єктів. Запропоновано гібридний фреймворк, що забезпечує повну валідацію моделі, покриваючи загальний об’єм, геометричну якість і надійність. Цей фреймворк поєднує гранично-орієнтовані метрики для забезпечення геометричної точності та методологію кількісного оцінювання невизначеності для калібрування впевненості та локалізації помилок. Це розв’язує проблему невідповідності між високою точністю моделей та обмеженістю стандартних метрик валідації. Перехід до Boundary IoU та метрик відстані, зокрема Hausdorff Distance, забезпечить масштабно-збалансовану та значно вищу чутливість до помилок на контурах, слугуватиме інструментом для виявлення катастрофічних локальних геометричних відхилень. Концептуальний фреймворк стимулює розроблення більш надійних і точних архітектур ЗНМ.

Біографії авторів

Галина Влах-Вигриновська, Національний університет "Львівська політехніка"

кандидат технічних наук, доцент, доцент кафедри комп’ютеризованих систем автоматики Інституту комп’ютерних технологій, автоматики та метрології

Владислав Кромкач, Національний університет "Львівська політехніка"

аспірант кафедри комп’ютеризованих систем автоматики Інституту комп’ютерних технологій, автоматики та метрології

Посилання

Aalst, J., Maruccio, F., Simoẽs R., Janssen, T., Wolterink, J., Ooijen, P., Brouwer, Ch. (2025), "Reliability of uncertainty quantification methods for deep learning auto-segmentation in head and neck organs at risk", Physics in Medicine and Biology, No. 20. DOI: https://doi.org/10.1088/1361-6560/ae110c

Fu, Y., Li, X., Hu, Z. (2021), "Small-Target Complex-Scene Detection Method Based on Information Interworking High-Resolution Network", Sensors, No. 21(15). DOI: https://doi.org/10.3390/s21155103

Chen, F., Tsou, J. (2022), "Assessing the effects of convolutional neural network architectural factors on model performance for remote sensing image classification: An in-depth investigation", International Journal of Applied Earth Observation and Geoinformation, No. 112. DOI: https://doi.org/10.1016/j.jag.2022.102865

Maxwell, A., Warner, T., Guillén, L. (2021), "Accuracy Assessment in Convolutional Neural Network-Based Deep Learning Remote Sensing Studies – Part 1: Literature Review", Remote Sensing, No. 13. DOI: https://doi.org/10.3390/rs13132450

Dugăeșescu, A., Florea, A. (2025), "Evaluation and analysis of visual methods for CNN explainability: a novel approach and experimental study", Neural Computing and Applications, No. 37, P. 14935–14970. DOI: https://doi.org/10.1007/s00521-025-11282-7

Zhao, X., Wang, L., Zhang, Y., Han, X., Deveci, M., Parmar, M. (2024), "A review of convolutional neural networks in computer vision", Artificial Intelligence Review, No. 57, P. 99. DOI: https://doi.org/10.1007/s10462-024-10721-6

Wang, Ch. (2023), "Calibration in Deep Learning: A Survey of the State-of-the-Art". DOI: https://doi.org/10.48550/arXiv.2308.01222

Gawlikowski, J., Tassi, C., et al. (2023), "A survey of uncertainty in deep neural networks. Artificial Intelligence Review". DOI: https://doi.org/10.48550/arXiv.2107.03342

Singh, Sh., Yadav, A., Jain, J., Shi, H., Johnson, J., Desai, K. (2024), "Benchmarking Object Detectors with COCO: A New Path Forward". DOI: https://doi.org/10.48550/arXiv.2403.18819

Arulananth, T., Kuppusamy, P., Ayyasamy, R., Alhashmi, S., Mahalakshmi, M., Vasanth, K., Chinnasamy, P. (2024), "Semantic segmentation of urban environments: Leveraging U-Net deep learning model for cityscape image analysis", PLoS ONE, No 19 (4). DOI: https://doi.org/10.1371/journal.pone.0300767

Zhang, J. (2025), "Survey on Monocular Metric Depth Estimation", Computer Vision and Pattern Recognition. DOI: https://doi.org/10.48550/arXiv.2501.11841

Nemavhola, A., Chibaya, C., Viriri, S. (2025), "A Systematic Review of CNN Architectures, Databases, Performance Metrics, and Applications in Face Recognition", Information, No 16 (2), P. 107. DOI: https://doi.org/10.3390/info16020107

Classification metrics guide. (2025), "Accuracy vs. precision vs. recall in machine learning: what’s the difference?". DOI: https://www.evidentlyai.com/classification-metrics/accuracy-precision-recall

Khan, S., Mazhar, T., et al. (2024), "Comparative analysis of deep neural network architectures for renewable energy forecasting: enhancing accuracy with meteorological and time-based features", Discover Sustainability, No. 5, P. 533. DOI: https://doi.org/10.1007/s43621-024-00783-5

Rayed, M., Islam, S., Niha, S., Jim, J., Kabir, M., Mridha, M. (2024), "Deep learning for medical image segmentation: State-of-the-art advancements and challenges", Informatics in Medicine Unlocked, No 47. DOI: https://doi.org/10.1016/j.imu.2024.101504

Cheng, B., Girshick, R., Dollár, P., Berg, A., Kirillov, A. (2021), "Boundary IoU: Improving Object-Centric Image Segmentation Evaluation", EEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). DOI: https://doi.org/10.1109/CVPR46437.2021.01508