COMPREHENSIVE ANALYSIS OF METHODS AND TOOLS FOR HYBRID IMAGE ANNOTATION IN COMPUTER VISION SYSTEMS

Матвій Кучапін; Кирило Смеляков; Анастасія Чуприна; Сергій Лученко

doi:10.30837/0135-1710.2026.189.182

Автор(и)

Матвій Кучапін Харківський національний університет радіоелектроніки, Україна http://orcid.org/0009-0006-1953-2893
Кирило Смеляков Харківський національний університет радіоелектроніки, Україна http://orcid.org/0000-0001-9938-5489
Анастасія Чуприна Харківський національний університет радіоелектроніки, Україна http://orcid.org/0000-0003-0394-9900
Сергій Лученко Національний аерокосмічний університет "Харківський авіаційний інститут", Україна http://orcid.org/0009-0006-9606-5774

DOI:

https://doi.org/10.30837/0135-1710.2026.189.182

Ключові слова:

комп’ютерний зір, анотування зображень, активне навчання, сегментація, синтетичні дані

Анотація

Предметом дослідження є методи, алгоритми та програмні інструменти анотування візуальних даних у системах комп’ютерного зору в межах парадигми Data-Centric AI. У статті проаналізовано процеси структурування неструктурованої інформації, де якість розмітки визначає точність моделей штучного інтелекту. Виявлено обмеження ручних методів і ризики систематичних помилок за умови повної автоматизації. Мета дослідження – комплексний аналіз сучасних методів та інструментів анотування зображень у системах комп’ютерного зору та кількісне оцінювання доцільності гібридних стратегій Human-in-the-Loop для підвищення ефективності формування якісних наборів даних у межах парадигми Data-Centric AI. У статті необхідно виконати такі завдання: систематизувати типи анотувань від класифікації до паноптичної сегментації та розмітки 3D‑сцен; розглянути інструментарій на основі моделей Segment Anything Model і GroundingDINO; здійснити порівняльне оцінювання ручного, автоматичного й гібридного сценаріїв за показниками точності (mIoU) та трудомісткості; визначити проблеми довіри оператора до алгоритмічних підказок та ергономіки взаємодії. Методи: систематичний порівняльний аналіз гібридних стратегій Human-in-the-Loop, крос-доменний синтез результатів досліджень активного навчання та інтерактивної сегментації, формалізація показників прискорення, якості й відносного обсягу ручної праці. Досягнуті результати. Доведено, що гібридний конвеєр (YOLO/SAM та експертна корекція) забезпечує прискорення процесу в 5,4 раза. Час формування семантичної маски об’єкта скорочується з 65 до 12 с за умови збереження якості mIoU = 0,94, де втрата щодо еталона становить лише 0,02. Установлено, що гібридний сценарій є оптимальним у діапазоні порогових вимог , що охоплює найширший клас практичних завдань – від навчання виробничих моделей до медичної діагностики. Виявлено пряму залежність якості роботи анотатора від надійності автоматичних підказок, що підтверджує важливість прозорості алгоритмів. Висновки. Гібридне анотування є оптимальною стратегією для створення Ground Truth у критичних доменах (автономне водіння, медицина), що забезпечує баланс швидкості й точності. Запропонована формалізація задачі оптимізації з пороговим обмеженням дає змогу обґрунтовано обирати сценарій анотування для конкретного домену. Перспективи подальших досліджень полягають у вдосконаленні методів генерації синтетичних даних у симульованих середовищах і розробленні адаптивних інтерфейсів для зниження когнітивного навантаження на експертів.

Біографії авторів

Матвій Кучапін, Харківський національний університет радіоелектроніки

аспірант кафедри програмної інженерії

Кирило Смеляков, Харківський національний університет радіоелектроніки

доктор технічних наук, професор, завідувач кафедри програмної інженерії

Анастасія Чуприна, Харківський національний університет радіоелектроніки

кандидат технічних наук, доцент, доцент кафедри програмної інженерії

Сергій Лученко, Національний аерокосмічний університет "Харківський авіаційний інститут"

кандидат технічних наук, старший викладач кафедри інженерії програмного забезпечення

Посилання

Song, H. et al. (2020), "Weighted Topic Model Learned From Local Semantic Space for Automatic Image Annotation", IEEE Access, Vol. 8, pp. 76411–76422. DOI: https://doi.org/10.1109/ACCESS.2020.2989200

Monarch, R. M. (2021), "Human-in-the-Loop Machine Learning: Active learning and annotation for human-centered AI", New York, 424 p.

Montezuma, D. et al. (2022), "Annotating for Artificial Intelligence Applications in Digital Pathology: A Practical Guide for Pathologists and Researchers", United States & Canadian Academy of Pathology, Vol. 36, pp. 100086. DOI: https://doi.org/10.1016/j.modpat.2022.100086

Demrozi, F. et al. (2023), "A Comprehensive Review of Automated Data Annotation Techniques in Human Activity Recognition", Cornell University arXiv. DOI: https://doi.org/10.48550/arXiv.2307.05988

Sun, Q. et al. (2025), "DocSpiral: A Platform for Integrated Assistive Document Annotation through Human-in-the-Spiral", Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics, Vol. 3, pp. 267–274. DOI: https://doi.org/10.18653/v1/2025.acl-demo.26

Li, X. et al. (2023), "HAL-IA: A Hybrid Active Learning framework using Interactive Annotation for medical image segmentation", Medical Image Analysis, Vol. 88, pp. 102862. DOI: https://doi.org/10.1016/j.media.2023.102862

Huang, Y. et al. (2025), "Application of human-in-the-loop hybrid augmented intelligence approach in security inspection system", Frontiers in Artificial Intelligence, Vol. 8. DOI: https://doi.org/10.3389/frai.2025.1518850

Ramanathan, A. S., Oyelere, S. S., Baruah, N. (2025), "Hybrid intelligence approach for detecting synthetic art", Human-Intelligent Systems Integration, Vol. 7, pp. 325–340. DOI: https://doi.org/10.1007/s42454-025-00081-z

Yadnakudige Subramanya, S. et al. (2025), "Human-in-the-Loop Annotation for Image-Based Engagement Estimation: Assessing the Impact of Model Reliability on Annotation Accuracy", Human-Computer Interaction. HCII 2025. Lecture Notes in Computer Science, Vol. 15770, pp. 169–186. DOI: https://doi.org/10.1007/978-3-031-93864-1_12

Al-Turki, D. et al. (2023), "The power of progressive active learning in floorplan images for energy assessment", Scientific reports, Vol. 16238. DOI: https://doi.org/10.1038/s41598-023-42276-x

Sager, C., Janiesch, C., Zschech, P. (2021), "A survey of image labelling for computer vision applications", Journal of Business Analytics. DOI: https://doi.org/10.48550/arXiv.2104.08885

Bachani, V. et al. (2024), "Image Segmentation Survey: Classical and Deep Learning Methods", 2024 International Conference on Electrical, Computer and Energy Technologies (ICECET), pp. 1–6. DOI: https://doi.org/10.1109/ICECET61485.2024.10698602

Song, H. et al. (2023), "Learning From Noisy Labels With Deep Neural Networks: A Survey", IEEE Transactions on Neural Networks and Learning Systems, Vol. 34, pp. 8135-8153. DOI: https://doi.org/10.1109/TNNLS.2022.3152527

Whang, S., Roh, Y., Song, H. (2023), "Data collection and quality challenges in deep learning: a data-centric AI perspective", The VLDB Journal 32, pp. 791–813. DOI: https://doi.org/10.1007/s00778-022-00775-9

Zou, Z. et al. (2023), "Object Detection in 20 Years: A Survey", Proceedings of the IEEE, Vol. 111, pp. 257–276. DOI: https://doi.org/10.1109/JPROC.2023.3238524

Ciaparrone, G. et al. (2020), "Deep learning in video multi-object tracking: A survey", Science Direct, Neurocomputing, Vol. 381, pp. 61–88. DOI: https://doi.org/10.1016/j.neucom.2019.11.023

Nagiu, A. S. et al. (2024), "3D Object Detection for Autonomous Driving: A Comprehensive Review", 2024 6th International Conference on Computing and Informatics (ICCI), pp. 01–11. DOI: https://doi.org/10.1109/ICCI61671.2024.10485120

Minaee, S. et al. (2022), "Image Segmentation Using Deep Learning: A Survey", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 44, pp. 3523–3542. DOI: https://doi.org/10.1109/TPAMI.2021.3059968

Wu, X. et al. (2022), "A survey of human-in-the-loop for machine learning", Science Direct, Future Generation Computer Systems, Vol. 135, pp. 364–381. DOI: https://doi.org/10.1016/j.future.2022.05.014

Mumuni, A., Mumuni, F., Gerrar, N. K. (2024), "A Survey of Synthetic Data Augmentation Methods in Machine Vision", Springer Nature Link, Machine Intelligence Research, Vol. 21, pp. 831–869. DOI: https://doi.org/10.1007/s11633-022-1411-7

Chen, Z. M. et al. (2019), "Multi-Label Image Recognition With Graph Convolutional Networks", 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5172–5181. DOI: https://doi.org/10.1109/CVPR.2019.00532

Padilla, R. et al. (2021), "A Comparative Analysis of Object Detection Metrics with a Companion Open-Source Toolkit", Electronics, Vol. 10, pp. 279. DOI: https://doi.org/10.3390/electronics10030279

Ajmera, F. et al. (2021), "Survey on Object Detection in Aerial Imagery", 2021 Third International Conference on Intelligent Communication Technologies and Virtual Mobile Networks (ICICV), pp. 1050–1055. DOI: https://doi.org/10.1109/ICICV50876.2021.9388517

Gu, W., Bai, S., Kong, L. (2022), "A review on 2D instance segmentation based on deep neural networks", Science Direct, Image and Vision Computing, Vol. 120, pp. 104401. DOI: https://doi.org/10.1016/j.imavis.2022.104401

Elharrouss, O. et al. (2021), "Panoptic Segmentation: A Review", Cornell University arXiv. DOI: https://doi.org/10.48550/arXiv.2111.10250

Chen, Y., Tian, Y., He, M. (2020), "Monocular human pose estimation: A survey of deep learning-based methods", Science Direct, Computer Vision and Image Understanding, Vol. 192, p. 102897. DOI: https://doi.org/10.1016/j.cviu.2019.102897

Stefanini, M. et al. (2021), "From Show to Tell: A Survey on Image Captioning", Cornell University arXiv. DOI: https://doi.org/10.48550/arXiv.2107.06912

Roh, Y., Heo, G., Whang, S. E. (2021), "A Survey on Data Collection for Machine Learning: A Big Data – AI Integration Perspective", IEEE Transactions on Knowledge and Data Engineering, Vol. 33, pp. 1328–1347. DOI: https://doi.org/10.1109/TKDE.2019.2946162

Gu, F. et al. (2021), "A Survey on Deep Learning for Human Activity Recognition", Association for Computing Machinery, Vol. 54, p. 34. DOI: https://doi.org/10.1145/3472290

Kirillov, A. et al. (2023), "Segment Anything", 2023 IEEE/CVF International Conference on Computer Vision (ICCV), pp. 3992–4003. DOI: https://doi.org/10.1109/ICCV51070.2023.00371

Terven, J. et al. (2023), "A Comprehensive Review of YOLO Architectures in Computer Vision: From YOLOv1 to YOLOv8 and YOLO-NAS", Machine Learning and Knowledge Extraction, Vol. 5, p. 1680–1716. DOI: https://doi.org/10.3390/make5040083

Corbière, C. et al. (2019), "Addressing Failure Prediction by Learning Model Confidence", Computer Vision and Pattern Recognition, arXiv. DOI: https://doi.org/10.48550/arXiv.1910.04851