КОМПЛЕКСНИЙ АНАЛІЗ МЕТОДІВ ТА ІНСТРУМЕНТІВ ГІБРИДНОГО АНОТУВАННЯ ЗОБРАЖЕНЬ У СИСТЕМАХ КОМП’ЮТЕРНОГО ЗОРУ
DOI:
https://doi.org/10.30837/0135-1710.2026.189.182Ключові слова:
комп’ютерний зір, анотування зображень, активне навчання, сегментація, синтетичні даніАнотація
Предметом дослідження є методи, алгоритми та програмні інструменти анотування візуальних даних у системах комп’ютерного зору в межах парадигми Data-Centric AI. У статті проаналізовано процеси структурування неструктурованої інформації, де якість розмітки визначає точність моделей штучного інтелекту. Виявлено обмеження ручних методів і ризики систематичних помилок за умови повної автоматизації. Мета дослідження – комплексний аналіз сучасних методів та інструментів анотування зображень у системах комп’ютерного зору та кількісне оцінювання доцільності гібридних стратегій Human-in-the-Loop для підвищення ефективності формування якісних наборів даних у межах парадигми Data-Centric AI. У статті необхідно виконати такі завдання: систематизувати типи анотувань від класифікації до паноптичної сегментації та розмітки 3D‑сцен; розглянути інструментарій на основі моделей Segment Anything Model і GroundingDINO; здійснити порівняльне оцінювання ручного, автоматичного й гібридного сценаріїв за показниками точності (mIoU) та трудомісткості; визначити проблеми довіри оператора до алгоритмічних підказок та ергономіки взаємодії. Методи: систематичний порівняльний аналіз гібридних стратегій Human-in-the-Loop, крос-доменний синтез результатів досліджень активного навчання та інтерактивної сегментації, формалізація показників прискорення, якості й відносного обсягу ручної праці. Досягнуті результати. Доведено, що гібридний конвеєр (YOLO/SAM та експертна корекція) забезпечує прискорення процесу в 5,4 раза. Час формування семантичної маски об’єкта скорочується з 65 до 12 с за умови збереження якості mIoU = 0,94, де втрата щодо еталона становить лише 0,02. Установлено, що гібридний сценарій є оптимальним у діапазоні порогових вимог , що охоплює найширший клас практичних завдань – від навчання виробничих моделей до медичної діагностики. Виявлено пряму залежність якості роботи анотатора від надійності автоматичних підказок, що підтверджує важливість прозорості алгоритмів. Висновки. Гібридне анотування є оптимальною стратегією для створення Ground Truth у критичних доменах (автономне водіння, медицина), що забезпечує баланс швидкості й точності. Запропонована формалізація задачі оптимізації з пороговим обмеженням дає змогу обґрунтовано обирати сценарій анотування для конкретного домену. Перспективи подальших досліджень полягають у вдосконаленні методів генерації синтетичних даних у симульованих середовищах і розробленні адаптивних інтерфейсів для зниження когнітивного навантаження на експертів.
Посилання
Song, H. et al. (2020), "Weighted Topic Model Learned From Local Semantic Space for Automatic Image Annotation", IEEE Access, Vol. 8, pp. 76411–76422. DOI: https://doi.org/10.1109/ACCESS.2020.2989200
Monarch, R. M. (2021), "Human-in-the-Loop Machine Learning: Active learning and annotation for human-centered AI", New York, 424 p.
Montezuma, D. et al. (2022), "Annotating for Artificial Intelligence Applications in Digital Pathology: A Practical Guide for Pathologists and Researchers", United States & Canadian Academy of Pathology, Vol. 36, pp. 100086. DOI: https://doi.org/10.1016/j.modpat.2022.100086
Demrozi, F. et al. (2023), "A Comprehensive Review of Automated Data Annotation Techniques in Human Activity Recognition", Cornell University arXiv. DOI: https://doi.org/10.48550/arXiv.2307.05988
Sun, Q. et al. (2025), "DocSpiral: A Platform for Integrated Assistive Document Annotation through Human-in-the-Spiral", Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics, Vol. 3, pp. 267–274. DOI: https://doi.org/10.18653/v1/2025.acl-demo.26
Li, X. et al. (2023), "HAL-IA: A Hybrid Active Learning framework using Interactive Annotation for medical image segmentation", Medical Image Analysis, Vol. 88, pp. 102862. DOI: https://doi.org/10.1016/j.media.2023.102862
Huang, Y. et al. (2025), "Application of human-in-the-loop hybrid augmented intelligence approach in security inspection system", Frontiers in Artificial Intelligence, Vol. 8. DOI: https://doi.org/10.3389/frai.2025.1518850
Ramanathan, A. S., Oyelere, S. S., Baruah, N. (2025), "Hybrid intelligence approach for detecting synthetic art", Human-Intelligent Systems Integration, Vol. 7, pp. 325–340. DOI: https://doi.org/10.1007/s42454-025-00081-z
Yadnakudige Subramanya, S. et al. (2025), "Human-in-the-Loop Annotation for Image-Based Engagement Estimation: Assessing the Impact of Model Reliability on Annotation Accuracy", Human-Computer Interaction. HCII 2025. Lecture Notes in Computer Science, Vol. 15770, pp. 169–186. DOI: https://doi.org/10.1007/978-3-031-93864-1_12
Al-Turki, D. et al. (2023), "The power of progressive active learning in floorplan images for energy assessment", Scientific reports, Vol. 16238. DOI: https://doi.org/10.1038/s41598-023-42276-x
Sager, C., Janiesch, C., Zschech, P. (2021), "A survey of image labelling for computer vision applications", Journal of Business Analytics. DOI: https://doi.org/10.48550/arXiv.2104.08885
Bachani, V. et al. (2024), "Image Segmentation Survey: Classical and Deep Learning Methods", 2024 International Conference on Electrical, Computer and Energy Technologies (ICECET), pp. 1–6. DOI: https://doi.org/10.1109/ICECET61485.2024.10698602
Song, H. et al. (2023), "Learning From Noisy Labels With Deep Neural Networks: A Survey", IEEE Transactions on Neural Networks and Learning Systems, Vol. 34, pp. 8135-8153. DOI: https://doi.org/10.1109/TNNLS.2022.3152527
Whang, S., Roh, Y., Song, H. (2023), "Data collection and quality challenges in deep learning: a data-centric AI perspective", The VLDB Journal 32, pp. 791–813. DOI: https://doi.org/10.1007/s00778-022-00775-9
Zou, Z. et al. (2023), "Object Detection in 20 Years: A Survey", Proceedings of the IEEE, Vol. 111, pp. 257–276. DOI: https://doi.org/10.1109/JPROC.2023.3238524
Ciaparrone, G. et al. (2020), "Deep learning in video multi-object tracking: A survey", Science Direct, Neurocomputing, Vol. 381, pp. 61–88. DOI: https://doi.org/10.1016/j.neucom.2019.11.023
Nagiu, A. S. et al. (2024), "3D Object Detection for Autonomous Driving: A Comprehensive Review", 2024 6th International Conference on Computing and Informatics (ICCI), pp. 01–11. DOI: https://doi.org/10.1109/ICCI61671.2024.10485120
Minaee, S. et al. (2022), "Image Segmentation Using Deep Learning: A Survey", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 44, pp. 3523–3542. DOI: https://doi.org/10.1109/TPAMI.2021.3059968
Wu, X. et al. (2022), "A survey of human-in-the-loop for machine learning", Science Direct, Future Generation Computer Systems, Vol. 135, pp. 364–381. DOI: https://doi.org/10.1016/j.future.2022.05.014
Mumuni, A., Mumuni, F., Gerrar, N. K. (2024), "A Survey of Synthetic Data Augmentation Methods in Machine Vision", Springer Nature Link, Machine Intelligence Research, Vol. 21, pp. 831–869. DOI: https://doi.org/10.1007/s11633-022-1411-7
Chen, Z. M. et al. (2019), "Multi-Label Image Recognition With Graph Convolutional Networks", 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5172–5181. DOI: https://doi.org/10.1109/CVPR.2019.00532
Padilla, R. et al. (2021), "A Comparative Analysis of Object Detection Metrics with a Companion Open-Source Toolkit", Electronics, Vol. 10, pp. 279. DOI: https://doi.org/10.3390/electronics10030279
Ajmera, F. et al. (2021), "Survey on Object Detection in Aerial Imagery", 2021 Third International Conference on Intelligent Communication Technologies and Virtual Mobile Networks (ICICV), pp. 1050–1055. DOI: https://doi.org/10.1109/ICICV50876.2021.9388517
Gu, W., Bai, S., Kong, L. (2022), "A review on 2D instance segmentation based on deep neural networks", Science Direct, Image and Vision Computing, Vol. 120, pp. 104401. DOI: https://doi.org/10.1016/j.imavis.2022.104401
Elharrouss, O. et al. (2021), "Panoptic Segmentation: A Review", Cornell University arXiv. DOI: https://doi.org/10.48550/arXiv.2111.10250
Chen, Y., Tian, Y., He, M. (2020), "Monocular human pose estimation: A survey of deep learning-based methods", Science Direct, Computer Vision and Image Understanding, Vol. 192, p. 102897. DOI: https://doi.org/10.1016/j.cviu.2019.102897
Stefanini, M. et al. (2021), "From Show to Tell: A Survey on Image Captioning", Cornell University arXiv. DOI: https://doi.org/10.48550/arXiv.2107.06912
Roh, Y., Heo, G., Whang, S. E. (2021), "A Survey on Data Collection for Machine Learning: A Big Data – AI Integration Perspective", IEEE Transactions on Knowledge and Data Engineering, Vol. 33, pp. 1328–1347. DOI: https://doi.org/10.1109/TKDE.2019.2946162
Gu, F. et al. (2021), "A Survey on Deep Learning for Human Activity Recognition", Association for Computing Machinery, Vol. 54, p. 34. DOI: https://doi.org/10.1145/3472290
Kirillov, A. et al. (2023), "Segment Anything", 2023 IEEE/CVF International Conference on Computer Vision (ICCV), pp. 3992–4003. DOI: https://doi.org/10.1109/ICCV51070.2023.00371
Terven, J. et al. (2023), "A Comprehensive Review of YOLO Architectures in Computer Vision: From YOLOv1 to YOLOv8 and YOLO-NAS", Machine Learning and Knowledge Extraction, Vol. 5, p. 1680–1716. DOI: https://doi.org/10.3390/make5040083
Corbière, C. et al. (2019), "Addressing Failure Prediction by Learning Model Confidence", Computer Vision and Pattern Recognition, arXiv. DOI: https://doi.org/10.48550/arXiv.1910.04851
UA
EN 


