Огляд сучасних нейромережевих архітектур для сегментації зображень

Автор(и)

  • Андрій Романович Ковтуненко Харківський національний університет радіоелектроніки, кафедра інформатики, Україна https://orcid.org/0009-0004-9072-7779
  • Сергій Володимирович Машталір Харківський національний університет радіоелектроніки, кафедра інформатики, Україна https://orcid.org/0000-0002-0917-6622

DOI:

https://doi.org/10.30837/0135-1710.2025.185.043

Ключові слова:

комп'ютерний зір, сегментація зображень, нейронні мережі, архітектури-трансформери, сегментація без попереднього навчання

Анотація

Об'єктом дослідження є методи сегментації зображень та їх еволюція. Аналіз статті показав, що сегментація зображень за останнє десятиліття зазнала значного розвитку методів: від традиційних згорткових нейронних мереж до трансформерних моделей, здатних обробляти мультимодальні дані. Актуальність статті обумовлена швидким збільшенням кількості методів та підходів до вирішення різних задач сегментації, а також необхідністю розуміння сильних та слабких сторін цих методів.

Представлено хронологічний огляд моделей сегментації, починаючи з повнозв'язних згорткових нейронних мереж (FCN),  продовжуючи аналізом U-Net, SegNet, сімейства DeepLab, Mask R-CNN, Gated-SCNN, FastFCN, MaskFormer, SegFormer, Mask2Former, OneFormer і завершуючи моделями нового покоління – Segment Anything Model (SAM) та її удосконаленою версією HQ-SAM. Для кожної архітектури детально розглянуто технічні особливості, інновації, переваги та обмеження.

Проведений аналіз дав змогу виявити типові слабкі місця моделей – точне виявлення границь об'єктів, сегментація малих об'єктів, доменна адаптація та використання апріорних знань, а також обчислювальні обмеження. Показано, що розвиток моделей не був лінійним, і ранні методи не були повністю замінені. Багато сучасних підходів успішно поєднують класичні методи з нейромережевими, створюючи гібридні рішення, що перевершують попередні.

Систематизація наявних підходів у хронологічному порядку дозволяє не тільки простежити еволюцію архітектурних рішень, але й зрозуміти основні ідеї та напрямки досліджень, а також невирішені проблеми, що залишаються актуальними. Це дає змогу уникати повторення вже відомих обмежень та помилок минулих підходів при розробці нових моделей і обґрунтовано обирати архітектури для вирішення прикладних задач.

Посилання

J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun. 2015. doi:10.1109/cvpr.2015.7298965

O. Ronneberger, P. Fischer, and T. Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation,” Lecture Notes in Computer Science, pp. 234–241, 2015. doi:10.1007/978-3-319-24574-4_28

V. Badrinarayanan, A. Kendall, and R. Cipolla, “SegNet: A deep convolutional encoder-decoder architecture for image segmentation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 12, pp. 2481–2495, Dec. 2017. doi:10.1109/tpami.2016.2644615

L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Semantic image segmentation with deep convolutional nets and fully connected crfs“. arXiv preprint arXiv:1412.7062, Jun. 2016.

L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, no. 4, pp. 834–848, Apr. 2018. doi:10.1109/tpami.2017.2699184

L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam, “Rethinking Atrous Convolution for Semantic Image Segmentation,” arXiv preprint arXiv:1706.05587, Jun. 2017.

L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, “Encoder-decoder with atrous separable convolution for Semantic Image segmentation,” Lecture Notes in Computer Science, pp. 833–851, 2018. doi:10.1007/978-3-030-01234-2_49

K. He, G. Gkioxari, P. Dollar, and R. Girshick, “Mask R-CNN,” 2017 IEEE International Conference on Computer Vision (ICCV), Oct. 2017. doi:10.1109/iccv.2017.322

T. Takikawa, D. Acuna, V. Jampani, and S. Fidler, “Gated-SCNN: Gated shape cnns for semantic segmentation,” 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Oct. 2019. doi:10.1109/iccv.2019.00533

H. Wu, J. Zhang, K. Huang, K. Liang, and Y. Yu, “FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation,” arXiv preprint arXiv:1903.11816, Mar. 2019.

B. Cheng, A. G. Schwing, and A. Kirillov, “Per-Pixel Classification is Not All You Need for Semantic Segmentation,” Advances in neural information processing systems, vol. 34, pp. 17864–17875, Jul. 2021.

N. Carion et al., “End-to-end object detection with Transformers,” Lecture Notes in Computer Science, pp. 213–229, 2020. doi:10.1007/978-3-030-58452-8_13

E. Xie, W. Wang, Z. Yu, A. Anandkumar, J. M. Alvarez, and P. Luo, “SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers,” Advances in neural information processing systems, vol. 32, pp. 12077–12090, May 2021.

B. Cheng, I. Misra, A. G. Schwing, A. Kirillov, and R. Girdhar, “Masked-attention mask transformer for Universal Image segmentation,” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1280–1289, Jun. 2022. doi:10.1109/cvpr52688.2022.00135

A. Kirillov, Y. Wu, K. He, and R. Girshick, “Pointrend: Image segmentation as rendering,” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Jun. 2020. doi:10.1109/cvpr42600.2020.00982

B. Cheng, O. Parkhi, and A. Kirillov, “Pointly-supervised instance segmentation,” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Jun. 2022. doi:10.1109/cvpr52688.2022.00264

J. Jain et al., “OneFormer: One Transformer to rule Universal Image segmentation,” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2989–2998, Jun. 2023. doi:10.1109/cvpr52729.2023.00292

A. Kirillov et al., “Segment Anything,” Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 4015–4026, Apr. 2023.

L. Ke et al., “Segment Anything in High Quality,” Advances in Neural Information Processing Systems, vol. 36, pp. 29914–29934, Jun. 2023.

##submission.downloads##

Опубліковано

2025-06-27

Як цитувати

Ковтуненко, А. Р., & Машталір, С. В. (2025). Огляд сучасних нейромережевих архітектур для сегментації зображень . АСУ та прилади автоматики, 1(185), 53–62. https://doi.org/10.30837/0135-1710.2025.185.043