METHOD OF STRUCTURAL PRUNING OF CONVOLUTIONAL NEURAL NETWORKS WITH REGARD TO EDGE DEVICE HARDWARE CHARACTERISTICS

Станіслав Нечипуренко; Антон Сорокін

doi:10.30837/0135-1710.2026.189.034

Автор(и)

Станіслав Нечипуренко Харківський національний університет радіоелектроніки, Україна https://orcid.org/0009-0007-2936-9935
Антон Сорокін Харківський національний університет радіоелектроніки, Україна https://orcid.org/0000-0002-4383-2611

DOI:

https://doi.org/10.30837/0135-1710.2026.189.034

Ключові слова:

структурний прунінг, згорткова нейронна мережа, edge-пристрій, латентність інференсу, критерій важливості каналів, оптимізація моделі, відеоаналітика, детекція об’єктів, локальне оброблення даних, апаратно-орієнтована оптимізація

Анотація

Предмет дослідження – методи структурного прунінгу згорткових нейронних мереж, що застосовуються для зменшення обчислювальної складності моделей детекції об’єктів у відеосистемах з локальним обробленням даних. Мета роботи – вдосконалення методу структурного прунінгу способом упровадження апаратно-орієнтованого критерію відбору каналів, який зважає на реальну латентність операцій на цільовому edge-пристрої. Завдання дослідження: порівняльний аналіз наявних критеріїв структурного прунінгу, обґрунтування вибору базового методу й розроблення його модифікації на основі профілювання латентності цільової апаратної платформи. Методи дослідження основані на математичному аналізі критеріїв важливості каналів згорткових шарів, теоретичному порівнянні підходів до оцінювання надлишковості параметрів нейронної мережі та формалізації задачі апаратно-орієнтованої оптимізації. Результати дослідження полягають у розробленні модифікованого критерію важливості каналів, що поєднує оцінку впливу каналу на функцію втрат із нормалізованим коефіцієнтом латентності відповідного шару, який обчислюється способом профілювання часу виконання кожного згорткового шару на цільовому edge-пристрої. Запропонований критерій дає змогу пріоритизувати вилучення каналів у шарах, що створюють найбільше навантаження на конкретному апаратному забезпеченні, водночас зберігаючи канали з високим впливом на точність моделі. Виконано теоретичний аналіз властивостей критерію, зокрема доведено його зведення до базового критерію Тейлора за умови нульового значення гіперпараметра та монотонність перерозподілу пріоритетів прунінгу між шарами. Продемонстровано, що запропонований підхід є модульним, потребує мінімальних додаткових обчислювальних витрат і може бути інтегрований у наявні конвеєри оптимізації моделей. Експериментальна перевірка на моделі детектора YOLOv8n підтвердила запропонований підхід: за бюджету прунінгу 30% вилучених каналів отримано зниження латентності інференсу на 38,55% проти 34,88% у базового критерію Тейлора, що відповідає відносній перевазі +10,5%. Висновки. Результати підтверджують теоретичну обґрунтованість запропонованого підходу та його переваги порівняно з апаратно-незалежними критеріями прунінгу для задач розгортання моделей детекції на edge-пристроях у складі відеосистем реального часу.

Біографії авторів

Станіслав Нечипуренко, Харківський національний університет радіоелектроніки

аспірант кафедри електронних обчислювальних машин

Антон Сорокін, Харківський національний університет радіоелектроніки

кандидат технічних наук, доцент, доцент кафедри електронних обчислювальних машин

Посилання

Wang, X., Han, Y., Leung, V. C. M., Niyato, D., Yan, X., Chen, X. (2023), "Edge computing with artificial intelligence: A machine learning perspective", ACM Computing Surveys, Vol. 55, No. 9, Article 184. DOI: https://doi.org/10.1145/3555802

Yang, Z., Hu, J., Tang, X., Zhao, L., Li, K. (2022), "Optimization methods, challenges, and opportunities for edge inference", Electronics, Vol. 11, No. 14, Article 2189. DOI: https://doi.org/10.3390/electronics11142189

Jacob, B., Kligys, S., Chen, B., Zhu, M., Tang, M., Howard, A., Adam, H., Kalenichenko, D. (2018), "Quantization and training of neural networks for efficient integer-arithmetic-only inference", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). DOI: https://doi.org/10.1109/CVPR.2018.00286

Li, Z., Xu, P., Chang, X., Yang, L., Zhang, Y., Yao, L., Chen, X. (2023), "When object detection meets knowledge distillation: A survey", IEEE Transactions on Pattern Analysis and Machine Intelligence. DOI: https://doi.org/10.1109/TPAMI.2023.3257546

Liu, Z., Mao, H., Wu, C.-Y., Feichtenhofer, C., Darrell, T., Xie, S. (2022), "A ConvNet for the 2020s", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). DOI: https://doi.org/10.1109/CVPR52688.2022.01167

Cheng, H., Zhang, M., Shi, J. Q. (2024), "A survey on deep neural network pruning: Taxonomy, comparison,

analysis, and recommendations", IEEE Transactions on Pattern Analysis and Machine Intelligence. DOI: https://doi.org/10.1109/TPAMI.2024.3447085

Li, H., Kadav, A., Durdanovic, I., Samet, H., Graf, H. P. (2017), "Pruning filters for efficient convnets", Proceedings of the International Conference on Learning Representations (ICLR). DOI: https://doi.org/10.48550/arXiv.1608.08710

Molchanov, P., Mallya, A., Tyree, S., Frosio, I., Kautz, J. (2019), "Importance estimation for neural network pruning", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). DOI: https://doi.org/10.1109/CVPR.2019.01161

He, Y., Liu, P., Wang, Z., Hu, Z., Yang, Y. (2019), "Filter pruning via geometric median for deep convolutional neural networks acceleration", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). DOI: https://doi.org/10.1109/CVPR.2019.00447

Fang, G., Ma, X., Song, M., Mi, M. B., Wang, X. (2023), "DepGraph: Towards any structural pruning", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). DOI: https://doi.org/10.1109/CVPR52729.2023.01544

Liu, Z., Li, J., Shen, Z., Huang, G., Yan, S., Zhang, C. (2017), "Learning efficient convolutional networks through network slimming", Proceedings of the IEEE International Conference on Computer Vision (ICCV). DOI: https://doi.org/10.1109/ICCV.2017.298

He, Y., Lin, J., Liu, Z., Wang, H., Li, L.-J., Han, S. (2018), "AMC: AutoML for model compression and acceleration on mobile devices", Proceedings of the European Conference on Computer Vision (ECCV). DOI: https://doi.org/10.1007/978-3-030-01234-2_48

Howard, A. G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Andreetto, M., Adam, H. (2017), "MobileNets: Efficient convolutional neural networks for mobile vision applications", arXiv preprint. DOI: https://doi.org/10.48550/arXiv.1704.04861

Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., Chen, L.-C. (2018), "MobileNetV2: Inverted residuals and linear bottlenecks", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). DOI: https://doi.org/10.1109/CVPR.2018.00474

Wang, C.-Y., Bochkovskiy, A., Liao, H.-Y. M. (2023), "YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). DOI: https://doi.org/10.1109/CVPR52729.2023.00721