Навчання за кількома прикладами (few-shot) графової моделі нейронної мережі без використання зворотного поширення помилки
DOI:
https://doi.org/10.30837/0135-1710.2025.187.103Ключові слова:
зрозумілий штучний інтелект, few-shot машинне навчання, зворотне поширення помилки, редукція графівАнотація
Предметом роботи є структурно-графовий підхід до класифікації контурних зображень у режимі few-shot без використання зворотного поширення похибки. Основна ідея – зробити структуру носієм пояснень: зображення кодується у вигляді атрибутивного графа (критичні точки й лінії як вузли з геометричними атрибутами), а узагальнення виконується через формування концепт-атракторів. Мета дослідження – спроєктувати та експериментально підтвердити архітектуру, у якій концепти класів утворюються з кількох прикладів (5–6 на клас) способом структурних і параметричних редукцій, забезпечуючи прозорість рішень і відмову від зворотного поширення помилки. Завдання роботи: 1) визначити словник вузлів / ребер і набір атрибутів для контурних графів; 2) задати нормалізацію та інваріантності; 3) розробити структурні та параметричні редукційні оператори як монотонне спрощення структури; 4) описати процедуру агрегації прикладів у стабільні концепти; 5) побудувати класифікацію через відстань редагування графа (Graph Edit Distance) з практичними апроксимаціями; 6) порівняти з репрезентативними підходами навчання за кількома прикладами. Застосовані методи. Векторизація контуру → двочастковий граф (Point/Line як вузли); атрибути: координати (нормовані), довжина, кут, напрям, топологічні степені. Редукції: усунення нестабільних підструктур або шумів, узгодження шляхів між критичними точками. Концепти утворюються ітеративною композицією зразків; класифікація – за найкращою відповідністю графа концепту (GED з апроксимаціями). Результати дослідження. На підмножині MNIST із 5–6 базовими прикладами на клас (одна епоха) отримано узгоджувану точність приблизно 82 % за повної трасованості рішень: помилки пояснюються конкретними структурними подібностями. Подано індикативне порівняння з SVM/MLP/CNN, а також метричною (ProtoNet) і метанавчальною (MAML) лініями у вигляді оглядового графіка. Висновки. Структурно-графова схема з концептами забезпечує навчання за кількома прикладами без зворотного поширення помилки й надає вбудовані пояснення через явну графову структуру. Обмеження стосуються вартості GED та якості скелетизації. Перспективи дослідження – оптимізація алгоритмів класифікації, робота зі статичними сценами й асоціативне розпізнавання.
Посилання
Goodfellow, I., Courville, A., Bengio, Y. (2016), "Deep learning", The MIT Press, Cambridge, Massachusetts, 800 p. ISBN: 978-0-262-03561-3.
Heaton, J. (2018), "Ian Goodfellow, Yoshua Bengio, and Aaron Courville: Deep learning", Genetic Programming and Evolvable Machines, Vol. 19, No. 1–2, P. 305–307. DOI: https://doi.org/10.1007/s10710-017-9314-z
LeCun, Y., Bengio, Y., Hinton, G. (2015), "Deep learning", Nature, Vol. 521, No. 7553, P. 436–444. DOI: https://doi.org/10.1038/nature14539.
Bender, E. M., Gebru, T., McMillan-Major, A., Shmitchell, S. (2021), "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?", Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT ’21), ACM, P. 610–623. DOI: https://doi.org/10.1145/3442188.3445922
Zador, A. M. (2019), "A critique of pure learning and what artificial neural networks can learn from animal brains", Nature Communications, Vol. 10, No. 1, P. 3770. DOI: https://doi.org/10.1038/s41467-019-11786-6
Marcus, G. (2018), "Deep Learning: A Critical Appraisal", arXiv.
DOI: https://doi.org/10.48550/arXiv.1801.00631.
Parzhyn, Y., Lapin, M., Bokhan, K. (2025), "A New Approach to Building Energy Models of Neural Networks", Advanced Information Systems, Vol. 9, Issue 4, P. 100–119. DOI: https://doi.org/10.20998/2522-9052.2025.4.13.
Strubell, E., Ganesh, A., McCallum, A. (2019), "Energy and Policy Considerations for Deep Learning in NLP", arXiv. DOI: https://doi.org/10.48550/arXiv.1906.02243
Ji, Z., Lee, N., Frieske, R. et al. (2023), "Survey of Hallucination in Natural Language Generation", ACM Computing Surveys, Vol. 55, Issue 12, P. 1–38. DOI: https://doi.org/10.1145/3571730
Alemohammad, S., Casco-Rodriguez, J., Luzi, L. et al. (2023), "Self-Consuming Generative Models Go MAD", arXiv. DOI: https://doi.org/10.48550/arXiv.2307.01850.
Shumailov, I., Shumaylov, Z., Zhao, Y. et al. (2024), "The Curse of Recursion: Training on Generated Data Makes Models Forget", arXiv. DOI: https://doi.org/10.48550/arXiv.2305.17493.
Finn, C., Abbeel, P., Levine, S. (2017), "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks", arXiv. DOI: https://doi.org/10.48550/arXiv.1703.03400.
Snell, J., Swersky, K., Zemel, R. S. (2017), "Prototypical Networks for Few-shot Learning", arXiv.
DOI: https://doi.org/10.48550/arXiv.1703.05175.
Wang, Y., Yao, Q., Kwok, J. et al. (2020), "Generalizing from a Few Examples: A Survey on Few-Shot Learning", arXiv. DOI: https://doi.org/10.48550/arXiv.1904.05046.
Bai, X., Yang, X., Latecki, L. J., Liu, W., Tu, Z. (2015), "A comparative study using contours and skeletons as shape representations for binary image matching", Pattern Recognition Letters, Vol. 65, P. 159–165.
DOI: https://doi.org/10.1016/j.patrec.2015.04.007.
Parzhin, Y., Galkyn, S., Sobol, M. (2022), "Method For Binary Contour Images Vectorization Of Handwritten Characters For Recognition By Detector Neural Networks", 2022 IEEE 3rd KhPI Week on Advanced Technology (KhPIWeek), Kharkiv, Ukraine, P. 1–6. DOI: https://doi.org/10.1109/KhPIWeek57572.2022.9916331
Shen, W., Jiang, Y., Gao, W. et al. (2016), "Shape recognition by bag of skeleton-associated contour parts", Pattern Recognition Letters, Vol. 83, P. 321–329. DOI: https://doi.org/10.1016/j.patrec.2016.02.002.
Adadi, A., Berrada, M. (2018), "Peeking Inside the Black-Box: A Survey on Explainable Artificial Intelligence (XAI)", IEEE Access, Vol. 6, P. 52138–52160. DOI: https://doi.org/10.1109/ACCESS.2018.2870052.
Guidotti, R., Monreale, A., Ruggieri, S. et al. (2018), "A Survey Of Methods For Explaining Black Box Models", arXiv. DOI: https://doi.org/10.48550/arXiv.1802.01933.
Gao, X., Xiao, B., Tao, D. et al. (2010), "A survey of graph edit distance", Pattern Analysis and Applications, Vol. 13, No. 1, P. 113–129. DOI: https://doi.org/10.1007/s10044-008-0141-y.
Sanfeliu, A., Fu, K.-S. (1983), "A distance measure between attributed relational graphs for pattern recognition", IEEE Transactions on Systems, Man, and Cybernetics, Vol. SMC-13, Issue 3, P. 353–362.
DOI: https://doi.org/10.1109/TSMC.1983.6313167.
Rifkin, R., Klautau, A. (2004), "In Defense of One-Vs-All Classification", Journal of Machine Learning Research, Vol. 5, P. 101–141.
Parzhin, Y. (2014), "Hypotheses of neural code and the information model of the neuron-detector", arXiv.
DOI: https://doi.org/10.48550/arXiv.1411.6768.
Parzhin, Y. (2017), "The detector principle of constructing artificial neural networks as an alternative to the connectionist paradigm", arXiv. DOI: https://doi.org/10.48550/arXiv.1707.03623.
Parzhin, Y. (2025), "Architecture of Information", arXiv. DOI: https://doi.org/10.48550/arXiv.2503.21794.
Chen, W.-Y., Liu, Y.-C., Kira, Z. et al. (2020), "A Closer Look at Few-shot Classification", arXiv.
DOI: https://doi.org/10.48550/arXiv.1904.04232.
Lundberg, S., Lee, S.-I. (2017), "A Unified Approach to Interpreting Model Predictions", arXiv.
DOI: https://doi.org/10.48550/ARXIV.1705.07874.
Ribeiro, M. T., Singh, S., Guestrin, C. (2016), "«Why Should I Trust You?»: Explaining the Predictions of Any Classifier", arXiv. DOI: https://doi.org/10.48550/arXiv.1602.04938.
Rudin, C. (2019), "Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead", arXiv. DOI: https://doi.org/10.48550/arXiv.1811.10154.
Slack, D., Hilgard, S., Jia, E. et al. (2020), "Fooling LIME and SHAP: Adversarial Attacks on Post hoc Explanation Methods", arXiv. DOI: https://doi.org/10.48550/arXiv.1911.02508.
Blumenthal, D. B., Gamper, J. (2020), "On the exact computation of the graph edit distance", Pattern Recognition Letters, Vol. 134, P. 46–57. DOI: https://doi.org/10.1016/j.patrec.2018.05.002.
Bougleux, S., Brun, L., Carletti, V. et al. (2017), "Graph edit distance as a quadratic assignment problem", Pattern Recognition Letters, Vol. 87, P. 38–46. DOI: https://doi.org/10.1016/j.patrec.2016.10.001.
Hendrycks, D., Gimpel, K. (2018), "A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks", arXiv. DOI: https://doi.org/10.48550/arXiv.1610.02136.
Yang, J., Zhou, K., Li, Y. et al. (2024), "Generalized Out-of-Distribution Detection: A Survey", arXiv.
UA
EN
