КОМПЛЕКСНЕ ОЦІНЮВАННЯ ТРАНСФОРМЕРНИХ МОДЕЛЕЙ ДЛЯ ЗАДАЧІ СЕМАНТИЧНОЇ ПОДІБНОСТІ РЕЧЕНЬ ДЛЯ АНГЛІЙСЬКОЇ ТА УКРАЇНСЬКОЇ МОВ
DOI:
https://doi.org/10.30837/0135-1710.2026.189.284Ключові слова:
семантична подібність, трансформерні моделі, оцінювання моделей, коефіцієнт кореляції Пірсона, коефіцієнт кореляції рангу Спірмена, англійська мова, українська мова, міжмовна подібність, практична ефективність моделейАнотація
Предметом дослідження є трансформерні моделі семантичної подібності речень і підходи до їх оцінювання в одномовних і міжмовних сценаріях для англійської та української мов. Мета роботи – оцінити й порівняти ефективність трансформерних моделей на англомовних, українськомовних і англо-українських парах речень з огляду на різні підходи до оцінювання їх якості та практичної придатності. Зважаючи на окреслену мету, необхідно було виконати такі завдання: порівняти моделі на одномовних і міжмовних наборах даних; проаналізувати результати за коефіцієнтами Пірсона та Спірмена; оцінити практичну придатність моделей способом класифікації прогнозів за величиною похибки; дослідити вплив мовного чинника на точність моделей. Методи. У дослідженні використано трансформерні моделі GTE, LaBSE, MiniLM та MPNet і набір даних STS-B, його українськомовну й англо-українську версії. Для обчислення подібності застосовано косинусну міру, а результати оцінено за допомогою коефіцієнтів кореляції Пірсона та Спірмена й класифікації прогнозів за порогом похибки. Результати дослідження. Визначено, що модель GTE демонструє найкращу загальну ефективність за сукупністю метрик, а MiniLM забезпечує оптимальний баланс між точністю та обчислювальними витратами. З’ясовано, що високі значення кореляції не завжди відповідають високій частці коректних прогнозів, що вказує на обмеженість традиційних підходів оцінювання. Встановлено систематичну тенденцію моделей до переоцінювання подібності в низькому діапазоні, а також виявлено, що міжмовні пари можуть демонструвати вищу точність за пороговими оцінками, незважаючи на нижчі значення кореляції, що свідчить про різну поведінку моделей залежно від типу метрики. Висновки. Обґрунтовано доцільність використання комбінованого підходу для оцінювання моделей семантичної подібності, який дає змогу більш повно відтворити їх реальну ефективність. Досягнуті результати підтверджують необхідність врахування мовної специфіки та практичних вимог задач у виборі моделей і підходів до їх оцінювання та наголошують на важливості переходу до комплексних підходів оцінювання.
Посилання
Agirre, E., Cer, D., Diab, M., Gonzalez-Agirre, A., Guo, W. (2013), "SEM 2013 shared task: Semantic Textual Similarity", Joint Conference on Lexical and Computational Semantics, Vol. 1, pp. 32–43.
anikol12 (2026), "STSB-UK", Huggingface.co. Available at: https://huggingface.co/datasets/anikol12/STSB-UK
(Accessed 1 Apr. 2026).
Artetxe, M., Schwenk, H. (2019), "Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond", Transactions of the Association for Computational Linguistics, Vol. 7, pp. 597–610. DOI: https://doi.org/10.1162/tacl_a_00288
Cer, D., Diab, M., Agirre, E., Lopez-Gazpio, I., Specia, L. (2017), "SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation", Proceedings of the International Workshop on Semantic Evaluation (SemEval). DOI: https://doi.org/10.18653/v1/S17-2001
Chang, T.A., Arnett, C., Tu, Z., Bergen, B. (2024), "When Is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages", Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 4074–4096. DOI: https://doi.org/10.18653/v1/2024.emnlp-main.236
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., Stoyanov, V. (2020), "Unsupervised Cross-lingual Representation Learning at Scale", Proceedings of the Annual Meeting of the Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2020.acl-main.747
Devlin, J., Chang, M.-W., Lee, K., Toutanova, K. (2019), "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics, Vol. 1, pp. 4171–4186. DOI: https://doi.org/10.18653/v1/n19-1423
Feng, F., Yang, Y., Cer, D., Arivazhagan, N., Wang, W. (2022), "Language-agnostic BERT Sentence Embedding", Proceedings of the Annual Meeting of the Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2022.acl-long.62
Gorokhovatskyi, V., Tvoroshenko, I., Kobylin, O., Vlasenko, N. (2023), "Search for Visual Objects by Request in the Form of a Cluster Representation for the Structural Image Description", Advances in Electrical and Electronic Engineering, Vol. 21, No. 1. DOI: https://doi.org/10.15598/aeee.v21i1.4661
Kobylin, I., Nikolaichuk, A. (2024), "Monitoring and Diagnosing Faults in Online Mode Using Time Series Data", Information Processing Systems, No. 3(178), pp. 27–32. DOI: https://doi.org/10.30748/soi.2024.178.03
Kour, G., Ackerman, S., Farchi, E., Raz, O., Carmeli, B., Tavor, A.A. (2022), "Measuring the Measuring Tools: An Automatic Evaluation of Semantic Metrics for Text Corpora", Proceedings of the Workshop on General Evaluation of NLP Models. DOI: https://doi.org/10.18653/v1/2022.gem-1.35
Maksymenko, D., Turuta, O. (2024), "Interpretable Conversation Routing via the Latent Embeddings Approach", Computation, Vol. 12, No. 12, p. 237. DOI: https://doi.org/10.3390/computation12120237
Mikolov, T., Chen, K., Corrado, G., Dean, J. (2013), "Efficient Estimation of Word Representations in Vector Space", arXiv. DOI: https://doi.org/10.48550/arXiv.1301.3781
Panchenko, D., Maksymenko, D., Turuta, O., Luzan, M., Tytarenko, S. (2022), "Ukrainian News Corpus as Text Classification Benchmark", Communications in Computer and Information Science, pp. 550–559. DOI: https://doi.org/10.1007/978-3-031-14841-5_37
Pennington, J., Socher, R., Manning, C. (2014), "Glove: Global Vectors for Word Representation", Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 1532–1543. DOI: https://doi.org/10.3115/v1/d14-1162
Poliak, A. (2020), "A Survey on Recognizing Textual Entailment as an NLP Evaluation", Proceedings of the Workshop on Evaluation for NLP. DOI: https://doi.org/10.18653/v1/2020.eval4nlp-1.10
Reimers, N., Gurevych, I. (2019), "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", Proceedings of the Conference on Empirical Methods in Natural Language Processing. DOI: https://doi.org/10.18653/v1/d19-1410
Reimers, N., Gurevych, I. (2020), "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation", Proceedings of the Conference on Empirical Methods in Natural Language Processing. DOI: https://doi.org/10.18653/v1/2020.emnlp-main.365
Reimers, N., Beyer, P., Gurevych, I. (2016), "Task-Oriented Intrinsic Evaluation of Semantic Textual Similarity", Proceedings of the International Conference on Computational Linguistics, pp. 87–96.
Mehri, S., Eric, M., Hakkani-Tur, D. (2020), "DialoGLUE: A Natural Language Understanding Benchmark for Task-Oriented Dialogue", arXiv. DOI: https://doi.org/10.48550/arXiv.2009.13570
Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., Bowman, S. (2018), "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding", Proceedings of the Workshop on Evaluation of NLP Systems. DOI: https://doi.org/10.18653/v1/W18-5446
Wang, W., Wei, F., Dong, L., Bao, H., Yang, N., Zhou, M. (2020), "MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers", arXiv. DOI: https://doi.org/10.48550/arXiv.2002.10957
Yakovleva, O., Kovtunenko, A., Liubchenko, V., Honcharenko, V., Kobylin, O. (2023), "Face Detection for Video Surveillance-Based Security System", Proceedings of the International Conference on Computational Linguistics and Intelligent Systems, Vol. III, pp. 69–86.
Zesch, T. (2010), "Study of Semantic Relatedness of Words Using Collaboratively Constructed Semantic Resources", Dissertation, p. 130. Available at: https://d-nb.info/1001286782 (Accessed 1 Apr. 2026).
Zhang, X., Zhang, Y., Long, D., Xie, W., Dai, Z., Tang, J., Lin, H., Yang, B., Xie, P., Huang, F., Zhang, M., Li, W., Zhang, M. (2024), "mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval", Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 1393–1412. DOI: https://doi.org/10.18653/v1/2024.emnlp-industry.103
UA
EN 


