A COMPREHENSIVE EVALUATION OF TRANSFORMER MODELS FOR SENTENCE-LEVEL SEMANTIC SIMILARITY IN ENGLISH AND UKRAINIAN

Анна  Ніколайчук; Олег Кобилін; Ілля Кобилін; Олександра Путятіна

doi:10.30837/0135-1710.2026.189.284

Автор(и)

Анна Ніколайчук Харківський національний університет радіоелектроніки, Україна https://orcid.org/0009-0001-8643-332X
Олег Кобилін Харківський національний університет радіоелектроніки, Україна https://orcid.org/0000-0003-0834-0475
Ілля Кобилін Харківський національний університет радіоелектроніки, Україна https://orcid.org/0000-0002-4552-9616
Олександра Путятіна Харківський національний університет радіоелектроніки, Україна https://orcid.org/0000-0003-4853-7125

DOI:

https://doi.org/10.30837/0135-1710.2026.189.284

Ключові слова:

семантична подібність, трансформерні моделі, оцінювання моделей, коефіцієнт кореляції Пірсона, коефіцієнт кореляції рангу Спірмена, англійська мова, українська мова, міжмовна подібність, практична ефективність моделей

Анотація

Предметом дослідження є трансформерні моделі семантичної подібності речень і підходи до їх оцінювання в одномовних і міжмовних сценаріях для англійської та української мов. Мета роботи – оцінити й порівняти ефективність трансформерних моделей на англомовних, українськомовних і англо-українських парах речень з огляду на різні підходи до оцінювання їх якості та практичної придатності. Зважаючи на окреслену мету, необхідно було виконати такі завдання: порівняти моделі на одномовних і міжмовних наборах даних; проаналізувати результати за коефіцієнтами Пірсона та Спірмена; оцінити практичну придатність моделей способом класифікації прогнозів за величиною похибки; дослідити вплив мовного чинника на точність моделей. Методи. У дослідженні використано трансформерні моделі GTE, LaBSE, MiniLM та MPNet і набір даних STS-B, його українськомовну й англо-українську версії. Для обчислення подібності застосовано косинусну міру, а результати оцінено за допомогою коефіцієнтів кореляції Пірсона та Спірмена й класифікації прогнозів за порогом похибки. Результати дослідження. Визначено, що модель GTE демонструє найкращу загальну ефективність за сукупністю метрик, а MiniLM забезпечує оптимальний баланс між точністю та обчислювальними витратами. З’ясовано, що високі значення кореляції не завжди відповідають високій частці коректних прогнозів, що вказує на обмеженість традиційних підходів оцінювання. Встановлено систематичну тенденцію моделей до переоцінювання подібності в низькому діапазоні, а також виявлено, що міжмовні пари можуть демонструвати вищу точність за пороговими оцінками, незважаючи на нижчі значення кореляції, що свідчить про різну поведінку моделей залежно від типу метрики. Висновки. Обґрунтовано доцільність використання комбінованого підходу для оцінювання моделей семантичної подібності, який дає змогу більш повно відтворити їх реальну ефективність. Досягнуті результати підтверджують необхідність врахування мовної специфіки та практичних вимог задач у виборі моделей і підходів до їх оцінювання та наголошують на важливості переходу до комплексних підходів оцінювання.

Біографії авторів

Анна Ніколайчук , Харківський національний університет радіоелектроніки

здобувач другого рівня вищої освіти

Олег Кобилін, Харківський національний університет радіоелектроніки

кандидат технічних наук, доцент, завідувач кафедри інформатики

Ілля Кобилін, Харківський національний університет радіоелектроніки

кандидат технічних наук, старший викладач кафедри інформатики

Олександра Путятіна, Харківський національний університет радіоелектроніки

кандидат технічних наук, старший викладач кафедри інформатики

Посилання

Agirre, E., Cer, D., Diab, M., Gonzalez-Agirre, A., Guo, W. (2013), "SEM 2013 shared task: Semantic Textual Similarity", Joint Conference on Lexical and Computational Semantics, Vol. 1, pp. 32–43.

anikol12 (2026), "STSB-UK", Huggingface.co. Available at: https://huggingface.co/datasets/anikol12/STSB-UK

(Accessed 1 Apr. 2026).

Artetxe, M., Schwenk, H. (2019), "Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond", Transactions of the Association for Computational Linguistics, Vol. 7, pp. 597–610. DOI: https://doi.org/10.1162/tacl_a_00288

Cer, D., Diab, M., Agirre, E., Lopez-Gazpio, I., Specia, L. (2017), "SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation", Proceedings of the International Workshop on Semantic Evaluation (SemEval). DOI: https://doi.org/10.18653/v1/S17-2001

Chang, T.A., Arnett, C., Tu, Z., Bergen, B. (2024), "When Is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages", Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 4074–4096. DOI: https://doi.org/10.18653/v1/2024.emnlp-main.236

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., Stoyanov, V. (2020), "Unsupervised Cross-lingual Representation Learning at Scale", Proceedings of the Annual Meeting of the Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2020.acl-main.747

Devlin, J., Chang, M.-W., Lee, K., Toutanova, K. (2019), "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics, Vol. 1, pp. 4171–4186. DOI: https://doi.org/10.18653/v1/n19-1423

Feng, F., Yang, Y., Cer, D., Arivazhagan, N., Wang, W. (2022), "Language-agnostic BERT Sentence Embedding", Proceedings of the Annual Meeting of the Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2022.acl-long.62

Gorokhovatskyi, V., Tvoroshenko, I., Kobylin, O., Vlasenko, N. (2023), "Search for Visual Objects by Request in the Form of a Cluster Representation for the Structural Image Description", Advances in Electrical and Electronic Engineering, Vol. 21, No. 1. DOI: https://doi.org/10.15598/aeee.v21i1.4661

Kobylin, I., Nikolaichuk, A. (2024), "Monitoring and Diagnosing Faults in Online Mode Using Time Series Data", Information Processing Systems, No. 3(178), pp. 27–32. DOI: https://doi.org/10.30748/soi.2024.178.03

Kour, G., Ackerman, S., Farchi, E., Raz, O., Carmeli, B., Tavor, A.A. (2022), "Measuring the Measuring Tools: An Automatic Evaluation of Semantic Metrics for Text Corpora", Proceedings of the Workshop on General Evaluation of NLP Models. DOI: https://doi.org/10.18653/v1/2022.gem-1.35

Maksymenko, D., Turuta, O. (2024), "Interpretable Conversation Routing via the Latent Embeddings Approach", Computation, Vol. 12, No. 12, p. 237. DOI: https://doi.org/10.3390/computation12120237

Mikolov, T., Chen, K., Corrado, G., Dean, J. (2013), "Efficient Estimation of Word Representations in Vector Space", arXiv. DOI: https://doi.org/10.48550/arXiv.1301.3781

Panchenko, D., Maksymenko, D., Turuta, O., Luzan, M., Tytarenko, S. (2022), "Ukrainian News Corpus as Text Classification Benchmark", Communications in Computer and Information Science, pp. 550–559. DOI: https://doi.org/10.1007/978-3-031-14841-5_37

Pennington, J., Socher, R., Manning, C. (2014), "Glove: Global Vectors for Word Representation", Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 1532–1543. DOI: https://doi.org/10.3115/v1/d14-1162

Poliak, A. (2020), "A Survey on Recognizing Textual Entailment as an NLP Evaluation", Proceedings of the Workshop on Evaluation for NLP. DOI: https://doi.org/10.18653/v1/2020.eval4nlp-1.10

Reimers, N., Gurevych, I. (2019), "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", Proceedings of the Conference on Empirical Methods in Natural Language Processing. DOI: https://doi.org/10.18653/v1/d19-1410

Reimers, N., Gurevych, I. (2020), "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation", Proceedings of the Conference on Empirical Methods in Natural Language Processing. DOI: https://doi.org/10.18653/v1/2020.emnlp-main.365

Reimers, N., Beyer, P., Gurevych, I. (2016), "Task-Oriented Intrinsic Evaluation of Semantic Textual Similarity", Proceedings of the International Conference on Computational Linguistics, pp. 87–96.

Mehri, S., Eric, M., Hakkani-Tur, D. (2020), "DialoGLUE: A Natural Language Understanding Benchmark for Task-Oriented Dialogue", arXiv. DOI: https://doi.org/10.48550/arXiv.2009.13570

Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., Bowman, S. (2018), "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding", Proceedings of the Workshop on Evaluation of NLP Systems. DOI: https://doi.org/10.18653/v1/W18-5446

Wang, W., Wei, F., Dong, L., Bao, H., Yang, N., Zhou, M. (2020), "MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers", arXiv. DOI: https://doi.org/10.48550/arXiv.2002.10957

Yakovleva, O., Kovtunenko, A., Liubchenko, V., Honcharenko, V., Kobylin, O. (2023), "Face Detection for Video Surveillance-Based Security System", Proceedings of the International Conference on Computational Linguistics and Intelligent Systems, Vol. III, pp. 69–86.

Zesch, T. (2010), "Study of Semantic Relatedness of Words Using Collaboratively Constructed Semantic Resources", Dissertation, p. 130. Available at: https://d-nb.info/1001286782 (Accessed 1 Apr. 2026).

Zhang, X., Zhang, Y., Long, D., Xie, W., Dai, Z., Tang, J., Lin, H., Yang, B., Xie, P., Huang, F., Zhang, M., Li, W., Zhang, M. (2024), "mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval", Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 1393–1412. DOI: https://doi.org/10.18653/v1/2024.emnlp-industry.103