Розробка комбінованого методу аналізу емоційної забарвленості текстів

Костянтин Едуардович Петров; Ігор Петрович Боков; Ігор Володимирович Кобзев

doi:10.30837/0135-1710.2025.186.005

Автор(и)

Костянтин Едуардович Петров Харківський національний університет радіоелектроніки, кафедра ІУС, Україна https://orcid.org/0000-0003-1973-711X
Ігор Петрович Боков Харківський національний університет радіоелектроніки, здобувач вищої освіти, група СШІм-23-2, Україна
Ігор Володимирович Кобзев ХНЕУ ім. Семена Кузнеця, кафедра мультимедійних систем і технологій , Україна https://orcid.org/0000-0002-7182-5814

DOI:

https://doi.org/10.30837/0135-1710.2025.186.005

Ключові слова:

емоційна забарвленість, природна мова, лексичний аналіз, машинне навчання, глибока нейронна мережа, трансформер, механізм уваги, класифікація текстів

Анотація

Однією з ключових задач обробки природної мови (NLP) є аналіз емоційної забарвленості тексту, який відіграє важливу роль у численних прикладних сферах, зокрема в маркетингу, соціології, психології, аналізі громадської думки та інформаційній безпеці. Системи аналізу забарвленості текстової інформації дозволяють оперативно отримувати структуровану інформацію про емоційні настрої суспільства, прогнозувати реакцію на певні події, а також виявляти потенційні загрози чи деструктивний контент.

Попри досягнуті значні успіхи в галузі NLP, існуючі методи визначення емоційної забарвленості текстів мають ряд обмежень, які знижують їхню ефективність. Зокрема, традиційні методи часто не враховують контекстуального значення слів, що є критично важливим для точного розпізнавання емоційної забарвленості. Крім того, деякі методи мають труднощі при аналізі багатозначних слів, сарказму, іронії та сленгових виразів. Тому актуальним завданням є подальше вдосконалення методів аналізу тональності тексту, зокрема через поєднання кількох методів та використання моделей глибокого навчання.

Метою дослідження є підвищення точності класифікації емоційної забарвленості природномовних текстів за рахунок використання лексиконних, статистичних і контекстуальних методів, які дозволять врахувати як поверхневі лексичні ознаки, так і глибокі семантичні зв’язки у тексті.

В запропонованому комбінованому методі поєднуються статистичне (TF-IDF) та контекстуальне (BERT) векторні представлення тексту. Таке поєднання дозволяє враховувати як частотні закономірності, так і глибокі семантичні залежності між словами. Використання ансамблевого класифікатора Random Forest дозволило побудувати стійку модель, яка здатна ефективно класифікувати короткі англомовні тексти з високим рівнем точності.

Результати експериментів показали, що запропонований комбінований метод має вищу точність класифікації (89 %) текстів, у порівнянні з базовими – TF-IDF + RF та BERT + RF (78 % і 82 % відповідно).

Використання комбінованого методу дозволить підвищити ефективність аналізу контексту, розпізнання складних мовних конструкції, що робить його перспективним для аналізу громадської думки в соціальних мережах, медіа та чат-ботах; для застосування у службах підтримки клієнтів; при визначенні емоцій користувачів веб-сервісів, сайтів та веб-додатків.

Біографії авторів

Костянтин Едуардович Петров, Харківський національний університет радіоелектроніки, кафедра ІУС

доктор технічних наук, професор, завідувач кафедри ІУС ХНУРЕ, м. Харків, Україна

Ігор Петрович Боков, Харківський національний університет радіоелектроніки, здобувач вищої освіти, група СШІм-23-2

здобувач вищої освіти, група СШІм-23-2, факультет комп’ютерних наук ХНУРЕ, м. Харків

Ігор Володимирович Кобзев, ХНЕУ ім. Семена Кузнеця, кафедра мультимедійних систем і технологій

кандидат технічних наук, доцент, доцент кафедри мультимедійних систем і технологій ХНЕУ ім. Семена Кузнеця, м. Харків, Україна

Посилання

Goldberg Y. Neural Network Methods in Natural Language Processing. San Rafael: Morgan & Claypool, 2017. 287 p. URL: https://doi.org/10.1007/978-3-031-02165-7

Joshi D. Emotion Detection using Transformer Model with Deep Learning. International Journal of Engineering Research and Technology. 2025. Vol. 14 (3). P. 1–7 p. URL: https://doi.org/10.17577/IJERTV14IS030116

Acheampong F., Wenyu C., Nunoo-Mensah H. Text-based emotion detection: Advances, challenges, and opportunities. Engineering Reports. 2020. Vol. 2 (7). P. 1–24. URL: https://doi.org/10.1002/eng2.12189

Bing L. Sentiment Analysis: Mining Opinions, Sentiments, and Emotions. Cambridge : Cambridge University Press, 2020, 448 p.

Vanshika, Rani N., Walia R. A Comprehensive Review of Sentiment Analysis: Techniques, Datasets, Limitations, and Future Scope. 2024 Sixth International Conference on Computational Intelligence and Communication Technologies (CCICT), Sonepat, India, April 19-20, 2024. P. 403-409, URL: https://doi.org/10.1109/CCICT62777.2024.00072.

Боков І. П., Петров К. Е. Дослідження методів аналізу емоційного забарвлення текстів. Радіоелектроніка та молодь у ХХІ столітті: матеріали XXVIII Міжнар. молодіж. форуму, 16–18 квіт. 2025 р. Харків, 2025, Т. 6. С. 10–11.

Ekman P. Telling lies: Clues to deceit in the marketplace, politics, and marriage. W. W. Norton & Company, 2009. 400 p.

Emotion: Theory, Research and Experience. Volume 1. Theories of Emotion. Edited by R. Plutchik and H. Kellerman. Academic Press: London, 1980. 399 p. URL: https://doi.org/10.1017/S0033291700053769

Russell S., Norvig P. Artificial Intelligence: A Modern Approach. 4th ed. Boston : Pearson, 2020. 1136 p.

Jurafsky D., Martin J. Speech and Language Processing. 3rd ed. New Jersey : Pearson, 2008. 1024 p.

Sailunaz K., Alhajj R. Emotion and Sentiment Analysis from Twitter Text. Journal of Computational Science. 2019. Vol. 36. P. 437–448. URL: https://doi.org/10.1016/j.jocs.2019.05.009.

Dang N., Moreno-García M., De la Prieta F. Sentiment analysis based on deep learning: a comparative study. Electronics. 2020. Vol. 9(3). P. 1–29. URL: https://doi.org/10.3390/electronics9030483

Ghafoor Y., Jinping S., Calderon F., Huang Y., Chen K., Chen Y. TERMS: textual emotion recognition in multidimensional space. Applied Intelligence. 2023. Vol. 53(3). P. 2673–2693. URL: https://doi.org/10.1007/s10489-022-03567-4

Manning C., Schütze H. Foundations of Statistical Natural Language Processing. Cambridge: MIT Press, 1999. 718 p.

Minaee S., Kalchbrenner N., Cambria E., Nikzad N., Chenaghlu M., Gao J. Deep learning based text classification: A comprehensive review. ACM Computing Surveys. 2022. Vol. 54(3). P. 1–40. URL: https://doi.org/10.1145/3439726

Otter D., Medina J., Kalita J. A Survey of the Usages of Deep Learning for Natural Language Processing. IEEE Transactions on Neural Networks and Learning Systems. 2020. Vol. 32(2). P. 604–624. URL: https://doi.org/10.1109/TNNLS.2020.2979670

Chen S., Zhang Y., Yang Q. Multi-Task Learning in Natural Language Processing: An Overview. ACM Computing Surveys. 2024. Vol. 56(12). P. 1–32. URL: https://doi.org/10.1145/3663363

Pimpalkar P., Ingle G., Sonewane R., Lad V., Bangre R. Deep Learning for Sentiment Analysis: A Survey. International Journal on Advanced Computer Theory and Engineering. 2025. Vol. 14(1). P. 347–351. URL: https://journals.mriindia.com/index.php/ijacte/article/view/479

Петров К. Е., Воробйов Є. К., Кобзев І. В. Синтез моделі класифікації діалогових актів на основі використання рекурентних нейронних мереж. АСУ та прилади автоматики. 2022. Вип. 178. С. 4–12. URL: https://doi.org/10.30837/0135-1710.2022.178.004

Howard J., Gugger S. Deep Learning for Coders with Fastai and PyTorch. Sebastopol: O’Reilly Media, 2020. 624 p.

Emotions dataset for NLP classification tasks. https://www.kaggle.com/datasets/praveengovi/emotions-dataset-for-nlp (дата звернення: 05.05.2025).

Understanding Precision, Recall, and F1 Score Metrics. https://medium.com/@piyushkashyap045/understanding-precision-recall-and-f1-score-metrics-ea219b908093 (дата звернення: 05.06.2025).

Yang C., Cao J. Interpretable Sentiment Analysis Using the Attention-Based Multiple Instance Classification Model: An Application to Wine Reviews. Harvard Data Science Review. 2025. Vol. 7(2). P. 1–11. URL: https://doi.org/10.1162/99608f92.caab9466