Methods for efficient big data storage and processing in disinformation detection tasks

Віталій Сітніков; Віталій Лященко

doi:10.30837/0135-1710.2025.187.324

Автор(и)

Віталій Сітніков Харківський національний університет радіоелектроніки, Україна https://orcid.org/0009-0005-3087-6104
Віталій Лященко Харківський національний університет радіоелектроніки, Україна https://orcid.org/0009-0002-8747-9976

DOI:

https://doi.org/10.30837/0135-1710.2025.187.324

Ключові слова:

великі дані, хмарні обчислення, розподілені системи, аналіз даних, оптимізація сховища, машинне навчання, масштабованість, дезінформація, фейкові новини

Анотація

Предметом дослідження є методи та інструменти, що сприяють високопродуктивному, масштабованому й надійному аналізу даних у хмарних середовищах для виявлення дезінформації в режимі реального часу.
Мета статті – дослідити й оцінити методи підвищення ефективності зберігання та оброблення великих обсягів текстової, мультимедійної інформації і даних соціальних мереж у хмарних інфраструктурах із застосуванням виявлення дезінформації в режимі реального часу. Завдання: оцінити архітектури розподіленого зберігання та стовпчасті формати даних для ефективної їх організації; визначити стратегії стиснення та механізми кешування для зменшення накладних витрат введення-виведення; проаналізувати масштабовані фреймворки оброблення для потокових і пакетних робочих навантажень; виміряти продуктивність системи, масштабованість і економічну ефективність у сценаріях виявлення дезінформації в режимі реального часу. Методи: порівняльний аналіз форматів зберігання (Parquet, ORC, Avro, JSON), алгоритмів стиснення (Snappy, Zstandard) та розподілених фреймворків оброблення (Apache Spark, Apache Flink); оцінювання продуктивності передбачає вимірювання пропускної здатності, аналіз затримок і оцінювання витрат з використанням хмарної інфраструктури з багаторівневим зберіганням і конвеєрами потокових даних. Досягнуті результати. Оцінено вплив архітектур розподіленого зберігання, стовпчастих форматів даних, стратегій стиснення, механізмів кешування й масштабованих фреймворків оброблення на продуктивність, масштабованість і економічну ефективність системи. Ці підходи продемонстрували суттєве покращення пропускної здатності та надійності в сценаріях великомасштабного потокового й пакетного оброблення, особливо під час виявлення дезінформації в режимі реального часу. Результати довели, що система може швидко адаптуватися до піків навантаження даних, підтримувати високу точність виявлення та знижувати експлуатаційні витрати. Висновки. Підвищення ефективності зберігання та оброблення великих даних у хмарних платформах випливає з інтеграції стовпчастих форматів зі стисненням і можливостями pushdown у поєднанні з орієнтованими на потоки розподіленими обчисленнями. Шарова архітектура, що охоплює прийом даних, потокове оброблення, розподілене зберігання й аналітику, зменшує витрати введення-виведення та збільшує наскрізну пропускну здатність для сценаріїв реального часу. Оцінка демонструє покращення пропускної здатності приблизно на одну третину порівняно з базовими системами, що робить підхід добре придатним для робочих навантажень, чутливих до затримки, таких як виявлення дезінформації. Оптимізація з огляду на формат, потокова передача з низькою затримкою та адаптивне управління ємністю є основними рушіями продуктивності сучасних хмарних платформ даних.

Біографії авторів

Віталій Сітніков, Харківський національний університет радіоелектроніки

асистент кафедри електронних обчислювальних машин

Віталій Лященко, Харківський національний університет радіоелектроніки

студент кафедри електронних обчислювальних машин

Посилання

Hashem, I. A. T., Yaqoob, I., Anuar, N. B., Mokhtar, S., Gani, A., Khan, S. U. (2015), "The rise of "big data" on cloud computing: Review and open research issues", Information Systems, Vol. 47, P. 98–115. DOI: https://doi.org/10.1016/j.is.2014.07.006

Abueid, A. I. (2024), "Big Data and Cloud Computing Opportunities and Application Areas", Engineering, Technology & Applied Science Research, Vol. 14, No. 3, P. 14509–14516. DOI: https://doi.org/10.48084/etasr.7339

Sandhu, A. K. (2022), "Big Data with Cloud Computing: Discussions and Challenges", Big Data Mining and Analytics, Vol. 5, No. 1, P. 32–40. DOI: https://doi.org/10.26599/BDMA.2021.9020016

Ullah, A., Nawi, N. M., Sjarif, N. N. B. (2018), "Big Data in Cloud Computing: A Resource Management Perspective", Scientific Programming, Article 8885679. DOI: https://doi.org/10.1155/2018/5418679

Aqib, M., Mehmood, R., Alzahrani, A., Katib, I., Albeshri, A., Altowaijri, S. M. (2022), "Big data analytics in Cloud computing: an overview", Journal of Cloud Computing, Vol. 11, Article 62. DOI: https://doi.org/10.1186/s13677-022-00301-w

Sami, M. A., Kamal, M. M., Ahmed, K. M., Hossain, M. A. (2019), "A survey on data storage and placement methodologies for Cloud-Big Data ecosystem", Journal of Big Data, Vol. 6, Article 15. DOI: https://doi.org/10.1186/s40537-019-0178-3

Ivanov, T., Pergolesi, M. (2020), "The impact of columnar file formats on SQL-on-hadoop engine performance: A study on ORC and Parquet", Concurrency and Computation: Practice and Experience, Vol. 32, No. 5, Article e5523. DOI: https://doi.org/10.1002/cpe.5523

Zeng, X., Hui, Y., Shen, J., Pavlo, A., McKinney, W., Zhang, H. (2023), "An Empirical Evaluation of Columnar Storage Formats", Proceedings of the VLDB Endowment, Vol. 17, No. 2, P. 148–161. DOI: https://doi.org/10.14778/3626292.3626298

Nelluri, S. R., Saldanha, F. A. A. (2025), "Mastering Big Data Formats: ORC, Parquet, Avro, Iceberg, and the Strategy of Selection", International Journal of Computer Trends and Technology, Vol. 73, No. 1, P. 44–50. DOI: https://doi.org/10.14445/22312803/IJCTT-V73I1P105

Sedghani, I., Namavar, A., Zangeneh, V., Gerami, M. (2019), "Evaluation of distributed stream processing frameworks for IoT applications in Smart Cities", Journal of Big Data, Vol. 6, Article 52. DOI: https://doi.org/10.1186/s40537-019-0215-2

Pervaiz, A., Arsalan, M. G., Haseeb, U. R. K., Mirza, A., Usama, A., Nadia, Z., Zaheer, K., Aniqa, A. (2024), "Detecting fake news and disinformation using artificial intelligence and machine learning to avoid mob lynching at the time of COVID-19 pandemic and afterwards", Annals of Operations Research, Vol. 334, P. 529–561. DOI: https://doi.org/10.1007/s10479-022-05015-5

Choraś, M., Demestichas, K., Giełczyk, A., Herrero, Á., Ksieniewicz, P., Remoundou, K., Urda, D., Woźniak, M. (2021), "Advanced Machine Learning techniques for fake news (online disinformation) detection: A systematic mapping study", Applied Soft Computing, Vol. 101, Article 107050. DOI: https://doi.org/10.1016/j.asoc.2020.107050

Ahmad, I., Yousaf, M., Yousaf, S., Ahmad, M. O. (2020), "Fake news detection using machine learning ensemble methods", Complexity, Article 8885861. DOI: https://doi.org/10.1155/2020/8885861

Liu, Y., Wu, Y.-F. B. (2025), "Early detection of fake news on social media through propagation path classification with recurrent and convolutional networks", Information, Vol. 16, No. 3, Article 189. DOI: https://doi.org/10.3390/info16030189

Abbas, M., Khalid, S., Shafiq, H. (2025), "Fake News Detection Using Machine Learning and Deep Learning Algorithms: A Comprehensive Review and Future Perspectives", Computers, Vol. 14, No. 9, Article 394. DOI: https://doi.org/10.3390/computers14090394

Yang, Y., Yao, H., Cui, L. (2022), "Deep Learning for Fake News Detection: Theories and Models", EITCE 2022: 2022 6th International Conference on Electronic Information Technology and Computer Engineering, P. 513–518. DOI: https://doi.org/10.1145/3573428.3573663

Ji, C., Li, Y., Qiu, W., Awada, U., Li, K. (2012), "Big Data Processing in Cloud Computing Environments", 2012 12th International Symposium on Pervasive Systems, Algorithms and Networks, P. 17–23. DOI: https://doi.org/10.1109/I-SPAN.2012.9

Zaharia, M., Xin, R. S., Wendell, P., Das, T., Armbrust, M., Dave, A., Meng, X., Rosen, J., Venkataraman, S., Franklin, M. J., Ghodsi, A., Gonzalez, J., Shenker, S., Stoica, I. (2016), "Apache Spark: A unified engine for big data processing", Communications of the ACM, Vol. 59, No. 11, P. 56–65. DOI: https://doi.org/10.1145/2934664