Методи зберігання й оброблення великих даних у завданнях виявлення дезінформації
DOI:
https://doi.org/10.30837/0135-1710.2025.187.324Ключові слова:
великі дані, хмарні обчислення, розподілені системи, аналіз даних, оптимізація сховища, машинне навчання, масштабованість, дезінформація, фейкові новиниАнотація
Предметом дослідження є методи та інструменти, що сприяють високопродуктивному, масштабованому й надійному аналізу даних у хмарних середовищах для виявлення дезінформації в режимі реального часу.
Мета статті – дослідити й оцінити методи підвищення ефективності зберігання та оброблення великих обсягів текстової, мультимедійної інформації і даних соціальних мереж у хмарних інфраструктурах із застосуванням виявлення дезінформації в режимі реального часу. Завдання: оцінити архітектури розподіленого зберігання та стовпчасті формати даних для ефективної їх організації; визначити стратегії стиснення та механізми кешування для зменшення накладних витрат введення-виведення; проаналізувати масштабовані фреймворки оброблення для потокових і пакетних робочих навантажень; виміряти продуктивність системи, масштабованість і економічну ефективність у сценаріях виявлення дезінформації в режимі реального часу. Методи: порівняльний аналіз форматів зберігання (Parquet, ORC, Avro, JSON), алгоритмів стиснення (Snappy, Zstandard) та розподілених фреймворків оброблення (Apache Spark, Apache Flink); оцінювання продуктивності передбачає вимірювання пропускної здатності, аналіз затримок і оцінювання витрат з використанням хмарної інфраструктури з багаторівневим зберіганням і конвеєрами потокових даних. Досягнуті результати. Оцінено вплив архітектур розподіленого зберігання, стовпчастих форматів даних, стратегій стиснення, механізмів кешування й масштабованих фреймворків оброблення на продуктивність, масштабованість і економічну ефективність системи. Ці підходи продемонстрували суттєве покращення пропускної здатності та надійності в сценаріях великомасштабного потокового й пакетного оброблення, особливо під час виявлення дезінформації в режимі реального часу. Результати довели, що система може швидко адаптуватися до піків навантаження даних, підтримувати високу точність виявлення та знижувати експлуатаційні витрати. Висновки. Підвищення ефективності зберігання та оброблення великих даних у хмарних платформах випливає з інтеграції стовпчастих форматів зі стисненням і можливостями pushdown у поєднанні з орієнтованими на потоки розподіленими обчисленнями. Шарова архітектура, що охоплює прийом даних, потокове оброблення, розподілене зберігання й аналітику, зменшує витрати введення-виведення та збільшує наскрізну пропускну здатність для сценаріїв реального часу. Оцінка демонструє покращення пропускної здатності приблизно на одну третину порівняно з базовими системами, що робить підхід добре придатним для робочих навантажень, чутливих до затримки, таких як виявлення дезінформації. Оптимізація з огляду на формат, потокова передача з низькою затримкою та адаптивне управління ємністю є основними рушіями продуктивності сучасних хмарних платформ даних.
Посилання
Hashem, I. A. T., Yaqoob, I., Anuar, N. B., Mokhtar, S., Gani, A., Khan, S. U. (2015), "The rise of "big data" on cloud computing: Review and open research issues", Information Systems, Vol. 47, P. 98–115. DOI: https://doi.org/10.1016/j.is.2014.07.006
Abueid, A. I. (2024), "Big Data and Cloud Computing Opportunities and Application Areas", Engineering, Technology & Applied Science Research, Vol. 14, No. 3, P. 14509–14516. DOI: https://doi.org/10.48084/etasr.7339
Sandhu, A. K. (2022), "Big Data with Cloud Computing: Discussions and Challenges", Big Data Mining and Analytics, Vol. 5, No. 1, P. 32–40. DOI: https://doi.org/10.26599/BDMA.2021.9020016
Ullah, A., Nawi, N. M., Sjarif, N. N. B. (2018), "Big Data in Cloud Computing: A Resource Management Perspective", Scientific Programming, Article 8885679. DOI: https://doi.org/10.1155/2018/5418679
Aqib, M., Mehmood, R., Alzahrani, A., Katib, I., Albeshri, A., Altowaijri, S. M. (2022), "Big data analytics in Cloud computing: an overview", Journal of Cloud Computing, Vol. 11, Article 62. DOI: https://doi.org/10.1186/s13677-022-00301-w
Sami, M. A., Kamal, M. M., Ahmed, K. M., Hossain, M. A. (2019), "A survey on data storage and placement methodologies for Cloud-Big Data ecosystem", Journal of Big Data, Vol. 6, Article 15. DOI: https://doi.org/10.1186/s40537-019-0178-3
Ivanov, T., Pergolesi, M. (2020), "The impact of columnar file formats on SQL-on-hadoop engine performance: A study on ORC and Parquet", Concurrency and Computation: Practice and Experience, Vol. 32, No. 5, Article e5523. DOI: https://doi.org/10.1002/cpe.5523
Zeng, X., Hui, Y., Shen, J., Pavlo, A., McKinney, W., Zhang, H. (2023), "An Empirical Evaluation of Columnar Storage Formats", Proceedings of the VLDB Endowment, Vol. 17, No. 2, P. 148–161. DOI: https://doi.org/10.14778/3626292.3626298
Nelluri, S. R., Saldanha, F. A. A. (2025), "Mastering Big Data Formats: ORC, Parquet, Avro, Iceberg, and the Strategy of Selection", International Journal of Computer Trends and Technology, Vol. 73, No. 1, P. 44–50. DOI: https://doi.org/10.14445/22312803/IJCTT-V73I1P105
Sedghani, I., Namavar, A., Zangeneh, V., Gerami, M. (2019), "Evaluation of distributed stream processing frameworks for IoT applications in Smart Cities", Journal of Big Data, Vol. 6, Article 52. DOI: https://doi.org/10.1186/s40537-019-0215-2
Pervaiz, A., Arsalan, M. G., Haseeb, U. R. K., Mirza, A., Usama, A., Nadia, Z., Zaheer, K., Aniqa, A. (2024), "Detecting fake news and disinformation using artificial intelligence and machine learning to avoid mob lynching at the time of COVID-19 pandemic and afterwards", Annals of Operations Research, Vol. 334, P. 529–561. DOI: https://doi.org/10.1007/s10479-022-05015-5
Choraś, M., Demestichas, K., Giełczyk, A., Herrero, Á., Ksieniewicz, P., Remoundou, K., Urda, D., Woźniak, M. (2021), "Advanced Machine Learning techniques for fake news (online disinformation) detection: A systematic mapping study", Applied Soft Computing, Vol. 101, Article 107050. DOI: https://doi.org/10.1016/j.asoc.2020.107050
Ahmad, I., Yousaf, M., Yousaf, S., Ahmad, M. O. (2020), "Fake news detection using machine learning ensemble methods", Complexity, Article 8885861. DOI: https://doi.org/10.1155/2020/8885861
Liu, Y., Wu, Y.-F. B. (2025), "Early detection of fake news on social media through propagation path classification with recurrent and convolutional networks", Information, Vol. 16, No. 3, Article 189. DOI: https://doi.org/10.3390/info16030189
Abbas, M., Khalid, S., Shafiq, H. (2025), "Fake News Detection Using Machine Learning and Deep Learning Algorithms: A Comprehensive Review and Future Perspectives", Computers, Vol. 14, No. 9, Article 394. DOI: https://doi.org/10.3390/computers14090394
Yang, Y., Yao, H., Cui, L. (2022), "Deep Learning for Fake News Detection: Theories and Models", EITCE 2022: 2022 6th International Conference on Electronic Information Technology and Computer Engineering, P. 513–518. DOI: https://doi.org/10.1145/3573428.3573663
Ji, C., Li, Y., Qiu, W., Awada, U., Li, K. (2012), "Big Data Processing in Cloud Computing Environments", 2012 12th International Symposium on Pervasive Systems, Algorithms and Networks, P. 17–23. DOI: https://doi.org/10.1109/I-SPAN.2012.9
Zaharia, M., Xin, R. S., Wendell, P., Das, T., Armbrust, M., Dave, A., Meng, X., Rosen, J., Venkataraman, S., Franklin, M. J., Ghodsi, A., Gonzalez, J., Shenker, S., Stoica, I. (2016), "Apache Spark: A unified engine for big data processing", Communications of the ACM, Vol. 59, No. 11, P. 56–65. DOI: https://doi.org/10.1145/2934664
UA
EN
