МЕТОД АВТОМАТИЧНОЇ РОЗМІТКИ ОЗНАК СТРУКТУРНОЇ СКЛАДНОСТІ ДОКУМЕНТІВ ІЗ ВИКОРИСТАННЯМ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ
DOI:
https://doi.org/10.30837/0135-1710.2026.188.054Ключові слова:
слабкоструктурований документ, екстракція даних, промпт-інжиніринг, Парето-оптимальність, мультимодальні моделіАнотація
Предметом дослідження є методи автоматизованого аналізу й визначення ознак структурної складності слабкоструктурованих ділових документів із застосуванням сучасних мультимодальних великих мовних моделей. Мета – розробити й експериментально перевірити працездатність методу автоматичної розмітки ознак структурної складності документів, який забезпечує можливість прогнозування якості подальшої екстракції даних, а також побудувати математичну модель для оптимізації вибору конфігурації мовних моделей у просторі критеріїв "якість – вартість". Завдання передбачають формалізацію таксономії ознак, формування експериментального корпусу, розроблення уніфікованої схеми промптингу й розв’язання задачі багатокритеріальної оптимізації вибору моделей. Методологічну основу дослідження становлять методи системного аналізу, емпіричне профілювання великих мовних моделей, методи інженерії підказок (prompt engineering), методи математичної статистики (кореляційний аналіз, розрахунок метрик Precision, Recall, F1) для оцінювання якості класифікації, а також методи дискретної оптимізації для знаходження компромісних рішень. Результати. Основним результатом досліджень є розроблений оригінальний метод автоматичної розмітки ознак структурної складності документів, що дає змогу автоматично генерувати структурований профіль складності документа й обробляти його оригінальне візуальне PDF-подання. Також запропоновано зважену функцію якості, яка бере до уваги ступінь впливу кожної ознаки на помилки екстракції, та виділено Парето-оптимальні конфігурації, що уможливлюють мінімізацію витрат з огляду на задані вимоги до надійності. На підставі досягнутих результатів можна зробити певні висновки. Експериментально доведено, що економічно ефективні моделі в режимі з використанням прикладів забезпечують високу точність розмітки, яка конкурує з результатами значно вартісних моделей. Установлено, що застосування режимів із розширеним міркуванням для задачі бінарної класифікації є економічно недоцільним через диспропорційне зростання вартості без суттєвого приросту якості. Запропонований метод розв’язує проблему відсутності інструментів попереднього оцінювання складності в системах інтелектуального опрацювання документів. Він забезпечує прогнозованість і керованість процесів екстракції, даючи змогу реалізувати адаптивну маршрутизацію документів залежно від їх складності. Це створює підґрунтя для побудови ефективних промислових систем із збалансованими показниками точності та вартості експлуатації, усуваючи необхідність у трудомісткій ручній розмітці.
Посилання
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction. arXiv. 2024. URL: https://arxiv.org/html/2410.21169v1
Fisher, J. L. (1991), "Logical Structure Descriptions of Segmented Document Images", Proceedings of International Conference on Document Analysis and Recognition (ICDAR), Saint-Malo, France, P. 302–310.
Vinay, V. et al. (2006), "Measuring the Complexity of a Collection of Documents", Advances in Information Retrieval, Vol. 3936, P. 107–118. DOI: https://doi.org/10.1007/11735106_11
Pembe, F. C., Güngör, T. (2015), "A Tree-Based Learning Approach for Document Structure Analysis and Its Application to Web Search", Natural Language Engineering, Vol. 21, No. 4, P. 569–605. DOI: https://doi.org/10.1017/S1351324914000023
Paliwal, S. et al. (2020), "TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images", arXiv. DOI: https://doi.org/10.48550/arXiv.2001.01469
Huang, Y. et al. (2022), "LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking", arXiv. DOI: https://doi.org/10.48550/arXiv.2204.08387
Atagong, S. D. et al. (2025), "A review on knowledge and information extraction from PDF documents and storage approaches", Frontiers in Artificial Intelligence, Vol. 8, P. 1466092. DOI: https://doi.org/10.3389/frai.2025.1466092
Meuschke, N. et al. (2023), "A Benchmark of PDF Information Extraction Tools using a Multi-Task and Multi-Domain Evaluation Framework for Academic Documents", arXiv. DOI: https://doi.org/10.48550/arXiv.2303.09957
Bozhko, O. (2025), "Development of an iterative method for data extraction from unstructured documents based on the use of large language models", Transactions of Kremenchuk Mykhailo Ostrohradskyi National University, Iss. 1, P. 119–124. DOI: https://doi.org/10.32782/1995-0519.2025.1.15
Wang, W. et al. (2025), "Document Intelligence in the Era of Large Language Models: A Survey", arXiv. DOI: https://doi.org/10.48550/arXiv.2510.13366
Ding, Y. et al. (2025), "Deep Learning based Visually Rich Document Content Understanding: A Survey", arXiv. DOI: https://doi.org/10.48550/arXiv.2408.01287
Kupin, A. I., Kosei, M. P. (2024), "Overview of Multi-Agent System Architectures and Swarm Intelligence Algorithms", Scientific notes of Taurida National V.I. Vernadsky University. Series: Technical Sciences, Iss. 2, P. 98–104. DOI: https://doi.org/10.32782/2663-5941/2024.2/14
Петров, К. Е., Боков, І. П., Кобзев, І. В. (2025), "Розробка комбінованого методу аналізу емоційної забарвленості текстів", АСУ та прилади автоматики, Вип. 186, С. 5–16. DOI: https://doi.org/10.30837/0135-1710.2025.186.005
Jurafsky, D., Martin, J. H. (2024), "Speech and Language Processing (3rd ed. draft)". URL: https://web.stanford.edu/~jurafsky/slp3/ (accessed 20.08.2024).
Yamasaki, Chihiro, et al. (2025), "Function-based Labels for Complementary Recommendation: Definition, Annotation, and LLM-as-a-Judge", arXiv. DOI: https://doi.org/10.48550/ARXIV.2507.03945
Karp, R. M. (1972), "Reducibility Among Combinatorial Problems", Complexity of Computer Computations, P. 85–103.
UA
EN 


