Back to Search View Original Cite This Article

Abstract

<jats:p>В условиях ускоренного роста объемов текстовых данных разнородной структуры особую важность приобретают универсальные подходы к извлечению информации, не зависящие от конкретной структуры и предметной области исходных текстов. Несмотря на широкое распространение больших генеративных языковых моделей, проблема точного и ресурсоэффективного извлечения информации из текстовых данных сохраняет свою актуальность. Генеративные модели, обладая широкими возможностями, зачастую избыточны для решения специализированных задач информационного поиска и могут демонстрировать низкую интерпретируемость получаемых результатов. Настоящее исследование является частью исследовательской работы, направленной на разработку альтернативного метода извлечения информации из неструктурированных текстов с целью формирования структурной модели текстового документа. Предлагаемый подход фокусируется на выделении семантически насыщенных фрагментов текста через анализ релевантности относительно заданных тематических аспектов текста. В рамках данного исследования предлагается метод извлечения информации с использованием экстрактивной вопросно-ответной модели, основанный на многоуровневой агрегации ответов с использованием комбинации стратегий оценки релевантности текстовых фрагментов, семантической кластеризации и выбора результирующего ответа на заданный вопрос. Предлагаемый подход позволяет идентифицировать в тексте слова, наиболее релевантные по отношению к искомым тематическим аспектам, которые впоследствии могут быть использованы для извлечения достоверной информации из документа. В статье представлены результаты эксперимента, подтверждающие эффективность предложенного метода в задаче идентификации семантически релевантных элементов текстового документа. Полученные результаты имеют практическую ценность для разработки систем автоматического построения семантических структур текста и могут быть применены в задачах анализа документов, информационного поиска и интеллектуальной обработки текстовых данных.</jats:p> <jats:p>In the context of accelerated growth of heterogeneous textual data volumes, universal approaches to information extraction that are independent of the specific structure and domain of source texts have become particularly important. Despite the widespread adoption of large generative language models, the problem of accurate and resource-efficient information extraction from textual data remains relevant. While possessing broad capabilities, generative models are often excessive for specialized information retrieval tasks and may demonstrate low interpretability of results. This study is part of research work aimed at developing an alternative method for information extraction from unstructured texts to form a structural model of a text document. The proposed approach focuses on identifying semantically rich text fragments through relevance analysis relative to given thematic aspects of the text. This research presents an information extraction method using an extractive question‑answering model, based on multi-level answer aggregation combining strategies for assessing text fragment relevance, semantic clustering, and final answer selection for a given question. The proposed approach enables identification of words in the text that are most relevant to the target thematic aspects, which can subsequently be used to extract reliable information from the document. The article presents experimental results confirming the effectiveness of the proposed method in identifying semantically relevant elements of a text document. The obtained results have practical value for developing automated systems of text semantic structure construction and can be applied in document analysis, information retrieval, and intelligent text processing tasks.</jats:p>

Show More

Keywords

text information информации на текстовых

Related Articles