РАЗРАБОТКА МНОГОУРОВНЕВОЙ МОДЕЛИ В ЗАДАЧАХ РЕЗЮМИРОВАНИЯ ТЕКСТА НА ОСНОВЕ ПРЕДВАРИТЕЛЬНО ОБУЧЕННЫХ МОДЕЛЕЙ

Authors: Д. Оралбекова, О. Мамырбаев, А. Ахмедиярова et al.

Publication: NEWS OF THE NATIONAL ACADEMY OF SCIENCES OF THE REPUBLIC OF KAZAKHSTAN

Published: Mar 27, 2026

Source: Crossref

Back to Search View Original Cite This Article

Abstract

<jats:p>В данной работе исследуется применение современных трансформерных моделей для задачи абстрактивного резюмирования текстов на казахском языке, который относится к числу малоресурсных и характеризуется агглютинативной структурой и сложной морфологией. Эти особенности существенно ограничивают эффективность классических методов обработки текста и требуют разработки специализированных архитектур языкового моделирования. В исследовании предлагается многоуровневая архитектура резюмирования, включающая обработку текста на символьном, подсловном, словном и контекстном уровнях, что позволяет более полно учитывать морфологические и семантические свойства казахского языка. В качестве базовых моделей использованы многоязычные трансформеры mBART, mT5 и XLM-RoBERTa, которые были адаптированы и дообучены для задачи абстрактивного резюмирования. Для обучения и оценки качества моделей был сформирован специализированный корпус из 1000 новостных статей на казахском языке с вручную составленными аннотациями. В процессе предобработки применялись символьные представления, подсловная токенизация SentencePiece, словные векторы FastText и контекстные эмбеддинги трансформеров. Качество сгенерированных резюме оценивалось с использованием набора автоматических метрик, включая ROUGE-1, ROUGE-2, ROUGE-L, BLEU, METEOR и BERTScore F1, что позволило проанализировать как поверхностные совпадения, так и семантическое соответствие эталонным аннотациям. Экспериментальные результаты показали, что модель mBART продемонстрировала наилучшие показатели по большинству метрик, а связка XLM-RoBERTa и BART также обеспечила стабильные и конкурентоспособные результаты. Полученные данные подтверждают эффективность многоуровневого подхода и перспективность использования современных трансформерных моделей для абстрактивного резюмирования текстов на казахском языке.</jats:p>

Keywords

моделей резюмирования на для абстрактивного

РАЗРАБОТКА МНОГОУРОВНЕВОЙ МОДЕЛИ В ЗАДАЧАХ РЕЗЮМИРОВАНИЯ ТЕКСТА НА ОСНОВЕ ПРЕДВАРИТЕЛЬНО ОБУЧЕННЫХ МОДЕЛЕЙ

Abstract

Keywords

Related Articles

Структура существенного спектра и дискретный спектр оператора энергии трехмагнонных систем в модели Гейзенберга

Strut-and-tie models for design of dapped-end beams

Scientific basis of construction of multi-level model of management continuous improvement of professional competence of pedagogical and managerial staff

Разработка блока управления для автоматизированного смесителя огнетушащей жидкости