Abstract
<jats:p>В данной работе исследуется применение современных трансформерных моделей для задачи абстрактивного резюмирования текстов на казахском языке, который относится к числу малоресурсных и характеризуется агглютинативной структурой и сложной морфологией. Эти особенности существенно ограничивают эффективность классических методов обработки текста и требуют разработки специализированных архитектур языкового моделирования. В исследовании предлагается многоуровневая архитектура резюмирования, включающая обработку текста на символьном, подсловном, словном и контекстном уровнях, что позволяет более полно учитывать морфологические и семантические свойства казахского языка. В качестве базовых моделей использованы многоязычные трансформеры mBART, mT5 и XLM-RoBERTa, которые были адаптированы и дообучены для задачи абстрактивного резюмирования. Для обучения и оценки качества моделей был сформирован специализированный корпус из 1000 новостных статей на казахском языке с вручную составленными аннотациями. В процессе предобработки применялись символьные представления, подсловная токенизация SentencePiece, словные векторы FastText и контекстные эмбеддинги трансформеров. Качество сгенерированных резюме оценивалось с использованием набора автоматических метрик, включая ROUGE-1, ROUGE-2, ROUGE-L, BLEU, METEOR и BERTScore F1, что позволило проанализировать как поверхностные совпадения, так и семантическое соответствие эталонным аннотациям. Экспериментальные результаты показали, что модель mBART продемонстрировала наилучшие показатели по большинству метрик, а связка XLM-RoBERTa и BART также обеспечила стабильные и конкурентоспособные результаты. Полученные данные подтверждают эффективность многоуровневого подхода и перспективность использования современных трансформерных моделей для абстрактивного резюмирования текстов на казахском языке.</jats:p>