Abstract
<jats:p>В работе представлен комплексный подход к автоматическому распознаванию манипулятивного речевого воздействия в телефонной коммуникации, ориентированный на защиту клиентов финансовых организаций от вишинг-атак. Разработана стохастическая модель генерации текстовых фраз на основе лингвистических шаблонов с управляемым распределением вероятностей по шести техникам манипуляции, что позволило сформировать репрезентативный и сбалансированный корпус русскоязычных мошеннических высказываний. На этом корпусе дообучена трансформерная модель «BERT- vishing-manipulation», использующая эмбеддинги и адаптированная к специфике телефонной речи, а также интегрированы методы автоматического распознавания речи семейства «Whisper» для обработки реальных аудиозаписей в различных акустических условиях. Эксперименты показали высокую эффективность подхода: достигнута точность классификации 95,89%, что превосходит существующие решения на 2,96% и подтверждает устойчивость распознавания для разных манипулятивных техник. Разработанную модель можно встраивать в системы защиты телефонного трафика и аналитики инцидентов, а также использовать для уведомления клиентов в режиме реального времени, автоматизации аудита, обучения персонала и создания контролируемых обучающих выборок для задач противодействия социальной инженерии в финансовом секторе.</jats:p> <jats:p>The paper presents a comprehensive approach to automatic detection of manipulative speech in telephone communication, aimed at protecting customers of financial institutions from vishing attacks. The study introduces a stochastic model for generating text phrases based on linguistic templates with a controlled probability distribution over six manipulation techniques, which enables the construction of a representative and balanced corpus of Russian-language fraudulent utterances. On this corpus, a transformer-based model, “BERT- vishing-manipulation”, leveraging embeddings and adapted to the specifics of telephone speech, is further fine-tuned, while speech recognition methods from the “Whisper” family are integrated to convert real telephone audio recordings into text under diverse acoustic conditions. Experimental results demonstrate the high effectiveness of the proposed approach: a classification accuracy of 95.89% is achieved, which exceeds existing solutions by 2.96% and confirms the robustness of detection across different manipulation techniques. The developed model can be integrated into systems for protecting telephone traffic and incident analytics, and can also be used for real-time customer notification, audit automation, staff training, and the construction of controlled training datasets for countering social engineering in the financial sector.</jats:p>