Back to Search View Original Cite This Article

Abstract

<jats:p>У роботі представлено інформаційну технологію на основі розробки програмної підсистеми квантитативного аналізу українських текстів як компонента інформаційної системи обробки корпусних даних. Реалізовано алгоритми обчислення лексичних і морфологічних індексів (TTR, індекс Гоноре, індекс номінативності, частоти лем і POS) на основі структур DocBin із використанням spaCy та pandas. Проведено експериментальне тестування на корпусі з 7 документів обсягом близько 18 000 токенів. Час опрацювання 1 тис. токенів становив 0,11–6,72 с залежно від обраного NLP-агента. Результати підтвердили лінійну масштабованість, стабільність обчислень та можливість інтеграції підсистеми в захищені програмні середовища для аналітики текстових даних, зокрема в задачах моніторингу інформаційного простору та виявлення аномалій.</jats:p>

Show More

Keywords

на та основі підсистеми даних

Related Articles