Abstract
<jats:p>Статья посвящена проблеме системных искажений в больших данных коммерческих платформ занятости (мультипликация резюме, «мёртвые души», информационная асимметрия), которые препятствуют их прямому использованию для целей макроэкономического анализа и денежно-кредитной политики. Цель работы — разработка и эмпирическая верификация комплексной методологии очистки, взвешивания и калибровки данных онлайн-платформ (hh.ru, «Работа России») для превращения их в надёжные индикаторы рынка труда. Исследование опирается на синтез методов компьютерных наук (NLP на основе эмбеддингов YandexGPT, графовые алгоритмы, поведенческое скорингование) и экономической статистики. Предложен каскадный подход к дедупликации (от точного хэширования до семантического анализа с помощью YandexGPT Embeddings), построена авторская формула взвешивания резюме с учётом поведенческих факторов и активности. Для верификации данных применяются методы триангуляции и калибровки на официальную статистику Росстата с использованием bridge-уравнений. Научная новизна заключается в целостной методологии, объединяющей точную и семантическую дедупликацию с поведенческим взвешиванием и многоуровневой триангуляцией, а также в формулировке набора тестируемых гипотез для эмпирической проверки. Результатом является структура системы оперативных индикаторов рынка труда (Индекс реального предложения труда, Индекс напряжённости, Индекс зарплатного давления, Индекс структурной эффективности), которые могут быть интегрированы в модели прогнозирования Банка России.</jats:p> <jats:p>The article addresses the problem of systematic biases in big data from commercial employment platforms (resume multiplication, "dead souls," information asymmetry), which hinder their direct use for macroeconomic analysis and monetary policy. The aim is to develop a comprehensive theoretical and methodological concept for cleaning, weighting, and calibrating data from online platforms (hh.ru, "Rabota Rossii") to transform them into reliable labor market indicators suitable for the Bank of Russia's forecasting models. The research synthesizes methods from computer science (NLP based on YandexGPT embeddings, graph algorithms, behavioural scoring) and economic statistics. A cascaded deduplication approach is proposed (from exact hashing to semantic analysis using YandexGPT Embeddings), and an original formula for weighting resumes considering behavioural factors and activity is constructed. Data verification employs triangulation methods and calibration against official Rosstat statistics using bridge equations. Scientific novelty lies in the holistic methodology combining exact and semantic deduplication with behavioural weighting and multi-level triangulation of data from different sources, as well as in formulating a set of testable hypotheses for empirical validation. The result is a framework for a system of operational labor market indicators (Real Labor Supply Index, Tightness Index, Wage Pressure Index, Structural Efficiency Index) that can be integrated into the Bank of Russia's forecasting models. The proposed toolkit has undergone initial conceptual validation.</jats:p>