Abstract
<jats:p>В статье рассмотрен событийно-ориентированный подход к моделированию среды для обучения с подкреплением DRL-агентов диспетчерского управления на железнодорожных станциях. Предложенный подход решает проблему неэффективного исследования пространства действий, присущую моделям с синхронным временем. На основе цифровой модели реального железнодорожного участка проведено обучение DRL-агентов для станций с различной операционной сложностью. Подтверждена работоспособность модели и проанализировано влияние гиперпараметров алгоритма PPO на качество итоговой политики, что закладывает основу для создания более робастных интеллектуальных систем управления.</jats:p> <jats:p>This paper discusses an event-driven approach to environment modeling for training Deep Reinforcement Learning (DRL) agents for railway station dispatching. The proposed approach addresses the issue of inefficient action space exploration inherent in time-synchronous models. DRL agents were trained for stations of varying operational complexity using a digital model of a real-world railway section. The viability of the model is confirmed, and the impact of PPO algorithm hyperparameters on the quality of the resulting policy is analyzed, laying the groundwork for the development of more robust intelligent control systems.</jats:p>