Abstract
<jats:p>Современные алгоритмы, основанные на сетях глубокого обучения, показывают высокие результаты в задачах детектирования и классификации изображений. Тем не менее, есть несколько путей увеличения качества работы алгоритмов, одним из которых является использование карт глубины. Карты глубины помогают точнее отделить объект от фона, более точно определить его форму. Несмотря на большие вычислительные затраты, использование карт глубины может быть полезно в некоторых задачах детектирования и классификации объектов на изображении. Рассматривается использование карт глубины и нейронных сетей глубокого обучения для увеличения точности детектирования (определения) и классификации объектов на изображениях. В частности, применяется модифицированный алгоритм Detection Transformer (DETR), основанный на использовании сверточных нейронных сетей для получения первичных признаков, и архитектуры трансформера для поиска влияния разных частей изображения друг на друга. Также приводятся зависимость ошибки обучения от количества эпох для обучающей выборки набора данных препятствий и дефектов на дорожном покрытии и показатели точности для различных наборов данных как с использованием дополнительной сети анализа карт глубины, так и без нее.</jats:p> <jats:p>Modern algorithms based on deep learning networks demonstrate excellent performance in image detection and classification tasks. However, there are several ways to improve the performance of these algorithms, one of which is the use of depth maps. Depth maps help to more accurately separate an object from the background and determine its shape. Despite their high computational costs, depth maps can be useful in some object detection and classification tasks. This article discusses the use of depth maps and deep learning neural networks to improve the accuracy of object detection and classification in images. Specifically, a modified Detection Transformer (DETR) algorithm is applied. This algorithm is based on convolutional neural networks to obtain primary features and a transformer architecture to detect the influence of different image parts on each other. The dependence of training error on the number of epochs for a training sample of a dataset of obstacles and road defects is also presented, along with accuracy metrics for various datasets both with and without the use of an additional depth map analysis network.</jats:p>