Аннотация и ключевые слова
Аннотация (русский):
В данной статье представлен метод распознавания ключевых объектов дорожной инфраструктуры с использованием полносверточной нейронной сети. Результатом работы нейронной сети является сегментированное изображение, где искомые объекты выделены определенными цветами. На этапе постобработки происходит выделение участка дорожного полотна, по которому передвигается машина, а также вычисление параметров ограничивающих прямоугольников, для каждого из объектов. Данный метод позволяет локализовать дорогу, пешеходный переход, автомобили, дорожные знаки, светофоры, пешеходов. Тестирование разработанного алгоритма производилось на макете городской инфраструктуры в масштабе 1:18, где в качестве автомобиля выступал колесный робот.

Ключевые слова:
полносверточная нейронная сеть, локализация объектов, сегментирование изображения, Pyramid Scene Parsing Network, колесный робот.
Текст
Текст (PDF): Читать Скачать

 

Введение

В настоящее время ведутся активные разработки в области беспилотных транспортных средств.  Некоторые компании приближаются к последнему, пятому уровню автономности, при котором становится возможным полностью автономное движение автомобиля без участия водителя. Одной из ключевых задач, без которых невозможно создание беспилотного средства в динамической среде является задача распознавания объектов дорожной сети. Существуют различные подходы для решения этой задачи: от распознавания отдельных элементов, таких как дорожные знаки или светофоры [7], до более комплексных подходов [8], позволяющих детектировать несколько элементов.  Распознавание может производиться на основе информации, приходящей от разных сенсоров. Наиболее сенсорами являются камеры, возвращающее изображения и лидары, возвращающие облако точек. Использование камер является более традиционным методом, который имитирует зрение водителя.  В области компьютерного зрения распознавание объектов является одной из основных задач, для решения которой используют как стандартные алгоритмы компьютерного зрения [4], так и использования различных архитектур нейронных систем [1]. Метод, описанный в данной статье основан на использовании полносверточной нейронной сети [6], выполняющей задачу сегментации изображения.

Говоря о разработке беспилотного транспортного средства отдельное внимание следует уделить этапу тестирования алгоритмов. Тестирование на реальных автомобилях может

повлечь как человеческие, так и финансовые жертвы. Поэтому одним из вариантов решения этой задачи может служить использование модели в уменьшенном масштабе, сохраняющей основные свойства реального движения. Еще одно преимущество использования макета заключается в том, что он позволяет приобретать навык людям, желающим развиваться в области беспилотных транспортных средств, без серьезных последствий.  Разработанная система распознавание объектов была протестирована на макете, содержащем несколько видов светофоров, дорожные знаки, пешеходов, автомобили, дорожное полотно с разметкой.

 

1. Распознавание объектов

 

Основой детектирования объектов является полносверточная нейронная сеть, которая принимает на вход изображение с камеры и возвращает сегментированное изображение (рис. 1). Сегментирование – это процесс, при котором генерируется изображение, содержащее однородные области одинакового цвета, где каждому цвету соответствует определенный объект. Определение объектов на основе сегментированного изображения позволяет решить несколько задач, необходимых для беспилотного движения автомобиля: с одной стороны, она позволяет детектировать объекты дорожной сети, с другой решается задача распознавания дорожного полотна.

Используемая нейронная сеть базируется на архитектуре Pyramid Scene Parsing Network [3]. Основными компонентами сети являются предобученная сеть Residual Network (Resnet) [5] и Pyramid Pooling Module.

Модель Resnet является сверточной моделью, отличительной особенностью которой является, наличие остаточной структуры обучения позволяет увеличивать глубину сети без потерь точности. На выходе сверточной сети генерируется карта признаков (feature map), которая поступает на слои подвыборки (pooling layer), данная часть сети называется пирамидальной подвыборкой (Pyramid Pooling Module) потому что состоит из нескольких уровней (рис 2.):

красный: это самый крупный уровень, который выполняет глобальную подвыборку для каждой карты признаков, в результате чего генерируется одно значение на выходе;

оранжевый: это второй уровень, который делит карту признаков на 2 × 2 субрегиона, а затем выполняет среднее объединение для каждого субрегиона;

синий: это третий уровень, который делит карту объектов на 3 × 3 субрегиона, а затем выполняет среднее объединение для каждого субрегиона;

зеленый: это уровень, который делит карту объектов на 6 × 6 субрегионов, а затем выполняет объединение для каждого субрегиона.

Затем происходит операции увеличения размерности слоев (Upsample), и их

объединение.

2. Обучение

 

Для обучения нейронной сети был подготовлен собственный набор данных, содержащий макет, по которому передвигался колесный робот. Для каждого изображения вручную выполнялось заполнение областей, принадлежавших разным объектам. Было подготовлено более 1000 кадров, для обучения нейронной сети.

 Важным этапом обучения нейронной сети является аугментация данных. Аугментация –  это процесс, позволяющий расширить существующий датасет за счет применения методов обработки изображения.  Важно, что аугментация данных должна так, чтобы измененные изображения не имели значительного отклонения от потенциально возможных при использовании нейронной сети.  В разрабатываемой статье использовались следующие методы:

  • изменение яркости изображения;
  • изменение экспозиции изображения;
  • отражение части изображений по горизонтали;
  • добавление шумов на изображение.

Необходимость последнего пункта обоснована тем, что при тестировании алгоритма, на изображении было замечено появление шумов, связанных со способом передачи видеопотока на вычислительный узел. Искусственно создаваемые шумы позволяют уменьшить ошибки при появлении реальных помех

 

3. Выделение объектов

 

После генерации сегментированного изображения следует этап поиска объектов на изображении. Для каждого из возможных классов осуществляется поиск по цвету, привязанному к классу. После чего для изображения, содержащего только один цвет выполняется морфологическое операция замыкания, помогающая сделать контуры более однородными (рис. 3.). После поиска областей, происходит выделение их контуров. В том случае, если несколько контуров разрозненны, но расположены близко (рис. 4.) происходит их объединение. Исходя из положения контура, генерируется прямоугольник, ограничивающий объект.

Способ выделения дороги отличался от других объектов. Для дальнейшего поиска дорожной разметки необходимо определение части дороги, по которой может передвигаться автомобиль. В случае, если дорога имеет сплошную разметку, полосы дороги выделяются отдельно. Если разметка прерывистая выделяется все дорожное полотно, включая прерывистую разметку. На этапе выделения находится наибольший контур дороги на изображении, пологая, что машина едет по дороги в момент детекции. Кроме того, дорога, по которой передвигался колесный робот содержит пешеходные переходы, которые не оказывают влияния на работу дальнейших алгоритмов. В связи с этим было принято решение определять пешеходные переходы нейронной сетью и скрывать их на итоговом сегменте дороги.

4. Эксперименты

 

Описанный подход использовался для проезда колёсного робота по макету городской инфраструктуры (рис. 5 ). Макет имеет размер 6x4 и оборудован, дорожным полотном с разметкой, дорожными знаками, другими автомобилями, пешеходами, светофорами, в том числе светофорами с дополнительной секцией. Колесный робот изображён на рисунке 6. Особенность архитектуры заключается в том, что все вычисления происходят на удаленном узле. Благодаря этому появляется возможность работать с модулями, требующими более высокой производительности, что приближает макет к реальным транспортным средствам.

Выводы

 

В рамках работы был получена полносверточная нейронная сеть, локализующая основные объекты дорожной инфраструктуры, такие как дорожное полотно, пешеходные переходы, автомобили, светофоры, дорожные знаки. На основе данной нейронной и модуля визуализации были написаны два узла ROS, интегрированные в основной проект. Результаты были протестированы на макете, имитирующим городскую среду.

Список литературы

1. Буйвал А., Любимов М., Габдуллин А. Обнаружение и локализация дорожных знаков на основе данных камеры и лидара // 11-я Международная конференция по машинному зрению (ICMV 2018) - Мюнхен, Германия 2018.

2. Кордтс М., Омран М., Рамос С., Рехфельд Т., Энцвайлер М., Бененсон Р., Франке У., Рот С., Шиле Б. Набор данных городских пейзажей для понимания семантической городской сцены / М. Coordts. 2016 г.

3. Хэншуан З., Цзяньпин С., Сяоцзюань В., Сяоган В., Цзяя Дж. Сеть пирамидального разбора сцены / З. Хэншуан. CVPR 2017 г.

4. Хоссейн С., Хайдер З. Обнаружение и распознавание дорожных знаков для автомобильного транспорта, Международный журнал компьютерных приложений (2015).

5. Кайминг Х., Сянъюй З., Шаоцин Р., Цзянь С. Глубокое остаточное обучение для распознавания изображений / Х. Кайминг, З. Сянью, Р. Шаоцин, С. Цзянь - Microsoft Research 2015 г.

6. Лонг Дж., Шелхамер Э., Даррелл Т. Полносверточные сети для семантической сегментации // CVPR 2015 г.

7. Могельмосе А., Триведи М.М., Меслунд Т.Б. Обнаружение и анализ дорожных знаков на основе видения для интеллектуальных систем помощи водителю: перспективы и исследование, Операции IEEE в интеллектуальных транспортных системах (2012)

8. Пон А.Д., Андриенко О., Хараке А., Уослендер С.Л. Иерархическая глубокая архитектура и метод выбора мини-партии для совместного обнаружения дорожных знаков и света 15-я конференция IEEE по компьютерному и робототехническому видению (2018 г.)

Войти или Создать
* Забыли пароль?