Аннотация: исследовано использование каскадного классификатора на признаках Хаара, HOG и LBP в задаче распознавания пешеходов в видео потоке. Сделаны выводы о зависимости качества детектирования от параметров обучения.
Ключевые слова: распознавание образов, каскадный классификатор, признаки Хаара, HOG, LBP.
Технічні науки
УДК 004.932.72'1
Піпко Анна Сергіївна
студентка
Національний технічний університет України
«Київський Політехнічний Інститут»
Пипко Анна Сергеевна
студентка
Национальный технический университет Украины
«Киевский Политехнический Институт»
Pipko A.
student
National Technical University of Ukraine
«Kyiv Polytechnic Institute»
ДОСЛІДЖЕННЯ ВИКОРИСТАННЯ КАСКАДНОГО КЛАСИФІКАТОРА ДЛЯ РОЗПІЗНАВАННЯ ПІШОХОДІВ У ВІДЕОПОТОЦІ
ИССЛЕДОВАНИЕ ИСПОЛЬЗОВАНИЯ КАСКАДНОГО КЛАССИФИКАТОРА ДЛЯ РАСПОЗНАВАНИЯ ПЕШЕХОДОВ В ВИДЕОПОТОКЕ
INVESTIGATION OF USING CASCADE CLASSIFIER FOR PEDESTRIAN DETECTION
Анотація: досліджено використання каскадного класифікатора на ознаках Хаара, HOG та LBP у задачі розпізнавання пішоходів у відео потоці. Зроблено висновки щодо залежності якості детектування від параметрів навчання.
Ключові слова: розпізнавання образів, каскадний класифікатор, ознаки Хаара, HOG, LBP.
Аннотация: исследовано использование каскадного классификатора на признаках Хаара, HOG и LBP в задаче распознавания пешеходов в видео потоке. Сделаны выводы о зависимости качества детектирования от параметров обучения.
Ключевые слова: распознавание образов, каскадный классификатор, признаки Хаара, HOG, LBP.
Summary: using cascade classifier with Haar features, HOG and LBP in pedestrian detection was investigated.
Key words: pattern recognition, cascade classifier, Haar features, HOG, LBP.
З кожним днем у суспільства все зростає потреба отримати засіб забезпечення максимальної безпеки людини на проїжджій частині. Причиною значної частки аварій є наїзд на пішохода. Тому вже сьогодні автовиробники пропонують покупцям моделі, оснащені бортовим комп’ютером з системою попередження про пішохода на дорозі. Проте такі автомобілі досить дорогі й мало поширені на українських дорогах. Отже, постає задача знаходження іншого шляху підвищення безпеки дорожнього руху, який міг би набути масового поширення. Можливим рішенням може бути використання смартфону, який сьогодні є майже у кожного водія. А отже, необхідні методи, які дозволили б виявляти пішоходів, використовуючи лише відео потік з однієї камери.
Метод Віоли-Джонса, відомий як найбільш популярний метод для детектування, початково застосовувався для виділення облич[1]. Етапами алгоритму є класифікатори бустингу над деревами рішень, що використовують в якості ознак характеристики Хаара. Значна швидкодія та ефективність стали причиною численної кількості модифікацій для розв’язання різноманітних задач.
Метою даної роботи є дослідження параметрів формування каскадного класифікатора, який можна було б використати у задачі виділення пішоходів на дорозі.
Для тренування було використано утиліту opencv_traincascade з бібліотеки OpenCV (Open Source Computer Vision Library) та вільно розповсюджуваний датасет від Даймлера (Daimler Pedestrian Detection Benchmark Dataset). Архітектура каскадного класифікатора задається такими параметрами (тут використано назви відповідних аргументів утиліти):
- numPos, numNeg: кількість позитивних та негативних зразків, які були позитивно класифіковані попередніми ступенями каскаду та використовуються для тренування наступного ступеня;
- numStages: кількість ступенів каскаду;
- w, h: ширина та висота фрагмента, що надходить класифікатору для розпізнавання, в пікселях (об’єкти меншого розміру класифікатором не розглядаються), тут були рівними 18 та 36 відповідно;
- minHitRate: мінімальна частка істинних позитивних класифікацій для ступеня каскаду, тут була рівною 0.995;
- maxFalseAlarmeRate: максимальна частка хибних позитивних класифікацій для ступеня каскаду;
- maxWeakCount: максимальна кількість слабких класифікаторів в одному рівні каскаду, тут була рівною 100;
- mode: тип набору характеристик Хаара, що можуть використовуватися слабким класифікатором, тут обрано повний набір;
- bt: тип бустингу, тут було обрано Gentle AdaBoost.
Вибір архітектури класифікатора відбувався у декілька ітерацій: на кожному кроці оцінювалась якість класифікатора, отриманого внаслідок навчання із заданими параметрами, та за необхідності коректувались значення параметрів (табл.1). Для кожного каскаду визначались оптимальні параметри детектора:
- scaleFactor: коефіцієнт зміни розмірів ковзного вікна під час сканування зображення. Чим він менший, тим більша кількість фрагментів буде розглянута і тим більше часу необхідно для обробки кадру; тут був рівний 1.2 для забезпечення допустимої швидкості роботи;
- minNeighbors: мінімальна кількість позитивних спрацювань каскаду в деякому околі фрагменту для підтвердження детекції. Збільшенням параметру можна знизити кількість хибних спрацювань, але в той же час може збільшитись кількість пропущених пішоходів.
Таблиця 1
Параметри каскадних класифікаторів
Каскад |
A |
B |
C |
L |
H |
Тип ознак |
ознаки Хаара |
ознаки Хаара |
ознаки Хаара |
LBP |
HOG |
numPos |
13600 |
3500 |
5000 |
3500 |
3500 |
numNeg |
6744 |
6744 |
10000 |
6744 |
6744 |
maxFalseAlarmeRate |
0,7 |
0,5 |
0,6 |
0,5 |
0,5 |
numStages |
25 |
25 |
25 |
25 |
25 |
minNeighbors |
20 |
3 |
5 |
3 |
10 |
TDR,% |
61,5 |
53,8 |
61,5 |
19,2 |
46,2 |
FDR,% |
62,8 |
33,3 |
27,3 |
37,5 |
66,7 |
t,c |
0,087 |
0,074 |
0,079 |
0,046 |
0,07 |
T,хв |
4731 |
4278 |
3150 |
2254 |
98 |
Порівняння якості каскадів відбувалося за такими параметрами як TDR – процент виявлених унікальних пішоходів у тестовому відео, FDR – процент хибних виявлень. Для тестування було обрано відео тривалістю 44с з роздільною здатністю 640×360 пікселей та частотою 29 кадрів/с, на якому було розмічено 26 унікальних пішоходів (за умови, що мінімальний розмір пішохода, що належить до виявлення, 18×36 пікселів, тобто на відстані до 30м від автомобіля) та 1476 відповідних еталонних обрамлюючих рамок.
На першому кроці (каскад А) хибні спрацювання (FDR) становили 62,8% (табл.1). За такої їх кількості каскад непридатний для використання, тому для наступного кроку була змінена пропорція позитивних зразків до негативних на 1:2, щоб збільшити вклад хибних позитивних класифікацій у зваженій сумі помилок, що обчислюється під час бустингу. Також було зменшено максимальну частку хибних спрацювань для кожного рівня каскаду.
Після другого кроку (каскад В) кількість хибних спрацювань суттєво зменшилась, проте зросла кількість пропущених об’єктів (MD). Збільшення об’єму вибірки для навчання підвищило точність та повноту розпізнавання до прийнятного рівня (каскад С), тому надалі буде розглядатися саме така конфігурація.
Також було розглянуто каскади з аналогічними параметрами, але з використанням LBP (каскад L) та HOG (каскад H). Проте їх якість була значно нижчою, ніж у варіантах з ознаками Хаара, тому, хоч вони і вигравали у швидкості обробки кадру (t) та процесу навчання (T), далі не досліджувалися.
Розглянемо залежність детекції від кількості рівнів каскаду С (табл.2). Із нарощенням рівнів каскаду зменшується кількість його спрацювань, за рахунок чого зменшується кількість хибних спрацювань, тому можна зменшувати значення minNeighbors, тим самим попереджуючи небажане помилкове відсіювання позитивних детекцій. Проте не варто обирати надто велику кількість рівнів, оскільки:
- кожний додатковий рівень збільшує час обробки зразка;
- можливе перенавчання;
- спрацювання можуть майже зникнути;
- навчання кожного нового рівня стає все довшим, а приріст якості, як правило, стає з певного моменту несуттєвим.
Таблиця 2
Залежність детекції від кількості рівнів каскаду С
numStages |
minNeighbors |
TDR,% |
FDR,% |
T,хв |
15 |
20 |
65,4 |
77,2 |
962 |
20 |
10 |
69,2 |
38,1 |
1846 |
25 |
5 |
61,5 |
27,3 |
3150 |
30 |
3 |
69,2 |
18,2 |
5410 |
Висновки. В результаті роботи було сформовано каскадний класифікатор з 30 ступенів на ознаках Хаара, який забезпечив найкращу точність та повноту виявлення пішоходів у відео серед отриманих конфігурацій. Для підвищення якості розпізнавання можна збільшувати об’єм навчальної вибірки, зберігаючи пропорцію позитивних та негативних зразків як 1:2, проте це може значно збільшити і час навчання класифікатора. Використання LBP та HOG замість ознак Хаара дало значно гірший результат при аналогічних параметрах.
Література:
1. Viola P. Rapid Object Detection using a Boosted Cascade of Simple Features [Електронний ресурс] / P.Viola, M.J. Jones // Proceedings IEEE Conference on Computer Vision and Pattern Recognition. - 2001. – Режим доступу: http://www.merl.com/publications/docs/TR2004-043.pdf