Выпуск №11 (Июль) / Научный журнал "Интернаука" (2017 год) / Публикации журналов Издательского дома "Интернаука" / Internauka

Анотація: У роботі наведено підхід до побудови системи прийняття рішення для класифікації, що ґрунтується на методах системного аналізу. Зокрема використані методи керованого навчання для знаходження параметрів моделі нейронної мережі.

Ключові слова: система прийняття рішення, класифікація, кероване навчання, нейрона мережа.

Аннотация: В работе приведен подход к построению системы принятия решения для классификации, основанной на методах системного анализа. В частности использованы методы управляемого обучения для нахождения параметров модели нейронной сети.

Ключевые слова: система принятия решения, классификация, управляемое обучение, нейронная сеть.

Summary: The paper presents an approach to constructing a decision making system for classification based on methods of system analysis. In particular, used methods of controlled learning to find the parameters of the model of the neural network.

Key words: decision making system, classification, controlled learning, neural network.

Загальна постановка задачі класифікації за допомогою керованого навчання

Розглянемо формальну постановку задачі. X – множина об’єктів. Y – множина допустимих відповідей. Існує цільова функція , значення якої відомі тільки на скінченній підмножині об’єктів: (навчальна вибірка).

Задача навчання полягає в тому, щоб за вибіркою відновити залежність. Тобто побудувати вирішальну функцію, яка наближала б цільову функцію, причому не тільки на об'єктах навчальної вибірки, а й на вcій множині X . Саме тому задача цієї роботи відноситься до категорії керованного навчання (англ. supervised learning).

Ознака об'єкта x - це результат вимірювання деякої характеристики об'єкта. Формально ознака називається відображення f : X → D f , де D f - множина допустимих значень ознаки. Зокрема, будь-який алгоритм а: X → Y, також можна розглядати як ознаку.

Маємо матрицю об'єктів-ознак:

(2.1)

де_- ознака об'єкта

В залежності від природи множини Df ознаки діляться на кілька типів. Якщо Df = {0, 1}, то f - бінарна ознака;

Якщо Df -скінченна множина, то f - номінальний ознака;

Якщо Df - скінченна впорядкована множина, то f - порядкова ознака;

Якщо Df = R , то f - кількісний ознака.

Залежно від природи множини допустимих відповідей Y задачі навчання по прецедентах діляться на наступні типи. Якщо Y = {1,. . . , M}, то це завдання класифікації (classification) на M неперетинаючих класів. У цьому випадку вся множина об'єктів X розбивається на класи Ky = {х ∈ X: }, і алгоритм a(х) повинен давати відповідь на питання, якому класу належить x. Сформуємо задачу класифікації на 2 класи:

Функціонал якості - функція втрат, величина помилки алгоритму a на об’єкті x.

Наприклад (для задач класифікації)

Емпіричний ризик – функціонал якості алгоритму a на :

(2.2)

де - функція втрат алгоритму a на об’єкті x.

Функція втрат, приймаюча лише значення 0 і 1, називається бінарною. В цьому = 1 означає, що алгоритм припускається помилки на об'єкті х, а функціонал Q називається частотою помилок алгоритму на вибірці.

Найбільш часто використовуються наступні функції втрат, при Y ⊆ R:

- індикатор помилки, зазвичай застосовується в задачах класифікації;

= | а (х) - відхилення від правильної відповіді; Q функціонал називається середньою помилкою алгоритму на вибірці;

= ( а (х) - ) ² - квадратична функція втрат; Q функціонал називається середньою квадратичної помилкою алгоритму на вибірці; зазвичай використовується в задачах регресії.

Класичний метод керованого навчання, так звана мінімізація емпіричного ризику (empirical risk minimization ), полягає в тому, щоб знайти в заданому моделі А алгоритму a, що доставляє мінімальне значення функціоналу якості Q на заданому навчальній вибірці:

(2.3)

де - навчальна вибірка, а – алгоритм навчання.

У завданнях навчання по прецедентах елементи множини X - це не реальні об'єкти, а лише доступні дані про них. Дані можуть бути неточними, оскільки вимірювання значень ознак об'єкта x і цільової залежності зазвичай виконуються з похибками. Дані можуть бути неповними, оскільки виміряють не ознаки, а лише фізично доступні для вимірювання. У такому випадку, строго кажучи, не є функцією. Усунути цю некоректність дозволяє імовірнісна постановка задачі.

Замість існування невідомої цільової залежності припустимо існування невідомого ймовірного розподілу на множини X × Y з щільністю р(х,у), з якого випадково і незалежно вибираються обмежена кількість спостережень . Такі вибірки називається прості або випадковими однаково розподіленими (independent identically distributed).

Розглянемо функція втрат для класифікації. З огляду на X як векторний простір всіх можливих входів, і як векторний простір всіх можливих результатів, ми хочемо знайти функцію F: X ↦ R, який найкраще відображає х в у. Проте, через неповної інформації, шуму в вимірі, або імовірнісних компонентів в основний процес, можна за те ж саме х, щоб генерувати інший у.

Логістична функція втрат визначаються як сигмоїда з t - це параметр функції, що визначає її крутизну. Коли t прямує до нескінченності, функція вироджується в порогову. При t = 0 сигмоїда вироджується в постійну функцію із значенням 0,5. Область значень даної функції знаходиться в інтервалі (0,1). Важливою перевагою цієї функції є простота її похідної:

(2.4)

де –ознака об’єкта , - функція втрат, – час.

Ця структура призводить до чутливості логістичної функцію втрат до викидів в даних.

Те, що похідна цієї функції може бути виражена через її значення, полегшує використання цієї функції при навчанні мережі за алгоритмом зворотного поширення. Це дозволяє запобігти насиченню від великих сигналів

Ця функція не визначена, коли р (1 | x) = 1 або р (1 | x) = 0 (прямуючи до ∞ і -∞ відповідно), але прогнозує плавну криву, яка росте, коли р (1 | x) збільшується і дорівнює 0, коли р (1 | х) = 0,5

Етапи побудови системи прийняття рішення у задачі класифікації :

Розуміння задачі та даних
Первинна обробка даних та ознак
Побудова моделі
Приведення навчання до оптимізації
Розв’язок проблем оптимізації і перенавчання
Оцінка якості
Впровадження та експлуатація

Прийняття рішення за допомогою моделі штучної нейронної мережі

Розглянемо алгоритм навчання мережі для прийняття рішення щодо класифікації. Нейронна мережа - це суперпозиція нейронів з нелінійною функцією активації.

(2.5)

де - ознака об'єкта x, - ваги ознак, - функція активації.

Вибір параметрів моделі :

Отримуємо задачу оптимізації:

(2.6)

1. Ініціалізація мережі: вагові коефіцієнти і зсуви мережі приймають малі випадкові значення.

2. Визначення елемента навчальної множини: (вхід - вихід).

Входи, повинні розрізнятися для всіх прикладів навчальної множини.

3. Обчислення вихідного сигналу:

де S - вихід суматора, w - вага зв'язку, y - вихід нейрона, b - зсув, i - номер нейрона, N - число нейронів у прошарку, m - номер прошарку, L - число прошарків, f- передатна функція.

4. Налаштування синаптичних ваг:

(2.7)

де - вага від нейрона i або від елемента вхідного сигналу i до нейрона j у момент часу,- вихід нейрона i, - швидкість навчання, - значення похибки для нейрона j.

Якщо нейрон з номером j належить останньому прошарку, тоді

(2.8)

де - бажаний вихід нейрона j - поточний вихід нейрона j.

Якщо нейрон з номером j належить одному з прошарків з першого по передостанній, тоді k пробігає всі нейрони прошарку з номером на одиницю більше, ніж у того, котрому належить нейрон j.

Вибір числа шарів потребує системного підходу. Якщо в конкретному завданні гіпотеза про лінійну роздільність класів виглядає правдоподібно, то можна обмежитися одношаровим перцептроном. Двошарові мережі дозволяє представляти звивисті нелінійні границі, і в більшості випадків цього вистачає. Чим більше шарів, тим багатший клас функцій реалізує мережу, але тим гірше сходяться градієнтні методи, і тим важче її навчити.

Вибір числа нейронів в прихованому шарі H виробляє різні способи, але жоден з них не є найкращим.

Візуальний спосіб. Якщо межа класів (або крива регресія) занадто згладжена, значить, мережа занадто спрощена, і необхідно збільшувати число нейронів в прихованому шарі. Якщо межа класів (або крива регресії) відчуває занадто різкі коливання, на тестових даних спостерігаються великі викиди, ваги мережі приймають великі по модулю значення, то мережа переускладнена, і прихований шар слід скоротити
Оптимізація Н по зовнішньому критерію, наприклад, за критерієм сковзного контролю або середньої помилки на незалежній контрольній вибірці. Залежність зовнішніх критеріїв від параметра складності, яким є Н, звичайно має характерний оптимум.

Метод оптимізації для знаходження параметрів моделі

Розглянемо метод стохастичного градієнтного спуску.

Вхід: вибірка темп навчання, параметр

Вихід:

Недоліки – для кожного об’єкту рахуємо функцію втрат

Кількість вагових коефіцієнтів

Складність алгоритму:

Градієнтний спуск працює в просторах з будь-яким числом вимірів, навіть у нескінченновимірних. В останньому випадку простір пошуку зазвичай є простором функцій, і для визначення напрямку спуску здійснюється обчислення похідної Гато функціоналу, який мінімізують.

Розглянемо швидкий проксимальний градієнтний метод. А саме, якщо функція F є опуклою, а ∇F є ліпшицевою, і немає припущення, що F є сильно опуклою, то похибку цільового значення, породжувану методом градієнтного спуску на кожному кроці k, буде обмежено O(1 / k). Із застосуванням методики прискорення Нестерова похибка знижується до O(1 / k²).

Стохастичний градієнтний спуск з імпульсом запам'ятовує оновлення Δ w на кожній ітерації і визначає наступне оновлення у вигляді випуклої(лінійної) комбінації градієнта і попереднього оновлення.

(2.9)

де - функція втрат, що мінімізується, параметр w, за яким мінімізується - η - довжина кроку (іноді званої темпом навчання в машинному навчанні).

У стохастичному (або «он-лайн») градієнтном спуску, істинний градієнтапроксимується градієнтом по одному об'єкті.

Алгоритм стохастичного градієнтного спуску може бути представлений таким чином:

Виберіть вихідний вектор параметрів w та темп навчання (learning_rate)
Повторити до тих пір, поки не буде отримано приблизне мінімальне.
Випадково перетасувати об’єкти в навчальному наборі

Компроміс між обчислення істинного градієнта і градієнта для одного об'єкту - це обчислення градієнта для більш, ніж одного навчального об'єкту (так званої міні-порції - mini-batch) на кожному кроці. Збіжність стохастичного градієнтного спуску була проаналізована за допомогою теорії опуклої мінімізації та стохастичної апроксимації.

Розглянемо метод зворотного поширення.

Вхід: вибірка темп навчання,

Параметр l, H - число нейронів прихованого шару

Вихід:

Складність алгоритму -

У разі двошарової мережі прямий хід, зворотний хід і обчислення градієнта вимагають порядку O (Hn + HM) операцій. Тому даний метод легко реалізується на обчислювальних пристроях з паралельною архітектурою.

Методи вибору параметрів

З метою вибору оптимальних параметрів системи використовують ряд методів системного аналізу, статистики та теорії керування. Найбільш відомі з них: попередня зупинка, регуляризація системи, усереднення прийняття рішення, відсікання та нарощування.

Розглянемо метод попередньої (ранньої) зупинки. Ретельна підгонка параметрів моделі на фіксованій навчальній вибірці може призвести до надто точного налаштування на особливості конкретних даних, що призводить до неминуче збільшення реальної похибки. Очевидним виходом із цієї ситуації є зупинка процесу навчання до того моменту, доки реальна похибка не почне зростати з причини надлишкового регулювання. Зупинку виконують за наявності тенденції зростання реальної похибки. Для того, щоб уникнути попадання в локальний мінімум, оцінку реальної похибки виконують на підмножині параметрів.

Розглянемо регуляризацію. Реальну похибку представляють у вигляді суми середньоквадратичної похибки та деякої функції R(W ), що задає попередній стан моделі:

(2.10)

де R(W ) – функція, що задає попередній стан мережі, k ― коефіцієнт регуляризації, який задає ступінь впливу R(W ) на реальну похибку, N - кількість об’єктів навчальної вибірки – результат на об’єкті n,

Мінімізація E прямо відповідає вирішенню дилеми відхилення або дисперсії, оскільки середньоквадратична похибка задає статистичне відхилення, а функція R(W) – величину дисперсії. Коефіцієнт регуляризації k відіграє роль параметра, що формує співвідношення між статистичним відхиленням та дисперсією при вирішенні дилеми відхилення або дисперсії і змінюється в діапазоні .

Розв’язок даної задачі одержують, виходячи з варіаційного принципу, при реалізації якого використовують вхідний набір даних та попередню інформацію про гладкість функції. Отже, регуляризація може бути проведена шляхом формування вихідних даних у відповідності до функції.

Оцінка методу прийняття рішення

Реальною похибкою називають похибку, з якою функціонує в умовах реальних даних, на відміну від навчальної похибки, що визначається при роботі з навчальною вибіркою.

Перехресна перевірка (англ. cross-validation) — метод оцінювання достовірності математичної моделі з метою перевірки, наскільки результати статистичного аналізу узагальнюються на незалежному наборі даних.

Нехай дана вибірка . Розіб'ємо її N різними способами на дві неретинаючі підвибірки - навчальну довжини l і контрольну довжини k = L - l. Для кожного розбиття n = 1,. . . , N побудуємо алгоритм і обчислимо значення. Середнє арифметичне значень за всіма розбиття називається оцінкою ковзного контролю (cross-validation, CV):

(2.11)

де – алгоритм моделі, навчальна вибірка, - контрольна вибіка

Одноразова перехресна перевірка передбачає розбиття вибірки на підвибірки з метою проведення аналізу на одній частині (навчальному наборі, англ. training set) і перевірки аналізу на іншій частині (контрольньому наборі, англ. validation set). Для зниження дисперсії здійснюється багаторазова перехресна перевірка із застосуванням різного розбиття, і результати цих перевірок усереднюються.

Висновки

У роботі розглянуто базові математичні поняття загальної постановки задачі машинного навчання. Представлено формальний опис нейронних мереж та їх структури. Описано методологію навчання багатошарових ШНМ прямого поширення, пошуку оптимальної кількості структурних одиниць, зокрема прихованих шарів та їх розмір.

Також приведено алгоритм пошуку вагових коефіцієнтів за допомогою методу стохастичного градієнтного спуску та детальний опис вибору параметрів для даної задачі оптимізації. Розглянуто способи оцінки побудованої моделі нейронної мережі.

Перевагами цих методів є їх паралелізм типових процесів для ефективного і ресурсно незатратного розв’язку єдиною глобальної задачі, здатність навчатися, що веде до універсальності, можливість вибору параметрів. Дані методи широко використовуються спеціалістами у галузі аналізу даних протягом останнього десятиріччя.

Література

Акулов П.В. Рішення задач прогнозування за допомогою нейронних мереж [Електронний ресурс] / Акулов Павло Володимирович - Режим доступу: www.dgtu.donetsk.ua
Rumelhart, D. E. and J. L. McClelland, 1986, Parallel Distributed Processing: Explorations in the Microstructure of Cognition, MIT Press, Cambridge, MA
McCulloch, W. S. and W. Pitts, 1943, "A logical calculus of ideas immanent in nervous activity," Bulletin of Mathematical Biophysics, vol. 5 pp. 115-133 Neural Networks, pp. 2476-2481
Rosenblatt, F., 1958, "The perceptron: a probabilistic model for information storage and organization in the brain," Psychological Review, vol. 65, pp. 386
Ширяев А.Н. Основы стохастической финансовой математики / Ширяев А.Н- М.: ФАЗИС, 1998.–415c.
Resampling Statistics [Електронний ресурс] / Edward Connor // Lecture notes Biology 710 - Advanced Biometry San Francisco State University, San Francisco, California, 2008. – Режим доступу: http://userwww.sfsu.edu/efc/classes/biol710/boots/rs-boots.htm