Е.С.Борисов
27 октября 2002 г.
Элементами этих двух множеств есть пары , где
где
1. Перед началом обучения весовые коэффициенты НС устанавливаются некоторым образом, на пример - случайно.
2. На первом этапе на вход НС в определенном порядке подаются учебные примеры. На каждой итерации вычисляется ошибка для учебного примера (ошибка обучения) и по определенному алгоритму производится коррекция весов НС. Целью процедуры коррекции весов есть минимизация ошибки .
3.
На втором этапе
обучения производится проверка правильности работы НС. На вход НС в
определенном порядке подаются контрольные примеры. На каждой итерации
вычисляется ошибка для контрольного примера (ошибка обобщения). Если результат
неудовлетворительный то, производится модификация множества учебных примеров
В случае однослойной сети алгоритм обучения с учителем - прост. Желаемые выходные значения нейронов единственного слоя заведомо известны, и подстройка весов синаптических связей идет в направлении, минимизирующем ошибку на выходе сети.
По этому принципу строится
алгоритм обучения однослойного персептрона [
Данный метод был предложен
Ф.Розенблаттом в 1959 г. для НС, названной персептрон (perceptron) [
Процедуру обучения
Розенблатта для однослойного персептрона можно представить так [
где
Весовые коэффициенты меняются только в том случае, если реальное выходное значение не совпадает идеальным выходным значением.
Полный алгоритм обучения Розенблатта строится следующим образом:
Персептрон Розенблатта
ограничивается бинарными выходами. Видроу и Хофф изменили модель Розенблатта.
Их первая модель - ADALINE (Adaptive Linear Element) имела один выходной нейрон
Метод обучения Видроу-Хоффа известен еще как дельта-правило (delta-rule). Этот метод ставит своей целью минимизацию функции ошибки в пространстве весовых коэффициентов.
где
Минимизация осуществляется методом градиентного спуска
где
Таким образом весовые коэффициенты изменяются по правилу
Полный алгоритм обучения методом Видроу-Хоффа строится следующим образом:
Сеть, имеющую два и более слоёв, уже проблематично обучить описанными выше методами, поскольку в многослойных сетях известен выход лишь последнего слоя нейронов.
Вариант решения этой задачи
был предложен Д.Румельхартом с соавторами в 1986 году [
Метод обратного
распространения ошибки (error back propagation - BP) это итеративный
градиентный алгоритм обучения многослойных НС без обратных связей [
где
Минимизация ведется методом градиентного спуска. Подстройка весовых коэффициентов происходит следующим образом:
где
· Здесь
где число нейронов слоя .
Введя новую переменную
мы получим рекурсивную формулу для расчетов величин слоя из величин слоя .
Для выходного слоя
Теперь мы можем записать (
Полный алгоритм обучения НС с помощью процедуры обратного распространения ошибки строится следующим образом:
Для
выходного слоя вычислить изменения весов
по (
Для
всех остальных слоев вычислить по (
либо модификация архитектуры НС
функцию единичного скачка
более поздняя модель - MADALINE имела несколько выходных нейронов
таким, образом функция единичного скачка и прочие активационные функции с неоднородностями не подходят. В данном случае применяются гладкие функции - гиперболический тангенс или классический сигмоид с экспонентой
F.Rosenblatt ''Principles of
Neurodinamics.'' 1962, New York: Spartan Books.
Русский перевод:
Ф.Розенблатт ''Принципы нейродинамики.'' Москва ''Мир'' 1965.
D.E.Rumelhart, G.E.Hinton,
R.J.Williams
''Learning internal representations by error propagation.'' 1986.
In Parallel distributed processing, vol. 1, pp. 318-62. Cambridg, MA: MIT
Press.
В.Widrow, M.Hoff ''Adaptive switching circuits.'' 1960 IRE WESCON Convention Record, part 4, pp. 96-104. New York: Institute of Radio Engineers.
В.А.Головко, под ред.проф.А.И.Галушкина
''Нейронные сети: обучение, организация и применение'', ИПРЖР, Москва 2001
С.Короткий ''Нейронные сети'' -
Л.Г.Комарцова, А.В. Максимов ''Нейрокомпьютеры''
Москва, МГТУ им. Н.Э.Баумана, 2002
| ||||||||||||