Накопленная ошибка: .

Aлгоритм обучения однослойных НС с нелинейной функцией активации

Нелинейность функции активации НС усложняет работу рассмотренного выше традиционного алгоритма и влияет на правила изменения весов нейросети, в формуле которых участвует производная от общей ошибки.

Рассмотрим в качестве функции активации функцию 1/(1+ exp(- W^TX^K)).

Ошибка для одного образца: Е^K = 1/2(Y^K- O^K)² = 1/2(Y^K- 1/(1 + exp(-W^TX^K)))²,

где Y - желаемый выход, О - текущий выход.

Разновидность функции активации в формуле изменения весов уточняет значение градиента от общей функции ошибки Wⁿ⁺¹ = Wⁿ - z(E^K(W)/W).

Рассмотрим пример. Для униполярной сигмоидальной функции правила весов уточняются следующим образом. Если вычислить градиент от E^K(W), то получим преобразованную формулу: W = W + z(Y^K- O^K)O^K(1 - O^K)Х^K,

где d = - (Y^K- O^K)O^K(1 - O^K), т. е. W =W + zdX. Если функция активации нейронов - это биполярная сигмоида, то формула изменения весов будет следующей:

W = W+ 1/2z(1 - O^K)(Y^K- O^K)²Х^K.

Алгоритм "победитель получает все"

Самоорганизующиеся карты решают задачу классификации. У нее есть сколько-то центров и после обучения к каждому этому центру она будет относить объекты по принципу ближайшего соседства. Обучается алгоритмом без учителя.

Простейшая сеть Кохонена – нелинейная однослойная сеть. Каждый выходной нейрон назначается на определенный кластер. При каждом срабатывании только 1 нейрон активен. Определение активного нейрона осуществляется с помощью сравнения вектора входов с векторами весов всех выходных нейронов. Сеть Кохонена называют соревновательным слоем, если она входить в состав другой нейронной сети.

Среди алгоритмов обучения нейросети выделяют два вида: без учителя и с учителем. Обучение без учителя заключается в том, что образцы данных делятся на классы по степени похожести. Такое обучение называют кластеризацией. Рассмотрим однослойную нейронную сеть, представленную на рис. 4.10. Пусть необходимо выделить m кластеров. Решая задачу кластеризации, используют нормализованные вектора, т.е. W_i = W_i / ||W||. Затем расстояния между векторами ||X - W_i|| сравниваются и ищется минимальное. Найденный минимальный выход объявляется победителем. Обозначим его W_r. В дальнейшем модифицируются только веса нейрона-победителя: W_r = W_r + || X-W_r||,

W_r = W_r / || W_r||,

а веса остальных нейронов остаются постоянными: W_i = W_i, o_i = 0, i0.

Таким образом, входные данные сортируются по классам с помощью меры похожести, в качестве которой выступает расстояние между векторами: W_r = W_r + || X-W_r ||.

Финалом работы алгоритма "победитель забирает все" является набор векторов, каждый из которых указывает на центр гравитации кластера (рис. 4.12).

W₂ W¹ W₁ W² W³ Рис. 4.12. Решение задачи кластеризации