Гибридный алгоритм обучения радиальных сетей

В гибридном алгоритме процесс обучения разделяется на два этапа [3]:

1) Подбор линейных параметров сети (веса выходного слоя) при использовании метода псевдоинверсии;

2) Адаптация нелинейных параметров радиальных функций (центра и ширины этих функций).

Оба этапа тесно переплетаются. При фиксации конкретных значений центров и ширины радиальных функций за один шаг, с помощью метода псевдоинверсии подбираются веса выходного слоя. Если обозначить вектор ожидаемых значений, -вектор весов сети, а G – радиальную матрицу Грина:

, то задача нахождения вектора весов сводится к решению системы уравнений, линейных относительной весов:

G(w)=d (4.20)

Вследствие прямоугольности матрицы G можно определить вектор весов w с использованием операции псевдоинверсии матрицы G, то есть

w=G+d (4.21),

где обозначает псевдоинверсию прямоугольной матрицы G.

На практике псевдоинверсия рассчитывается с применением декомпозиции SVD. Если G – действительная матрица размера pxK, то существуют ортогональные матрицы и такие, что , где S – псевдодиагональная матрица размера pxK, K<p, .

Пусть только первые r столбцов матрицы S имеют значимые величины, тогда остальными столбцами можно пренебречь. Тогда матрицы U и V будут иметь следующий вид и , а матрица S становится полностью диагональной .

В этом случае матрица G может быть приближенно представлена в виде:

. (4.22)

Псевдообратная матрица для матрицы G находится по формуле:

, (4.23)

где . Тогда вектор весов находится из соотношения:

. (4.24)

На втором этапе при зафиксированных значениях выходных весов рассчитывается реальные выходы сети и величина погрешности для последовательности векторов , t=1,2,..,p. По величине погрешности определяется вектор градиента целевой функции относительно конкретных центров и ширины (по методу обратного распространения ошибки).

Каждая радиальная функция определяется в общем виде как

, (4.25)

где суммарный сигнал нейрона описывается выражением

. (4.26)

При существовании p обучающих пар целевую функцию можно задать в виде:

(4.27)

В результате дифференцирования этой функции получим:

,

(4.28)

.

Применение градиентного метода наискорейшего спуска позволяет провести уточнение центров и ширины радиальных функций согласно формулам (4.29) и (4.30):

, (4.29)

. (4.30)

Уточнение нелинейных параметров радиальной функции завершает очередной цикл обучения. Многократное повторение обоих этапов ведет к полному и быстрому обучению сети, особенно когда начальные значения параметров радиальных функций близки к оптимальным значениям.