Гибридный алгоритм обучения радиальных сетей
В гибридном алгоритме процесс обучения разделяется на два этапа [3]:
1) Подбор линейных параметров сети (веса выходного слоя) при использовании метода псевдоинверсии;
2) Адаптация нелинейных параметров радиальных функций (центра и ширины этих функций).
Оба этапа тесно переплетаются. При фиксации конкретных значений центров и ширины радиальных функций за один шаг, с помощью метода псевдоинверсии подбираются веса выходного слоя. Если обозначить вектор ожидаемых значений, -вектор весов сети, а G – радиальную матрицу Грина:
, то задача нахождения вектора весов сводится к решению системы уравнений, линейных относительной весов:
G(w)=d (4.20)
Вследствие прямоугольности матрицы G можно определить вектор весов w с использованием операции псевдоинверсии матрицы G, то есть
w=G+d (4.21),
где обозначает псевдоинверсию прямоугольной матрицы G.
На практике псевдоинверсия рассчитывается с применением декомпозиции SVD. Если G – действительная матрица размера pxK, то существуют ортогональные матрицы и такие, что , где S – псевдодиагональная матрица размера pxK, K<p, .
Пусть только первые r столбцов матрицы S имеют значимые величины, тогда остальными столбцами можно пренебречь. Тогда матрицы U и V будут иметь следующий вид и , а матрица S становится полностью диагональной .
В этом случае матрица G может быть приближенно представлена в виде:
. (4.22)
Псевдообратная матрица для матрицы G находится по формуле:
, (4.23)
где . Тогда вектор весов находится из соотношения:
. (4.24)
На втором этапе при зафиксированных значениях выходных весов рассчитывается реальные выходы сети и величина погрешности для последовательности векторов , t=1,2,..,p. По величине погрешности определяется вектор градиента целевой функции относительно конкретных центров и ширины (по методу обратного распространения ошибки).
Каждая радиальная функция определяется в общем виде как
, (4.25)
где суммарный сигнал нейрона описывается выражением
. (4.26)
При существовании p обучающих пар целевую функцию можно задать в виде:
(4.27)
В результате дифференцирования этой функции получим:
,
(4.28)
.
Применение градиентного метода наискорейшего спуска позволяет провести уточнение центров и ширины радиальных функций согласно формулам (4.29) и (4.30):
, (4.29)
. (4.30)
Уточнение нелинейных параметров радиальной функции завершает очередной цикл обучения. Многократное повторение обоих этапов ведет к полному и быстрому обучению сети, особенно когда начальные значения параметров радиальных функций близки к оптимальным значениям.