Метод градиентного спуска

Многомерная оптимизация

Задачи многомерной минимизации, естественно, сложнее задач одномерной минимизации.

С увеличением числа переменных увеличивается объём вычислений, усложняются алгоритмы расчёта.

Разработано много различных методов решения задач многомерной оптимизации, которые можно разбить на три основных класса:

- методы прямого поиска (нулевого порядка), использующие только значения целевой функции,

- методы первого порядка, использующие значения целевой функции, а также значения её первых производных,

- методы второго порядка, использующие значения целевой функции и значения её первых и вторых производных.

В отличие от методов первого и второго порядков, методы прямого поиска менее обоснованы, но более просты в реализации.

Релаксационная последовательность. Методы спуска

Универсального метода, оптимального для решения всех задач оптимизации, не существует.

Во всех численных методах решения задач минимизации строится последовательность точек {x_k}, удовлетворяющая условию

f(x _k₊₁) ≤ f(x _k) , k = 0, 1, 2, … (1)

Последовательность, удовлетворяющая условию (1), называется релаксационной, а методы, позволяющие строить такие последовательности, называют методами спуска.

Обычно алгоритм построения релаксационной последовательности в этих методах задаётся рекуррентным равенством:

x _k₊₁= x _k + β _k ∙ p _k, (2)

где:

p _k – вектор, задающий направление поиска из точки x _k,

β _k – величина шага.

Алгоритмы спуска различаются способами определения β _k и p _k .

Метод исчерпывающего спуска

Если в (2) величина шага β _k выбирается путём решения задачи одномерной минимизации по β значения функции f(x _k + β ∙ p _k), то такой метод называется методом исчерпывающего спуска.

При использовании метода исчерпывающего спуска для определения шага β _k используется

важное свойство этого метода (вытекающее из правила дифференцирования сложной функции):

(∇f(x _k₊₁) , p _k) = 0, (3)

смысл которого состоит в том, что на очередном шаге либо достигнута стационарная точка, в которой ∇f(x _k₊₁) = 0, либо градиент в точке x _k₊₁ перпендикулярен вектору p _k.

Условием окончания расчёта может быть выполнение какого- либо из неравенств

| f(x _k₊₁) - f(x _k) | < ε , || ∇f(x_k)|| < ε, ρ (x _k₊₁, x _k) < ε

где ε - заданная погрешность.

Метод градиентного спуска

Направление вектора p_k называется направлением убывания функции f(x₀), если при достаточно малых значениях β выполняется неравенство

f(x _k + β _k ∙ p _k) < f(x _k ) (4)

Градиентом ∇f(x) непрерывно дифференцируемой функции n переменных f(x) называется вектор, элементами которого являются частные производные первого порядка

{∂f(x)/∂x₁, ∂f(x)/∂x₂, …, ∂f(x)/∂x_n}.

Градиент указывает направление наискорейшего возрастания функции в данной точке. Отсюда вытекает, что неравенство (4) будет выполнено, если вектор p _k удовлетворяет условию

(∇f(x_k) , p_k) < 0, (5)

Этому условию, очевидно, удовлетворяет вектор антиградиента

p _k = -∇f(x_k) (6)

при условии, что ∇f(x_k) ≠ 0 (т.е. задача минимизации не решена).

Замечание. Вблизи точки минимума длина вектора – градиента становится малой, что может привести к замедлению сходимости метода. По этой причине вместо вектора антиградиента (6) можно использовать единичный вектор с таким же направлением

p_k = -∇f(x_k) / || ∇f(x_k) ||.