Когда система нейронной сети обучается, она создает внутреннюю модель выборочных данных. Эти модели представлены в терминах векторов структурных весов.

Алгоритмы обучения определяют зависящую от архитектуры процедуру кодирования информации в веса для создания внутренних моделей. Это обучение происходит путем непрерывного изменения силы связи (синаптических весов).

Система обучается тремя способами.

Контролируемое обучение:

Мы знаем, что для любой сети с набором дискретных выборок Xk, представленным системе, она генерирует вывод как Sk. Эти пары входных и выходных выборок используются для обучения сети посредством обучения с исправлением ошибок или адаптации веса градиентного спуска.

Для данной системы давайте предположим, что среда — это выборки ввода-вывода и существование учителя, обладающего знаниями об окружающей среде. Но те же знания неизвестны сети. Теперь, когда и учитель, и сеть подвергаются воздействию обучающего вектора или примеров, взятых из одной и той же среды, благодаря встроенным знаниям, учитель может предоставить нейронной сети желаемый ответ для этого обучающего вектора. . Желаемый ответ Dk представляет собой «оптимальное» действие, которое должна выполнить нейронная сеть. Так настраиваются параметры сети под совместным воздействием обучающего вектора и сигнала ошибки.

Обучение с учителем кодирует поведенческий паттерн в сеть, пытаясь аппроксимировать функцию, лежащую в основе набора данных. Здесь мы хотим, чтобы система генерировала вывод dk в ответ на ввод xk, и мы говорим, что система изучила базовую карту, если xk, близкий к xk учителя, вызывает ответ sk, достаточно близкий к sk учителя.

Подгонка весов осуществляется итеративно пошагово с целью заставить нейронную сеть подражать учителю; эмуляция считается оптимальной в некотором статистическом смысле. Таким образом, знания об окружающей среде, доступные учителю, передаются в нейронную сеть посредством обучения и сохраняются в виде «фиксированных» синаптических весов, представляющих долговременную память.

Когда это условие достигнуто, мы можем распустить учителя и позволить нейронной сети полностью разобраться с окружающей средой.

КЛЮЧЕВЫЕ МОМЕНТЫ:

  1. Учитывая дискретный набор выборок для обучения в {xk,dk}, взятых из пространства шаблонов, пары выборок ввода-вывода используются для обучения сети с помощью коррекции ошибок или адаптации веса градиентного спуска (LMS и обратное распространение).
  2. Мера ошибки обычно определяется среднеквадратичной ошибкой (MSE).
  3. Процесс обучения завершается, когда Е (ошибка) становится достаточно малой или выполняется критерий отказа.

Примерами могут быть классификация, регрессия и т. д.

Неконтролируемое обучение:

Другой способ обучения состоит в том, чтобы просто предоставить системе входные данные xk и позволить ей самостоятельно организовать свои параметры (или веса сети) для создания внутренних моделей или прототипов выборочных векторов. Это самоорганизованное обучение не требует внешнего учителя или критика для наблюдения за процессом обучения.

Сеть должна обучаться, и свободные параметры (синаптические веса) сети оптимизируются по отношению к этой мере.

Как только сеть настроится на статистические закономерности входных данных, она развивает способность автоматически формировать внутренние представления для кодирования признаков новых классов.

Система пытается представить весь набор данных, используя небольшое количество векторов-прототипов — достаточное, чтобы позволить системе сохранить желаемый уровень различения между выборками. Поскольку новые образцы постоянно буферизуют систему, прототипы будут находиться в состоянии постоянного изменения. Это обучение часто называют адаптивным векторным квантованием. Векторный квантизатор является адаптивным, если кодовая книга или правило кодирования изменяются вовремя, чтобы соответствовать наблюдаемой локальной статистике входной последовательности. Именно это происходит при неконтролируемом обучении.

КЛЮЧЕВЫЕ МОМЕНТЫ:

  1. Имея набор выборок данных, мы можем идентифицировать четко определенные «кластеры», где каждый кластер определяет класс векторов, похожих в некотором широком смысле.
  2. Кластеры помогают установить структуру классификации в наборе данных, для которого заранее не определены категории. Классы получаются из кластеров соответствующей маркировкой.

Таким образом, схемы неконтролируемого обучения в основном используются для кластерного векторного квантования, выделения признаков, кодирования сигналов и анализа данных.

Обучение с подкреплением:

Обучение с подкреплением — это класс вычислительных алгоритмов, который определяет, как искусственный агент или реальный/имитируемый робот может научиться выбирать действия, чтобы максимизировать общее ожидаемое вознаграждение. Обучение с подкреплением — это процедура обучения, которая вознаграждает нейронную сеть за хороший результат и наказывает за плохой результат.

Существует критик, который дает только обратную связь об успехе или неудаче действий. Критик, который преобразует первичный сигнал подкрепления, полученный из окружающей среды, в сигнал подкрепления более высокого качества, называется эвристическим сигналом подкрепления.

Он обеспечивает основу для взаимодействия обучающейся системы с окружающей средой, тем самым развивая способность выполнять предписанную задачу исключительно на основе результатов своего опыта, являющихся результатом взаимодействия.

КЛЮЧЕВЫЕ МОМЕНТЫ:

  1. Этот тип обучения основан только на информации о том, близок ли фактический результат к оценке.
  2. Система предназначена для обучения в условиях отложенного подкрепления.
  3. Может оказаться, что некоторые действия, предпринятые ранее в этой последовательности временных шагов, на самом деле являются лучшими детерминантами общего поведения системы. Функция системы обучения состоит в том, чтобы обнаруживать эти действия и передавать их в окружающую среду.

Обучение с подкреплением обычно используется в управлении роботами общего назначения и искусственном интеллекте.