Q-обучение

Q-обучение

Q-learning (Q-обучение) — метод, применяемый в искусственном интеллекте при агентном подходе. Относится к экспериментам вида oбучение с подкреплением. На основе получаемого от среды вознаграждения агент формирует функцию полезности Q, что впоследствии дает ему возможность уже не случайно выбирать стратегию поведения, а учитывать опыт предыдущего взаимодействия со средой. Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. Применяется для ситуаций, которые можно представить в виде марковского процесса принятия решений.

Содержание

Aлгоритм Q — learning

  1. Init (Инициализация):
    1. for each s and a do Q[s, a] = RND // 0..1
  2. Observe (Наблюдение):
    1. s' = s // Запомнить предыдущие состояние
    2. a' = a // Запомнить предыдущие действие
    3. s = FROM_SENSOR // Получить текущие состояние с сенсора
    4. r = FROM_SENSOR // Получить вознаграждение за предыдущее действие
  3. Update (Обновление ценности):
    1. Q[s',a'] = Q[s',a'] + LF * (r + DF * MAX(Q,s) — Q[s',a'])
  4. Decision (Выбор действия):
    1. a = ARGMAX(Q, s)
    2. TO_ACTIVATOR = a
  5. GO TO 2

Обозначения

  • LF — это фактор обучения. Чем он выше, тем сильнее агент доверяет новой информации.
  • DF — это фактор дисконтирования. Чем он меньше, тем меньше агент задумывается о выгоде от будущих своих действий.

Функция MAX(Q,s)

  1. max = minValue
  2. for each a of ACTIONS(s) do
    1. if Q[s, a] > max then max = Q[s, a]
  3. return max

Функция ARGMAX(Q,s)

  1. amax = First of ACTION(s)
  2. for each a of ACTION(s) do
    1. if Q[s, a] > Q[s, amax] then amax = a
  3. return amax

Литература

Ссылки



Wikimedia Foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Полезное


Смотреть что такое "Q-обучение" в других словарях:

  • ОБУЧЕНИЕ И РАЗВИТИЕ — (англ. education and development) широко разрабатываемая в психологии проблема, выясняющая взаимоотношение этих двух различных процессов (см. Педагогическая психология, Развитие психики …   Большая психологическая энциклопедия

  • ОБУЧЕНИЕ — ОБУЧЕНИЕ, обучения, мн. нет, ср. Действие по гл. обучить обучать и обучаться. «…Революция 1905 г. чрезвычайно много сделала для политического обучения масс…» Ленин. Обучение языкам. Обучение войск. Начальное обучение. Заочное обучение. Совместное …   Толковый словарь Ушакова

  • Обучение без учителя — (англ. Unsupervised learning, самообучение, спонтанное обучение)  один из способов машинного обучения, при решении которых испытуемая система спонтанно обучается выполнять поставленную задачу, без вмешательства со стороны… …   Википедия

  • обучение — См …   Словарь синонимов

  • обучение — процесс целенаправленной передачи общественно исторического опыта, организация формирования знаний, умений, навыков. Проблема О. рассматривается не только в педагогической психологии (наряду с вопросами психологии воспитания), но и в общей,… …   Большая психологическая энциклопедия

  • Обучение в вузе — Содержание 1 Виды обучения 2 Учебные предметы 3 Преддипломное обучение …   Википедия

  • Обучение с подкреплением — (англ. reinforcement learning)  один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. С точки зрения кибернетики, является одним из видов кибернетического… …   Википедия

  • ОБУЧЕНИЕ ГРАМОТЕ — обучение чтению и письму Выбор способа. О.г. определяется соотношением между устной и письменной речью, между звуками и буквами Способ О.г. опирается на знания о простейших элементах речи звуках и их обозначении буквами. Обучающийся грамоте… …   Российская педагогическая энциклопедия

  • Обучение в ВУЗе — Содержание 1 Виды обучения 2 Учебные предметы 3 Преддипломное обучение …   Википедия

  • Обучение с поощрением — Обучение с подкреплением (англ. reinforcement learning) способ постановки эксперимента, в ходе которого испытуемая система (агент) обучается, при поведение и взаимодействии в некоторой среде. Откликом среды (а не специальной системы управления… …   Википедия

  • ОБУЧЕНИЕ — целенаправленно организованный, планомерно и систематически осуществляемый процесс овладения знаниями, умениями и навыками. Цели О. могут быть достигнуты при соблюдении дидактических принципов: научности, проблемности, наглядности, доступности,… …   Российская энциклопедия по охране труда


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»