Q-обучение

Толкование

Q-обучение: Q-learning (Q-обучение) — метод, применяемый в искусственном интеллекте при агентном подходе. Относится к экспериментам вида oбучение с подкреплением. На основе получаемого от среды вознаграждения агент формирует функцию полезности Q, что впоследствии дает ему возможность уже не случайно выбирать стратегию поведения, а учитывать опыт предыдущего взаимодействия со средой. Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. Применяется для ситуаций, которые можно представить в виде марковского процесса принятия решений.

Содержание

1 Aлгоритм Q — learning

1.1 Обозначения

1.2 Функция MAX(Q,s)

1.3 Функция ARGMAX(Q,s)

2 Литература

3 Ссылки

Aлгоритм Q — learning

Init (Инициализация):

for each s and a do Q[s, a] = RND // 0..1

Observe (Наблюдение):

s' = s // Запомнить предыдущие состояние

a' = a // Запомнить предыдущие действие

s = FROM_SENSOR // Получить текущие состояние с сенсора

r = FROM_SENSOR // Получить вознаграждение за предыдущее действие

Update (Обновление ценности):

Q[s',a'] = Q[s',a'] + LF * (r + DF * MAX(Q,s) — Q[s',a'])

Decision (Выбор действия):

a = ARGMAX(Q, s)

TO_ACTIVATOR = a

GO TO 2

Обозначения

LF — это фактор обучения. Чем он выше, тем сильнее агент доверяет новой информации.

DF — это фактор дисконтирования. Чем он меньше, тем меньше агент задумывается о выгоде от будущих своих действий.

Функция MAX(Q,s)

max = minValue

for each a of ACTIONS(s) do

if Q[s, a] > max then max = Q[s, a]

return max

Функция ARGMAX(Q,s)

amax = First of ACTION(s)

for each a of ACTION(s) do

if Q[s, a] > Q[s, amax] then amax = a

return amax

Литература

Стюарт Рассел, Питер Норвиг, «ИИ — современный подход»

Ссылки

В Викиверситете есть материалы по теме Q-learning

Проработанный пример

Категория:
Агентный подход

Игры ⚽ Нужно сделать НИР?

Полезное

Смотреть что такое "Q-обучение" в других словарях:

ОБУЧЕНИЕ И РАЗВИТИЕ — (англ. education and development) широко разрабатываемая в психологии проблема, выясняющая взаимоотношение этих двух различных процессов (см. Педагогическая психология, Развитие психики … Большая психологическая энциклопедия
ОБУЧЕНИЕ — ОБУЧЕНИЕ, обучения, мн. нет, ср. Действие по гл. обучить обучать и обучаться. «…Революция 1905 г. чрезвычайно много сделала для политического обучения масс…» Ленин. Обучение языкам. Обучение войск. Начальное обучение. Заочное обучение. Совместное … Толковый словарь Ушакова
Обучение без учителя — (англ. Unsupervised learning, самообучение, спонтанное обучение) один из способов машинного обучения, при решении которых испытуемая система спонтанно обучается выполнять поставленную задачу, без вмешательства со стороны… … Википедия
обучение — См … Словарь синонимов
обучение — процесс целенаправленной передачи общественно исторического опыта, организация формирования знаний, умений, навыков. Проблема О. рассматривается не только в педагогической психологии (наряду с вопросами психологии воспитания), но и в общей,… … Большая психологическая энциклопедия
Обучение в вузе — Содержание 1 Виды обучения 2 Учебные предметы 3 Преддипломное обучение … Википедия
Обучение с подкреплением — (англ. reinforcement learning) один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. С точки зрения кибернетики, является одним из видов кибернетического… … Википедия
ОБУЧЕНИЕ ГРАМОТЕ — обучение чтению и письму Выбор способа. О.г. определяется соотношением между устной и письменной речью, между звуками и буквами Способ О.г. опирается на знания о простейших элементах речи звуках и их обозначении буквами. Обучающийся грамоте… … Российская педагогическая энциклопедия
Обучение в ВУЗе — Содержание 1 Виды обучения 2 Учебные предметы 3 Преддипломное обучение … Википедия
Обучение с поощрением — Обучение с подкреплением (англ. reinforcement learning) способ постановки эксперимента, в ходе которого испытуемая система (агент) обучается, при поведение и взаимодействии в некоторой среде. Откликом среды (а не специальной системы управления… … Википедия
ОБУЧЕНИЕ — целенаправленно организованный, планомерно и систематически осуществляемый процесс овладения знаниями, умениями и навыками. Цели О. могут быть достигнуты при соблюдении дидактических принципов: научности, проблемности, наглядности, доступности,… … Российская энциклопедия по охране труда

Словари и энциклопедии на Академике

Q-обучение

Содержание

Aлгоритм Q — learning

Обозначения

Функция MAX(Q,s)

Функция ARGMAX(Q,s)

Литература

Ссылки

Полезное

Смотреть что такое "Q-обучение" в других словарях:

Поделиться ссылкой на выделенное

Словари и энциклопедии на Академике

Википедия

Q-обучение

Содержание

Aлгоритм Q — learning

Обозначения

Функция MAX(Q,s)

Функция ARGMAX(Q,s)

Литература

Ссылки

Полезное

Смотреть что такое "Q-обучение" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: