13.05.2019 Выпуск 282 (13.05.2019 - 19.05.2019) Статьи

Глубокое обучение с подкреплением: пинг-понг по сырым пикселям

Вы, возможно, знаете, что компьютеры теперь могут автоматически учиться играть в игры ATARI(получая на вход сырые игровые пиксели!). Они бьют чемпионов мира в игру Го, виртуальные четвероногие учатся бегать и прыгать, а роботы учатся выполнять сложные задачи манипуляции, которые бросают вызов явному программированию. Оказывается, что все эти достижения не обходятся без RL. Я также заинтересовался RL в течение прошлого года: я работал с книгой Ричарда Саттона (прим.пер.: ссылка заменена), читал курс Дэвида Сильвера, смотрел лекции Джона Шульмана, написал библиотеку RL на Javascript, летом проходил практику в DeepMind, работая в группе DeepRL, и совсем недавно — в разработке OpenAI Gym, – нового инструментария RL. Так что я, конечно, был на этой волне, по крайней мере, год, но до сих пор не удосужился написать заметку о том, почему RL имеет большое значение, о чем он, как все это развивается.

IT-новости про Python, которые стоит знать

Глубокое обучение с подкреплением: пинг-понг по сырым пикселям