21.07.2020 Выпуск 344 (20.07.2020 - 26.07.2020) Статьи

Учим ИИ распределять пироги по магазинам с помощью обучения с подкреплением

Как-то во время чтения книги «Reinforcement Learning: An Introduction» я задумался над дополнением своих теоретических знаний практическими, однако решать очередную задачу балансировки бруска, учить агента играть в шахматы или же изобретать другой велосипед желания не было.

При этом в книге был один интересный пример на оптимизацию очереди клиентов, который с одной стороны не слишком сложен в плане реализации/понимания процесса, а с другой — вполне интересный и может быть с тем или иным успехом внедрен в реальную жизнь.

Немного изменив данный пример, я и пришел к той идее, о которой далее и пойдет речь.

IT-новости про Python, которые стоит знать

Учим ИИ распределять пироги по магазинам с помощью обучения с подкреплением