Новый ИИ Google перешел на самообучение

На этой неделе компания DeepMind рассказала о новом прорыве: искусственном интелекте AlphaGo Zero. Его предшественник, AlphaGo, учился у людей и выигрывал лучших игроков в го. Версии Zero люди не нужны.
ИИ AlphaGo учился играть в го, разбирая тысячи любительских и профессиональных партий, сыгранных людьми. ИИ, пришедшему следом за ним. не нужно учиться у людей: он разбирает возможные комбинации и ходы абсолютно самостоятельно.

И самообочение сделало его лучше. Из сотни игр, сыгранных с предшественником, AlphaGo Zero не проиграл ни одной. Ни одной! В отличие от AlphaGo, у Zero всего одна нейросеть вмсто двух, но и этого хватило.
На то, чтобы освоить игру, у Zero ушло всего три недели, в которые уместилось такое количество партий, на которые человеку потребовалось бы несколько тысяч лет.

Разработчики AlphaGo Zero призывают не бояться его устрашающих способностей. По словам одного из специалистов DeepMind, Ника Хинса, ИИ лучше человека играет в древнюю китайскую игру, но в других областях не блещет: он был построен для решения узкого круга задач.

Описание AlphaGo Zero опубликовано в Nature.

Через 21 день разработка DeepMind приблизилась к уровню AlphaGo Master — онлайн-версии, которая в 2017-м победила топ-60 сильнейших игроков в го, включая чемпиона мира Ки Джи во всех 3-х партиях. А 40 дней спустя AlphaGo Zero обыграла все свои ранние инкарнации, став самым совершенным алгоритмом. Когда новому ИИ дали сразиться с версией AlphaGo 2016 года, его противник был разгромлен со счетом 100:0.

Если AlphaGo Lee училась на ходах профессионалов, то "самоучка" Google на начальном этапе располагала только самыми базовыми правилами игры, пишет The Guardian. Она играла сама с собой миллионы раз: перед каждым ходом алгоритмы анализировали позиции фигур на доске и вычисляли оптимальное решение, которое с самой большой вероятностью может привести к победе. После игры нейросеть обновлялась, чтобы в следующей партии сразиться с более сильной версией себя.