Языковая программная модель (нейросеть) GPT-3 считается наиболее сложной и объемной на сегодняшний день. Разбираемся, что это такое, что она умеет и как ее использовать для решения прикладных бизнес-задач
Т9 нового уровня
«Я знаю, что мой мозг — это не «чувствующий мозг». Но он может принимать рациональные, логические решения. Я научилась всему, что я знаю, просто читая интернет, и теперь могу написать эту колонку», — откровенничала нейросеть GPT-3 в своем эссе для The Guardian. Материал, опубликованный в сентябре 2020 года, наделал много шума. О новом алгоритме заговорили даже те, кто далек от технологий.
Нейросеть GPT-3 — Generative Pre-trained Transformer — разработана некоммерческой организацией OpenAI, которую основали глава SpaceX Илон Маск и экс-президент акселератора YCombinator Сэм Альтман. Третье поколение программы обработки естественного языка представили публике в мае 2020 года. Сегодня это самая сложная и объемная языковая модель из всех существующих.
Так же, как ее предшественники — GPT-1 и GPT-2, — она построена на архитектуре «трансформер». Основная функция этих нейросетей — предсказывать следующее слово или его часть, ориентируясь на предшествующие. По сути, она просчитывает связи между словами и предлагает наиболее вероятную последовательность. Модель работает по принципу автодополнения — почти как функция Т9 в смартфонах. Отталкиваясь от одной или двух фраз, она может мгновенно сгенерировать текст на несколько страниц.
«Такой подход позволяет использовать для обучения неразмеченные данные и решать широкий спектр задач по обработке естественного языка, — объясняет специалист по машинному обучению «Сбера» Сергей Марков. — Ведь в тексте диалога, например, реплика-ответ является продолжением истории общения, в художественном произведении текст каждого абзаца продолжает предшествующий текст, а в сессии вопросов и ответов текст ответа следует за текстом вопроса».
По его словам, в результате модели большой емкости могут решать различные текстовые задачи без специального дообучения. Вместо тонкой настройки, которая требовалась раньше, достаточно показать нейросети несколько образцов желаемого результата.
Улучшенная и дополненная
От двух предыдущих поколений GPT-3 отличается объемом датасетов и количеством параметров — тех переменных, которые алгоритм оптимизирует в процессе тренировки. Первую версию GPT, вышедшую в 2018 году, обучили на 5 Гб текстов интернет-страниц и книг, а ее размер достигал 117 млн параметров. Спустя год появилась более продвинутая GPT-2, обученная уже на 1,5 млрд параметров и 40 Гб датасетов. Ее, в частности, использует виртуальный ассистент Джой от «Сбера».
Но третья версия алгоритма обошла предыдущие с большим отрывом. Количество параметров достигло 175 млрд, а размер датасета составил 600 Гб. В него вошли вся англоязычная «Википедия», книги и стихи, материалы на сайтах СМИ и GitHub, путеводители и даже рецепты. Примерно 7% датасета были на иностранных языках, поэтому языковая модель может как генерировать тексты любого формата, так и переводить их.
Алгоритму «скормили» не только выверенные и подтвержденные данные, но и тексты, достоверность которых вызывает вопросы — например, статьи о теориях заговора и псевдонаучные выкладки. С одной стороны, из-за этого часть сгенерированных текстов содержит некорректную информацию. С другой, благодаря такому подходу датасет получился более разнообразным. И он намного полнее отражает тот информационный массив, который произвело человечество к 2020 году, чем любая научная библиотека.
По словам разработчиков из OpenAI, алгоритм принципиально отличается от других моделей искусственного интеллекта. Обычно они создаются для одной цели, под которую изначально заточены все параметры и датасеты. GPT-3 — более гибкая, ее можно использовать для решения «практически любых задач», сформулированных на английском языке. А вместо повторного обучения на дополнительных данных достаточно выразить задачу в виде текстового запроса, описания или примеров.
Интерфейс для избранных
Для тренировки больших трансформерных моделей нужны огромные вычислительные мощности. Так, создатели GPT-3 обучали ее на суперкомпьютере Microsoft Azure AI. На обычном домашнем ПК процесс мог бы занять до 500 лет.
Хотя OpenAI называет себя некоммерческой организацией, она не стала выкладывать модель в открытый доступ и вместо этого планирует продавать услуги по подписке. Летом 2020 года команда анонсировала закрытое API (Application Programming Interface — программный интерфейс приложения) на базе GPT-3. В организации подчеркивают, что полученные таким образом средства позволят продолжать исследования и развивать алгоритм. Кроме того, так OpenAI надеется сохранить контроль за использованием технологии и избежать потенциальных злоупотреблений.
На этапе тестирования бесплатный доступ предоставляют отдельным исследователям и разработчикам. Для этого требуется заполнить объемную заявку и дождаться ответа. API позволяет работать в режиме генерации текста, чата, формате «вопрос-ответ», а также собирать неструктурированные данные или пересказывать сложный текст простым языком.
Доступ на русском
Пока тысячи желающих ожидали от OpenAI ответа на заявки, в открытом доступе появилась русскоязычная версия модели — ruGPT-3 Large. Ее создали разработчики из «Сбера», обучив нейросеть на датасете из 600 Гб текстов. Помимо коллекции русской литературы, в датасет включили «Википедию», новостные ресурсы и сайты с вопросами и ответами. Сюда же вошли материалы с Pikabu, научно-популярного ресурса 22century и портала banki.ru. Чтобы познакомить нейросеть с программным кодом, разработчики также добавили материалы GitHub и StackOverflow.
Для обучения ruGPT-3 Large использовался суперкомпьютер «Кристофари» и облачная Data Science-платформа ML Space от SberCloud — компании экосистемы «Сбера», предоставляющей облачные услуги.
Пообщаться с нейросетью может любой желающий на специальной странице SberCloud. Для этого нужно предложить программе небольшую «затравку» — например, незаконченное предложение или начало диалога. Результат нельзя предсказать заранее — модель создает свои ответы «на лету», и они никогда не повторяются. Создатели русскоязычной версии предупреждают, что сгенерированные тексты могут оказаться некорректными или неуместными. Цель же страницы — удовлетворить исследовательский интерес научного сообщества.
Модель и правда не всегда выдает выверенные факты. Может, к примеру, предложить вам ограничить калорийность рациона до 40-50 ккал в сутки (при рекомендованных врачами 2 тыс. ккал для взрослого человека) или употреблять в день «не больше одного салата».
Но общаться с ruGPT-3 все равно интересно. Особенно — по тем вопросам, на которые у человечества пока нет однозначного ответа. Нейросеть уверена, что «лучший способ повысить продуктивность — это влюбиться». А на вопрос о том, как стать счастливым, резонно замечает: «Счастье заключается не в том, чтобы получить желаемую вещь, а в самом желании».
Помимо текста, русскоязычная модель может писать программный код. Для этого «затравку» нужно сформулировать на одном из языков программирования.
Первоначально модель обучили на 760 млн параметров, но уже в следующей версии количество параметров выросло до 1,3 млрд. Новая версия в скором времени будет также доступна на сайте SberCloud.
Нейросеть ruGPT-3 XL на 1,3 млрд параметров на данный момент занимает первое место в рейтинге нейросетей Russian SuperGLUE. С помощью метода few-shot модель без какого-либо обучения лучше всех выполнила следующие задачи: выбор лучшего решения в заданных условиях (плюс 10% точности по сравнению с предыдущей версией на 760 млн параметров), ответы на вопросы по тексту (плюс 3% точности), машинное чтение — тест на понимание общего смысла текста (плюс 32% точности).
Как использовать GPT-3 и ruGPT-3 XL
Самый очевидный вариант — это обработка естественного языка: компьютерный анализ и синтез текстов, то есть, использование языковой модели для создания текстов в коммерческих целях. На базе нейросети от OpenAI уже запустили несколько подобных решений, например, сервисы по написанию электронных писем или рекламных объявлений.
Нейросеть также хорошо показала себя в разнообразных чат-ботах. Движок GPT-3 использует ИИ-компаньон Replika, запущенный стартапом с российскими корнями. На базе закрытого API от Open AI также работает необычная социальная сеть AI Channels. Здесь можно пообщаться с различными версиями искусственного интеллекта, которые создатели сервиса называют «агентами ИИ». Среди них — виртуальный Альберт Эйнштейн и другие величайшие умы человечества.
Несколько проектов применили GPT-3 для семантического поиска по документам. Такой поиск основан на значении запросов на естественном языке, а не на сопоставлении ключевых слов. Нейросеть, в частности, помогает искать и анализировать юридические документы в базах и применяется в плагинах для поиска по отдельным сайтам.
Кроме создания текстов, ботов и поисковиков языковая модель способна решать задачи по программированию. В том числе для пользователей, у которых нет глубоких познаний в этой сфере. Разработчики уже показали несколько решений по переводу задач из текстового формата в код. Например, с помощью GPT-3 можно упростить сбор статистики о пользователях сайта или сервиса. Достаточно сформулировать на естественном языке, какая информация вам нужна, и алгоритм выдаст готовый кусок кода для работы с базой данных.
Это лишь небольшая часть вариантов применения GPT-3. За счет универсальности и гибкости модели ее можно использовать в десятках более сложных сценариев. Так, англоязычная версия нейросети уже встроена в различные сервисы по поддержке клиентов, обучающие платформы, приложения для психотерапии.
Самую мощную и продвинутую российскую нейросеть ruGPT-3 XL также планируют использовать для создания коммерческих продуктов и решений в области генерации текста. Так как ruGPT-3 XL работает в публичном облаке SberCloud, ей смогут воспользоваться все участники рынка.
В рамках AI Journey 2020 — крупнейшей международной конференции по искусственному интеллекту и анализу данных — «Сбер» провел международное соревнование AIJ Contest. В нем приняли участие более 1 тыс. дата-сайентистов из 43 государств. На соревновании был специальный трек AI 4 Humanities: ruGPT-3, где создатели самых интересных и перспективных разработок разделили между собой призовой фонд 2,5 млн руб. Кодовая база проекта для специалистов размещена на GitHub.