Она также может смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна (inpainting/outpainting). Модель понимает запросы на 101 языке (включая русский и английский) и умеет рисовать в различных стилях.
Нейросеть разработали и обучили исследователи Sber AI при партнерской поддержке ученых из Института искусственного интеллекта AIRI на объединенном датасете Sber AI и компании SberDevices.
Новая модель Kandinsky 2.1 унаследовала веса предыдущей версии, обученной на один миллиард пар «текст — изображение», и была дополнительно обучена на 170 млн пар «текст — изображение» высокого разрешения. Затем она дообучалась на отдельно собранном датасете из двух миллионов пар качественных изображений. В данный сет попали картинки с описаниями в таких традиционно сложных для нейросетей областях, как тексты и лица людей.
Нейросеть также была усовершенствована за счет новой обученной модели автоэнкодера, которая используется в том числе в качестве декодера векторных представлений изображений. Это кардинально улучшило генерацию изображений в высоком разрешении: лица, сложные объекты и так далее. Благодаря этому новая модель содержит 3,3 млрд параметров вместо двух миллиардов в Kandinsky 2.0.
Кроме того, Kandinsky 2.1 использует не только закодированное текстовое описание, но и специальное представление изображения моделью CLIP. В таком виде нейросеть формирует представление картинки на основе текстовой информации и подает его на вход основной генеративной модели.
Модель умеет визуализировать любой контент и может применяться в различных отраслях. К примеру, в банковской сфере ее можно использовать для создания персонализированных маркетинговых решений, ярких образов продуктов, привлечения и удержания внимания клиентов.
Александр Ведяхин, первый заместитель председателя правления Сбербанка: «Обучая Kandinsky 2.1, мы учли мнения пользователей и реализовали смелую гипотезу, изучив самые передовые концепции. В результате мы разработали мощное универсальное решение для широкого круга задач на уровне лучших мировых аналогов. Оно открывает колоссальные возможности как для бизнеса, так и для населения. По сути, это еще один важный шаг к AGI — сильному искусственному интеллекту. Думаю, у каждого найдется задача для Kandinsky 2.1, и поэтому улучшенная модель, как и ее предыдущая версия, находится в открытом доступе: протестировать ее может любой желающий, причем бесплатно».
Оценить возможности нейросети можно на промостранице модели, при помощи команды «Запусти художника» на умных устройствах Sber и в мобильном приложении «Салют» и на платформе ML Space в хабе предобученных моделей и датасетов DataHub. Модель также доступна для использования на платформе Fusion Brain и в Telegram-боте.
Sber AI — подразделение «Сбера», отвечающее за развитие технологий искусственного интеллекта и их внедрение в различные сферы жизни и бизнеса. Еще примеры работ Kandinsky 2.1: