Kandinskyнейронная сеть для генерации изображений и видео по текстовому описанию, разработанная компанией «Сбер» при поддержке учёных Института искусственного интеллекта AIRI на объединённых наборах данных Sber AI и SberDevices[1].

Kandinsky
Тип нейронная сеть
Разработчики Sber AI, Институт искусственного интеллекта AIRI
Языки интерфейса русский
Первый выпуск 2023 год
Последняя версия 3.1 (2024)
Сайт sberbank.com/promo/kandi…

История

править

В ноябре 2021 года были выложены в открытый доступ код и веса базовой модели ruDALL-E XL (1,3 млрд параметров), ставшей прототипом нейросети Kandinsky. На её основе был создан сервис генерации изображений rudalle. В июне 2022 года была представлена первая версия модели Kandinsky с 12 млрд параметров. Она имеет ту же архитектуру, что и ruDALL-E XL, но содержит большее количество слоёв и увеличенный размер скрытого пространства. Модель прошла обучение на 179 млн пар изображений с текстовыми описаниями[2].

Нейросеть генерирует изображения в три этапа. Сначала модель создаёт заданное число изображений на основе текстового запроса пользователя. Затем алгоритм ruCLIP Large выбирает из набора сгенерированных картинок наиболее соответствующие описанию. На третьем этапе алгоритм апскейлинга увеличивает разрешение выбранного на предыдущем шаге изображения при помощи Real-ESRGAN или диффузионного метода[3].

23 ноября 2022 года на конференции AI Journey «Сбер» представил новую версию нейросети — Kandinsky 2.0. От предыдущей она отличается мультиязычностью и новой архитектурой. Разработчики использовали модифицированную архитектуру Latent Diffusion, которая предполагает генерацию латентных векторов изображений и работу с ними. Для обеспечения мультиязычности применялись два мультилингвальных энкодера XLMR-clip и mT5-small. Нейросеть понимает запросы на 101 языке. По сравнению с Latent Diffusion, Kandinsky 2.0 также имеет увеличенный блок UNet с 1,2 млрд параметров. Модель обучали на датасете из 1 млрд пар «текст-изображение»[4].

В начале апреля 2023 года вышла версия Kandinsky 2.1. Эта модель имеет 3,3 млрд параметров и основана на архитектуре Kandinsky 2.0. Вместо двух текстовых энкодеров в нейросети стал использоваться один новый — XLM-Roberta-Large-Vit-L-14. Разработчики также отказались от декодера VQGAN в пользу MoVQ. А в архитектуру добавили image prior модель для маппинга текстов и изображений и энкодер изображений CLIP[5].

Она была обучена ещё на дополнительных 170 млн пар изображений с текстом. Нейросеть была также усовершенствована за счет новой обученной модели автоэнкодера. Помимо закодированных текстовых описаний, модель использует специальное представление изображения моделью CLIP. Модель может генерировать картинки с разрешением 768x768 пикселей. За четыре дня с момента выхода Kandinsky 2.1 число пользователей нейросети достигло 1 млн человек. Они сгенерировали более 3 млн изображений[6].

12 июля 2023 года Сбер выпустил версию нейросети Kandinsky 2.2. Сообщается, что теперь сервис умеет создавать фотореалистичные изображения в улучшенном качестве и изменять соотношение сторон при генерации. Разрешение изображений достигло 1024 пикселей по каждой стороне. В отличие от предыдущей версии, где картинки могли быть только квадратными, в Kandinsky 2.2 добавили функцию создания прямоугольных изображений с различной ориентацией. В нейросети появился функционал ControlNet, который позволяет локально изменять сгенерированное изображение, не меняя сцену. Нейросеть дополучили на датасете, содержащем 1,5 млрд пар «текст — изображение»[7].

В течение суток после выхода Kandinsky 2.2 пользователи сгенерировали 1 млн изображений. Лидерами по популярности стали темы «коты», «море» и «аниме»[8].

В октябре 2023 года разработчики добавили в функционал Kandinsky 2.2 возможность создавать 4-секундные анимационные видеоролики. Каждая генерация видео частотой 24 кадра в секунду и разрешением 640x640 пикселей занимала примерно 20 секунд[9].

22 ноября 2023 года в рамках конференции AI Journey «Сбер» представил новую версию нейросети — Kandinsky 3.0. В отличие от двухстадийного процесса генерации, использованного в Kandinsky 2.1 и Kandinsky 2.2, в версии 3.0 изображения создаются непосредственно из закодированных текстовых токенов.

В качестве языковой Encoder/Decoder модели в версии 3.0 разработчики использовали нейросеть FLAN-UL2. Также был изменён алгоритм U-Net. В новой версии он состоит из блоков BigGAN-deep. По сравнению с предыдущими версиями, Kandinsky 3.0 стала лучше понимать запрос пользователя. Она создаёт более фотореалистичные изображения и способна генерировать художественные картины, арты и скетчи. Одной из главных особенностей модели является лучшее знание русской культуры[10].

22 апреля 2024 года пользователям стала доступна усовершенствованная версия сервиса — Kandinsky 3.1, появившаяся в этом же месяце. В неё была добавлена функция улучшения текстового промпта пользователя при помощи языковой модели Neural-Chat-v3-1[11].

В новой версии также обновилась функция inpainting/outpainting — дорисовывания частей изображения. За счёт архитектурных изменений разработчики смогли уменьшить количество шагов генерации с 50 до 4 с сохранением качества иллюстрации. Была представлена и модель Kandinsky 3.1 Flash, позволяющая создавать изображения в 10 раз быстрее по сравнению с базовой моделью. В Kandinsky 3.1 впервые появилась возможность генерировать изображения не только по текстовому запросу, но и с использованием другого изображения[12].

22 ноября 2023 года в рамках конференции AI Journey 2023 представил модель Kandinsky Video для генерации видео по текстовому запросу. Нейросеть способна создавать ролики длиной до 8 секунд с частотой 30 кадров в секунду. Разрешение изображения составляет 512×512 пикселей, а на одну генерацию у алгоритма уходит порядка 3 минут[13].

Нейросеть состоит из двух основных частей. Первая генерирует опорные кадры для видеоролика, а вторая — интерполяционные кадры. Последние «заполняют пробелы» между опорными кадрами, создавая плавность движения. Для обучения алгоритма разработчики использовали набор данных из более чем 300 тысяч пар «текст-видео»[14].

В апреле 2024 года «Сбер» анонсировал новую версию Kandinsky Video 1.1. Сообщается, что она может генерировать в два раза более качественные ролики по сравнению с предыдущей моделью благодаря увеличению объёма обучающего датасета пар «текст-видео» и изменениям в архитектуре модели[15].

Функционал

править

В текущей версии Kandinsky 3.1 доступны:

  • генерация по текстовому промпту;
  • микширование изображения и текстового описания дополнения;
  • редактирование сгенерированного изображения при помощи ControlNet;
  • микширование двух изображений;
  • дорисовывание изображения — inpainting/outpainting;
  • бьютификация (улучшение) текстового запроса пользователя.

См. также

править

Примечания

править
  1. «Сбер» представил дообученный генератор изображений Kandinsky 3.1. hightech.plus.
  2. «Сбер» представил нейросеть ruDALL-E. Она создает красивые картинки по описанию на русском языке. naked-science.ru.
  3. «Сбер» представил Kandinsky — ИИ-модель для генерации изображений по текстовому описанию на русском языке. 3dnews.ru (14 июня 2022). Дата обращения: 11 июля 2023. Архивировано 11 июля 2023 года.
  4. Сбер показал нейросеть Kandinsky 2.0 для генерации изображений по текстам. РБК (23 ноября 2022). Дата обращения: 11 июля 2023. Архивировано 11 июля 2023 года.
  5. Сбер представил нейросеть Kandinsky 2.1. Lenta.ru (4 апреля 2023). Дата обращения: 11 июля 2023. Архивировано 11 июля 2023 года.
  6. Сбер подсчитал число созданных нейросетью Kandinsky 2.1 изображений. Lenta.ru (4 июля 2023). Дата обращения: 12 июля 2023. Архивировано 12 июля 2023 года.
  7. Сбер представил новую версию своей нейросети Kandinsky. Газета.ru (12 июля 2023). Дата обращения: 13 июля 2023. Архивировано 13 июля 2023 года.
  8. За сутки пользователи Kandinsky 2.2 от Сбера создали миллион изображений. Lenta.ru. — новость. Дата обращения: 14 июля 2023. Архивировано 14 июля 2023 года.
  9. Нейросеть Kandinsky 2.2 научилась создавать анимационные видеоролики. Российская газета (12 октября 2023). Дата обращения: 14 октября 2023. Архивировано 13 октября 2023 года.
  10. Сбер представил новую версию нейросети Kandinsky 3.0. ТАСС (22 ноября 2023). Дата обращения: 30 апреля 2024.
  11. Изобразительная нейросеть Kandinsky 3.1 стала доступна для всех пользователей. 3dnews.ru (22 апреля 2024). Дата обращения: 30 апреля 2024.
  12. Быстрее в 10 раз: новая версия нейросети Сбера Kandinsky доступна всем пользователям. ixbt.com.
  13. Kandinsky Video и Kandinsky 3.0: что умеют новые нейросети. trends.rbc.ru.
  14. В России появилась первая нейросеть, генерирующая видео. telecomdaily.ru.
  15. Сбер открыл доступ к обновленной версии Kandinsky Video. Лента.ру (28 мая 2024). Дата обращения: 1 июня 2024.

Ссылки

править

Какая нейросеть лучше? Kandinsky 2.1 vs Шедеврум