Leyli Annadurdyeva

Original size 1140x1600

В ролях: Митюки

artificial intelligence

2

The project is taking part in the competition

Финальный проект

Идея проекта

В центре проекта — мой кот Митюки, выступающий как персонаж с узнаваемыми чертами. С помощью дообучения модели Stable Diffusion (DreamBooth + LoRA) нейросеть обучается воспроизводить именно этого кота, фиксируя его визуальные особенности: форму мордочки, структуру шерсти, выражение «лица».

Далее Митюки помещается в различные сценарии — от повседневных до фантастических и абсурдных.

Исходные данные

Для обучения был собран датасет изображений кота: — 22 изображения — квадратный формат (1:1) — разные ракурсы, освещение и позы

0

Примеры исходные фотографий Митюки

Митюки в роли офисного работника

Original size 1024x1024

Офисный работник

Original size 4434x367

Блок кода с промптом к изображению

Митюки в роли божественного персонажа

Original size 1803x178

Блок кода с промптом к изображению

Митюки в роли злодея

Original size 1803x175

Блок кода с промптом к изображению

Original size 1024x1024

Митюки в роли злодея

Original size 1803x183

Блок кода с промптом к изображению

Original size 1024x1024

Митюки в роли астронавта в космосе

Original size 1792x179

Митюки в роли гигантского кота.

Original size 1801x173

Блок кода с промптом к изображению

Original size 1024x1024

Митюки в роли кота с картины Ван Гога

Original size 1790x136

Блок кода с промптом к изображению.

Original size 1024x1024

Митюки в роли персонажа картины в фэнтезийном лесу.

Митюки в роли эстетик кота на фоне цветов в сказочном лесу.

Original size 1808x176

Original size 1024x1024

Митюкин в роли эстетик кота на фоне цветов в сказочном лесу.

Original size 1789x176

Original size 1024x1024

Митюки в роли растерянного повара на кухне в состоянии полного хаоса.

Original size 1805x181

Original size 1024x1024

Митюкин в роли абсурдного кота-интеллектуала, который пытается читает книгу.

Этапы работы с кодом

В начале ноутбука производится импорт необходимых библиотек. В частности, используются следующие библиотеки: PyTorch, Diffusers, Transformers, Accelerate, Pillow, Matplotlib, а также стандартные модули для работы с файловой системой и данными.

Original size 1796x104

Original size 1796x172

Original size 1796x335

Скачиваем официальный скрипт для обучения нейросети.

Original size 1796x146

Original size 1796x232

Создание папки local_dir = «./citi/»: имя папки, где будут лежать картинки для обучения. И далее загрузка файлов files.upload ().

Original size 1796x352

Original size 1796x578

Original size 1796x474

Далее с помощью нейросети BLIP создаем систему автоматического описания картинок.

Original size 1796x184

Original size 1796x268

Original size 1796x333

Сканируем папку с фотографиями и с помощью нейросети создаем для каждой из них текстовое описание, сохраняя готовый список в файл метаданных для будущего обучения.

Original size 1802x193

Original size 1796x184

Блок настраивает системную кодировку для корректной работы с текстом и создает базовую конфигурацию библиотеки Accelerate, чтобы обучение нейросети проходило быстрее и стабильнее на доступном оборудовании.

Original size 1795x135

Original size 1799x64

Выполняем вход в аккаунт Hugging Face для доступа к закрытым моделям и устанавливаем библиотеку datasets.

Обучение модели

Original size 1793x553

Далее запускаем основной процесс обучения нейросети SDXL методом Dreambooth LoRA, используя загруженные фотографии.

Original size 1794x102

Original size 1796x190

Original size 1794x615

Создаем страницу модели на Hugging Face, формируется для нее карточку с описанием параметров и загружаем все готовые файлы LoRA в облачный репозиторий.

Original size 1794x615

И в конце прописываем код который подготавливает среду для генерации: загружает базовую модель Stable Diffusion XL, подключает к ней обученную LoRA.

Ссылка на код

В ролях: Митюки

Leyli Annadurdyeva

artificial intelligence

2

Project created at 24.03.2026