Основная идея проекта
Идея проекта заключалась в создании специализированной модели для генерации изображений, стилизованных под Египет, с использованием LoRA. Вместо обучения всей огромной модели Stable Diffusion XL с нуля, мы обучили компактную LoRA-модификацию. Это позволило «дообучить» базовую модель SDXL на небольшом, но подходящем наборе данных, чтобы она научилась распознавать и генерировать уникальные визуальные элементы, характерные для египетской тематики.
Для обучения модели мы использовали набор фотографий. Основная задача этих изображений — показать модели, что такое «египетский стиль». Набор включал разнообразные сцены:
Исходные изображения
Архитектурные элементы: Кадры, на которых запечатлены пирамиды Гизы, Сфинкс, древние храмы и руины. Это было необходимо, чтобы модель усвоила характерные силуэты и структуры.
Пейзажи и атмосфера: Фотографии пустынных ландшафтов, реки Нил, пальм, а также общие виды древних городов. Это помогло передать общее настроение и цветовую гамму.
Детали и текстуры: Кадры, демонстрирующие иероглифы, каменные стены, статую Сфинкса и другие характерные детали.
Результат обучения нейросети
Соответствие первоначальной идее:
Центральные элементы композиции, Сфинкс и пирамиды Гизы, присутствуют на сгенерированных изображениях. Это доказывает, что LoRA успешно выучила ключевые архитектурные объекты, которые были заложены в обучающей выборке.
Атмосфера и цветовая гамма: Изображения передают характерную «египетскую» атмосферу — песочные оттенки, теплое освещение, ощущение древности и величия пустыни. Модель научилась имитировать не только объекты, но и общее настроение.
Есть фотографии, в том числе и с историческими неточностями в виде двух сфинксов :)
Вариативность: Сгенерированные изображения обладают заметным разнообразием и не повторяют друг друга. Это проявилось в следующих аспектах:
Композиция: Элементы сцены по-разному распределены в пространстве кадра: одни варианты строятся вокруг центрального объекта, другие — с более сложным расположением планов и включением дополнительных деталей окружения.
Стилизация: В серии присутствуют как более реалистичные интерпретации, так и варианты с усиленной художественной выразительностью — насыщенной цветопередачей и более драматичной светотеневой моделировкой, приближающейся к кинематографической эстетике.
Некоторые фотографии получились слишком сюрреалистичными, что добавляет к проекту свою необычность.
Первоначальная идея была успешно реализована. Модель, обученная на наборе изображений, смогла обобщить визуальные паттерны «египетского стиля» и генерировать новые, уникальные композиции.
Детали генерации и её методы
LoRA (Low-Rank Adaptation): Это ключевая технология. Она позволила добавить к предобученной модели SDXL небольшое количество новых метрик, что эквивалентно «дообучению» сети на новой концепции.
Метрика SNR Gamma: В процессе обучения был использован параметр --snr_gamma=5.0. Это техника, которая улучшает обучение модели на шумных данных и помогает модели лучше фокусироваться на сложных деталях, что могло положительно сказаться на четкости текстур камня и песка.
Вывод о проделанной работе
Модель научилась передавать нужную стилистику, а сгенерированные изображения выглядят целостно и разнообразно. Даже с учётом ограниченных вычислительных ресурсов удалось добиться стабильного результата, который соответствует изначальной задумке.
Ссылка на программу и файл описания обучения модели: https://disk.yandex.ru/d/GxVrJ2N77Tq04w
Все исходные изображения были взяты Kaggle.com по лицензии CC0: Public Domain




