Концепция современного Египта в глазах ИИ на HSE SPACE

Основная идея проекта

Идея проекта заключалась в создании специализированной модели для генерации изображений, стилизованных под Египет, с использованием LoRA. Вместо обучения всей огромной модели Stable Diffusion XL с нуля, мы обучили компактную LoRA-модификацию. Это позволило «дообучить» базовую модель SDXL на небольшом, но подходящем наборе данных, чтобы она научилась распознавать и генерировать уникальные визуальные элементы, характерные для египетской тематики.

Для обучения модели мы использовали набор фотографий. Основная задача этих изображений — показать модели, что такое «египетский стиль». Набор включал разнообразные сцены:

Исходные изображения

Архитектурные элементы: Кадры, на которых запечатлены пирамиды Гизы, Сфинкс, древние храмы и руины. Это было необходимо, чтобы модель усвоила характерные силуэты и структуры.

Пейзажи и атмосфера: Фотографии пустынных ландшафтов, реки Нил, пальм, а также общие виды древних городов. Это помогло передать общее настроение и цветовую гамму.

Детали и текстуры: Кадры, демонстрирующие иероглифы, каменные стены, статую Сфинкса и другие характерные детали.

Результат обучения нейросети

Соответствие первоначальной идее:

Центральные элементы композиции, Сфинкс и пирамиды Гизы, присутствуют на сгенерированных изображениях. Это доказывает, что LoRA успешно выучила ключевые архитектурные объекты, которые были заложены в обучающей выборке.

Атмосфера и цветовая гамма: Изображения передают характерную «египетскую» атмосферу — песочные оттенки, теплое освещение, ощущение древности и величия пустыни. Модель научилась имитировать не только объекты, но и общее настроение.

Есть фотографии, в том числе и с историческими неточностями в виде двух сфинксов :)

Вариативность: Сгенерированные изображения обладают заметным разнообразием и не повторяют друг друга. Это проявилось в следующих аспектах:

Композиция: Элементы сцены по-разному распределены в пространстве кадра: одни варианты строятся вокруг центрального объекта, другие — с более сложным расположением планов и включением дополнительных деталей окружения.

Стилизация: В серии присутствуют как более реалистичные интерпретации, так и варианты с усиленной художественной выразительностью — насыщенной цветопередачей и более драматичной светотеневой моделировкой, приближающейся к кинематографической эстетике.

Некоторые фотографии получились слишком сюрреалистичными, что добавляет к проекту свою необычность.

Первоначальная идея была успешно реализована. Модель, обученная на наборе изображений, смогла обобщить визуальные паттерны «египетского стиля» и генерировать новые, уникальные композиции.

Детали генерации и её методы

LoRA (Low-Rank Adaptation): Это ключевая технология. Она позволила добавить к предобученной модели SDXL небольшое количество новых метрик, что эквивалентно «дообучению» сети на новой концепции.

Метрика SNR Gamma: В процессе обучения был использован параметр --snr_gamma=5.0. Это техника, которая улучшает обучение модели на шумных данных и помогает модели лучше фокусироваться на сложных деталях, что могло положительно сказаться на четкости текстур камня и песка.

Вывод о проделанной работе

Модель научилась передавать нужную стилистику, а сгенерированные изображения выглядят целостно и разнообразно. Даже с учётом ограниченных вычислительных ресурсов удалось добиться стабильного результата, который соответствует изначальной задумке.

Ссылка на программу и файл описания обучения модели: https://disk.yandex.ru/d/GxVrJ2N77Tq04w

Все исходные изображения были взяты Kaggle.com по лицензии CC0: Public Domain