Генерация описаний к изображениям

Компьютерное зрение
Генерация описаний к изображениям

Проект посвящён созданию модели, которая автоматически генерирует осмысленные подписи к изображениям. Архитектура основана на подходе Show and Tell: визуальные признаки извлекаются сверточной сетью, а текст генерируется рекуррентной моделью.

🖼 Как это работает:
🔹 Извлечение признаков изображения через InceptionV3 → вектор 2048 признаков
🔹 Преобразование в скрытое состояние LSTM-декодера (через Dense на 256 нейронов)
🔹 Пошаговая генерация текста подписи (до 50 токенов)
🔹 Использован метод greedy decoding для выбора слов

📊 Результаты:
✅ Модель создаёт логичные и релевантные подписи к изображениям
✅ Поддерживается генерация предложений различной длины
💡 Возможна доработка с attention-механизмом для более точной привязки к объектам на изображении

Дополнительные изображения:

Изображение 1 Изображение 2