АНАЛІЗ МОДЕЛЕЙ ГЕНЕРАЦІЇ ЗОБРАЖЕНЬ З ТЕКСТОВИМИ ЕЛЕМЕНТАМИ

Роман ШАПТАЛА; Ярослава ЯКОВЕНКО

doi:10.31891/2219-9365-2025-81-18

Автор(и)

Роман ШАПТАЛА Національний технічний університет України “Київський політехнічний інститут імені Ігоря Сікорського” https://orcid.org/0000-0002-4367-5775
Ярослава ЯКОВЕНКО Кременчуцький національний університет імені Михайла Остроградського https://orcid.org/0000-0001-5042-2701

DOI:

https://doi.org/10.31891/2219-9365-2025-81-18

Ключові слова:

моделі генерації зображень, дифузійні моделі, DALLE, RecraftV3, Flux, TextDiffuser-2

Анотація

У статті розглядається проблема генерації зображень з інтегрованим текстовим контентом, що є надзвичайно актуальним завданням для сучасних технологій штучного інтелекту. Незважаючи на значні досягнення у генерації зображень за допомогою дифузійних моделей, точне відтворення тексту залишається викликом через складність збереження коректної послідовності символів та розташування текстових елементів. Метою дослідження є оцінка здатності чотирьох сучасних моделей (DALL-E, Flux, RecraftV3 та TextDiffuser-2) генерувати якісний текст при різній довжині вхідного запиту, а також виявлення критичних точок, після яких якість текстових елементів на згенерованих зображеннях значно погіршується.

Для експериментальної частини було сформовано набір текстових запитів, що охоплюють довжину від 1 до 15 слів, з використанням простих слів, коротких фраз та складніших речень. Кожен запит оброблявся десять разів кожною з моделей, що дозволило отримати репрезентативну вибірку результатів. Аналіз отриманих зображень дозволив виділити критичні точки – довжини текстів після яких моделі перестають генерувати коректний текст, а також класифікувати типові помилки на згенерованих зображеннях.

Отримані результати свідчать про суттєві відмінності між моделями: RecraftV3 показала найвищу стабільність, зберігаючи коректність тексту до 14 слів, тоді як DALL-E-3 та Flux-1-Pro демонстрували погіршення якості вже після 5 слів. TextDiffuser-2 відзначилась високою часткою помилок, що обмежує її застосування у завданнях, де точність є критичною. Результати дослідження мають практичну цінність для подальшого вдосконалення алгоритмів генерації зображень, зокрема в контексті рекламних технологій, дизайну та автоматизованого створення візуального контенту.

АНАЛІЗ МОДЕЛЕЙ ГЕНЕРАЦІЇ ЗОБРАЖЕНЬ З ТЕКСТОВИМИ ЕЛЕМЕНТАМИ

Автор(и)

DOI:

Ключові слова:

Анотація

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Мова

Інформація

StrikePlagiarism

Індексація