АНАЛІЗ МОДЕЛЕЙ ГЕНЕРАЦІЇ ЗОБРАЖЕНЬ З ТЕКСТОВИМИ ЕЛЕМЕНТАМИ
DOI:
https://doi.org/10.31891/2219-9365-2025-81-18Ключові слова:
моделі генерації зображень, дифузійні моделі, DALLE, RecraftV3, Flux, TextDiffuser-2Анотація
У статті розглядається проблема генерації зображень з інтегрованим текстовим контентом, що є надзвичайно актуальним завданням для сучасних технологій штучного інтелекту. Незважаючи на значні досягнення у генерації зображень за допомогою дифузійних моделей, точне відтворення тексту залишається викликом через складність збереження коректної послідовності символів та розташування текстових елементів. Метою дослідження є оцінка здатності чотирьох сучасних моделей (DALL-E, Flux, RecraftV3 та TextDiffuser-2) генерувати якісний текст при різній довжині вхідного запиту, а також виявлення критичних точок, після яких якість текстових елементів на згенерованих зображеннях значно погіршується.
Для експериментальної частини було сформовано набір текстових запитів, що охоплюють довжину від 1 до 15 слів, з використанням простих слів, коротких фраз та складніших речень. Кожен запит оброблявся десять разів кожною з моделей, що дозволило отримати репрезентативну вибірку результатів. Аналіз отриманих зображень дозволив виділити критичні точки – довжини текстів після яких моделі перестають генерувати коректний текст, а також класифікувати типові помилки на згенерованих зображеннях.
Отримані результати свідчать про суттєві відмінності між моделями: RecraftV3 показала найвищу стабільність, зберігаючи коректність тексту до 14 слів, тоді як DALL-E-3 та Flux-1-Pro демонстрували погіршення якості вже після 5 слів. TextDiffuser-2 відзначилась високою часткою помилок, що обмежує її застосування у завданнях, де точність є критичною. Результати дослідження мають практичну цінність для подальшого вдосконалення алгоритмів генерації зображень, зокрема в контексті рекламних технологій, дизайну та автоматизованого створення візуального контенту.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Роман ШАПТАЛА, Ярослава ЯКОВЕНКО

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.