МЕТОД РОЗШИРЕННЯ МОДЕЛІ-КЛАСИФІКАТОРА ЗОБРАЖЕНЬ З ТЕКСТОВОЮ СУПЕРВІЗІЄЮ
DOI:
https://doi.org/10.31891/2219-9365-2025-81-51Ключові слова:
машинне навчання, штучний інтелект, обробка природної мови, класифікація зображень, нейронні мережі, комп’ютерний зір, інформаційні технологіїАнотація
Дана робота описує метод розглядає проблему класифікації зображень без донавчання в рамках необмеженої предметної області. Ціллю дослідження є створення нового методу розширення множини класів які підтримує модель-класифікатор зображень, попередньо натренована на великому обсязі даних, без додаткового тренування моделі. Додатковою умовою роботи даного методу є можливість застосовувати його до будь-якої класичної моделі-класифікатора зображень, незалежно від архітектури моделі. Описаний метод працює завдяки додатковій інформації про об’єкти на зображеннях, отриману з текстових описів зображень та самих класів. Текстові дані зібрані з відкритих джерел. Продемонстрована можливість, завдяки донавчанню окремої моделі з обробки природної мови, генерувати частину вагів моделі класифікатора зображень, таким чином аби додавати підтримку для нових класів зображень. Для цього, модель-класифікатор розглядається як комбінація енкодера зображення та шару-класифікатора, що перетворює векторне представлення зображення на вірогідності класів. При розгляді математичної моделі шару-класифікатора, задача створення моделі без донавчання зводиться до задачі генерації вектора визначеного розміру. Цей перехід дозволяє натренувати мовну модель для генерації вагів моделі-класифікатора зображень і додавати нові класи. Отримана модель демонструє прийнятний рівень точності на нових класах із середньою мірою F-score рівною 0,731 для нових класів, при рівні F-score 0,844 для класів натренованих конвенційним методом. Додатково, встановлено що генерування декількох вагових векторів і використання їх середнього для класифікації дозволяє покращити якість класифікації порівняно з використанням окремих згенерованих векторів.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Дмитро ДАШЕНКОВ, Кирило СМЕЛЯКОВ

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.