METHOD OF EXPANDING IMAGE CLASSIFICATION MODEL WITH TEXT SUPERVISION

Дмитро ДАШЕНКОВ; Кирило СМЕЛЯКОВ

doi:10.31891/2219-9365-2025-81-51

Автор(и)

Дмитро ДАШЕНКОВ Харківський національний університет радіоелектроніки https://orcid.org/0000-0001-9797-1863
Кирило СМЕЛЯКОВ Харківський національний університет радіоелектроніки https://orcid.org/0000-0001-9938-5489

DOI:

https://doi.org/10.31891/2219-9365-2025-81-51

Ключові слова:

машинне навчання, штучний інтелект, обробка природної мови, класифікація зображень, нейронні мережі, комп’ютерний зір, інформаційні технології

Анотація

Дана робота описує метод розглядає проблему класифікації зображень без донавчання в рамках необмеженої предметної області. Ціллю дослідження є створення нового методу розширення множини класів які підтримує модель-класифікатор зображень, попередньо натренована на великому обсязі даних, без додаткового тренування моделі. Додатковою умовою роботи даного методу є можливість застосовувати його до будь-якої класичної моделі-класифікатора зображень, незалежно від архітектури моделі. Описаний метод працює завдяки додатковій інформації про об’єкти на зображеннях, отриману з текстових описів зображень та самих класів. Текстові дані зібрані з відкритих джерел. Продемонстрована можливість, завдяки донавчанню окремої моделі з обробки природної мови, генерувати частину вагів моделі класифікатора зображень, таким чином аби додавати підтримку для нових класів зображень. Для цього, модель-класифікатор розглядається як комбінація енкодера зображення та шару-класифікатора, що перетворює векторне представлення зображення на вірогідності класів. При розгляді математичної моделі шару-класифікатора, задача створення моделі без донавчання зводиться до задачі генерації вектора визначеного розміру. Цей перехід дозволяє натренувати мовну модель для генерації вагів моделі-класифікатора зображень і додавати нові класи. Отримана модель демонструє прийнятний рівень точності на нових класах із середньою мірою F-score рівною 0,731 для нових класів, при рівні F-score 0,844 для класів натренованих конвенційним методом. Додатково, встановлено що генерування декількох вагових векторів і використання їх середнього для класифікації дозволяє покращити якість класифікації порівняно з використанням окремих згенерованих векторів.

МЕТОД РОЗШИРЕННЯ МОДЕЛІ-КЛАСИФІКАТОРА ЗОБРАЖЕНЬ З ТЕКСТОВОЮ СУПЕРВІЗІЄЮ

Автор(и)

DOI:

Ключові слова:

Анотація

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Мова

Інформація