МЕТОД ЗЛИТТЯ БАГАТОМОДАЛЬНИХ ВЕКТОРНИХ ПРЕДСТАВЛЕНЬ СЛІВ У МАЛОРЕСУРСНОМУ СЕРЕДОВИЩІ
DOI:
https://doi.org/10.31891/2219-9365-2023-73-1-23Ключові слова:
машинне навчання, обробка природної мови, математичне моделювання, нейронні мережі, векторні представлення слів, міжрядкова відстаньАнотація
У даній статті представлено метод злиття багатомодальних векторних представлень слів у малоресурсному середовищі. Цей метод, на відміну від інших методів злиття векторних представлень слів, враховує обмеження малоресурсного середовища і дозволяє поєднувати вектори слів з різних джерел, таких як документи та словники. Метод покладається на обчислення міжрядкової відстані замість побудови повних синтаксичних і морфологічних моделей, що часто неможливо в малоресурсних мовах. Його можна використовувати на проміжних етапах побудови систем обробки природної мови та машинного навчання при вирішенні практичних завдань, таких як машинний переклад чи класифікація документів.
Крім того, проведено аналіз різних методів злиття багатомодальних векторних представлень слів у малоресурсному середовищі. У статті описуються переваги, недоліки та обмеження кожного підходу, враховуючи завдання побудови уніфікованого векторного представлення тексту в поєднанні з даними з додаткових джерел. У дослідженні прикладом завдання у малоресурсному середовищі була обрана класифікація петицій до Київської міської ради, написаних українською мовою.
Велика кількість функцій обчислення міжрядкової відстані ускладнює їх вибір при вирішенні практичних задач. Ми пропонуємо набір рекомендацій у контексті малоресурсних середовищ, а також методологію вибору найкращого для вирішення поставлених завдань. Проаналізовані функції обчислення міжрядкової відстані включають відстань Левенштейна, подібність Жаккара, Мангеттенську відстань, відстань Хеммінга та коефіцієнт Дайса. Наші результати демонструють, що метод на основі відстані Левенштейна збільшує якість класифікації документів сильніше, ніж альтернативи. Ці висновки мають практичне значення для різних сфер, включаючи обробку природної мови, аналіз текстів та пошук інформації.