МЕТОД АДАПТИВНОГО ВИЗНАЧЕННЯ ІМЕНОВАНИХ СУТНОСТЕЙ У СПЕЦІАЛІЗОВАНОМУ ДОМЕНІ З ОБМЕЖЕНИМИ ДАНИМИ

Автор(и)

  • Іван ДИЧКА Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського" https://orcid.org/0000-0002-3446-3076
  • Катерина ПОТАПОВА Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського" https://orcid.org/0000-0002-3347-6350
  • Лілія ВОВК Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського" https://orcid.org/0000-0002-3098-8078
  • Василь МЕЛЮХ Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського" https://orcid.org/0009-0009-3783-9954
  • Ольга ВЕДЕНЄЄВА Відкритий міжнародний університет розвитку людини "Україна" https://orcid.org/0009-0006-0941-165X

DOI:

https://doi.org/10.31891/2219-9365-2024-77-11

Ключові слова:

розпізнавання іменованих сутностей, адаптивне навчання, доменно-залежний NER, витяг інформації, обробка природньої мови, конструювання ознак

Анотація

Постійно зростаючий обсяг цифрової інформації вимагає розробки інноваційних стратегій пошуку, спрямованого на ефективне та економічно доцільне отримання необхідних даних. Актуальність проблеми підкреслюється зростаючою складністю інформаційних ландшафтів і потребою в швидких методологіях вилучення даних. У галузі обробки природної мови розпізнавання іменованих об’єктів (NER) є важливим завданням для вилучення інформації з неструктурованих текстових даних для подальшої класифікації у наперед визначені категорії. Тим не менш, традиційні методи розпізнавання об’єктів часто стикаються з труднощами, маючи в розпорядженні обмежену кількістю анотованих даних необхідних для тренування моделі, створюючи проблеми в реальних сценаріях, де отримання обширного набору даних є проблематичним або дорогим. У цій роботі досліджуються методи NER, які можуть подолати ці обмеження шляхом адаптивного довчання на основі попередньо навчених моделей з можливістю ітеративного додавання нових даних. Також застосовуються декілька технік для отримання найбільше користі від обмеженої кількості анотованих даних, таких як використання активного навчання, немаркованих даних та інтеграцію знань предметної області. Використовуючи предметні набори даних із різними рівнями розподілу між класами сутоностей, досліджується процес тонкого налаштування попередньо навчених моделей, таких як трансформаторні моделі (TRF) і моделі Toc2Vec (токен-вектор). Результати показують, що загалом збільшення обсягу навчальних даних підвищує продуктивність більшості моделей для NER, особливо для моделей з високою здатністю до навчання. Залежно від архітектури моделі та складності мітки сутності, що вивчається, вплив більшої кількості даних на продуктивність моделі може змінюватися. Після збільшення тренувальних даних на 20 % модель LT2V демонструє найбільш збалансоване зростання точності та швидкості обробки в загальному на 11%, розпізнаючи 73% сутностей. Водночас завдяки постійній швидкості обробки та найвищому показнику F1 модель на основі трансформатора (TRF) показує ефективне навчання з меншою кількістю даних, досягаючи 74% успішних передбачень й зростання продуктивності на 7% після розширення тренувальних даних до 81%. Наші результати прокладають шлях для створення більш стійких і ефективних систем NER, які підходять для спеціалізованих доменів, і розвивають галузь доменно-спеціального NER з обмеженими даними. Ми також проливаємо світло на відносні переваги різних моделей NER і стратегій навчання та пропонуємо перспективи майбутніх досліджень.

##submission.downloads##

Опубліковано

28.03.2024

Як цитувати

ДИЧКА I., ПОТАПОВА K., ВОВК L., МЕЛЮХ V., & ВЕДЕНЄЄВА O. (2024). МЕТОД АДАПТИВНОГО ВИЗНАЧЕННЯ ІМЕНОВАНИХ СУТНОСТЕЙ У СПЕЦІАЛІЗОВАНОМУ ДОМЕНІ З ОБМЕЖЕНИМИ ДАНИМИ. MEASURING AND COMPUTING DEVICES IN TECHNOLOGICAL PROCESSES, (1), 82–92. https://doi.org/10.31891/2219-9365-2024-77-11