ВИЯВЛЕННЯ ГОЛОСОВОГО ФЕЙКУ: СУЧАСНІ ТЕХНІКИ ТА ЗАСТОСУВАННЯ ДЛЯ УКРАЇНСЬКОЇ МОВИ
DOI:
https://doi.org/10.31891/2219-9365-2025-82-5Ключові слова:
виявлення підроблених голосів, синтез мовлення, перетворення голосу, українська мова, ASVspoof, набори даних, оцінювальні метрики, EER, WEER, DSRАнотація
Предметом дослідження статті є методи розпізнавання підроблених голосів, створених за допомогою технологій синтезу мовлення (TTS) та перетворення голосу (VC), з акцентом на їх адаптацію для української мови. Метою є аналіз сучасних наборів даних, змагань (ASVspoof, ADD Challenge) та алгоритмів детекції для оцінки можливості інтеграції українських мовних ресурсів у міжнародні стандарти або створення спеціалізованого набору даних. Цей підхід спрямований не лише на вирішення проблеми обмеженого обсягу україномовних аудіозаписів у широко використовуваних репозиторіях (значна частина яких охоплює переважно англійську або китайську мови), а й на врахування унікальних фонетичних ознак, різноманітних акцентів і морфологічної складності, притаманних українській мові. Завдяки порівнянню ефективності систем у різних сценаріях підробок дослідники можуть точніше оцінити, як мовноспецифічні чинники впливають на точність класифікації, що зрештою сприятиме розробленню більш надійних механізмів виявлення фальшивих голосів.Завдання: дослідити існуючі набори даних та їхню відповідність українській мові, оцінити ефективність систем виявлення підроблених голосів за допомогою таких метрик, як Equal Error Rate (EER), Weighted EER (WEER) та Detection Success Rate (DSR), а також визначити оптимальний підхід—розширення ASVspoof чи розробка нового мовного ресурсу. Методи дослідження включають систематичний аналіз, порівняння наборів даних та оцінку ефективності сучасних систем синтезу мовлення, таких як ElevenLabs, Assembly AI та Tacotron. Результати свідчать, що адаптація алгоритмів виявлення фальшивих голосів до особливостей української мови підвищує точність та надійність їхньої роботи. Висновки. Дослідження підтверджує, що інтеграція українських мовних даних у міжнародні набори або створення окремого спеціалізованого ресурсу суттєво покращує якість детекції. Крім того, цілеспрямоване залучення різних регіональних діалектів і мовленнєвих профілів виявляється вирішальним чинником для збереження високих значень показника Detection Success Rate (DSR). Результати дослідження вказують, що передові нейронні вокодери, які відтворюють тонкі просодичні й темброві нюанси, потребують спеціалізованих контрзаходів, здатних розпізнавати ледь помітні синтетичні артефакти. Як наслідок, у цій роботі підкреслюється важливість багатоетапного вдосконалення наборів даних, періодичних оновлень алгоритмів і міжмовного бенчмаркінгу для підтримання надійної ефективності за умови появи нових загроз спуфінгу голосу. Наукова новизна отриманих результатів полягає у наступному: 1) проведено перший системний аналіз методів виявлення підроблених голосів для української мови; 2) визначено ключові фактори, що впливають на ефективність розпізнавання голосових фальсифікацій; 3) розроблено рекомендації щодо покращення структури наборів даних та адаптації алгоритмів для українського мовлення.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Іван ВИНОГРАДОВ

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.