ГРАФОВА АРХІТЕКТУРА ПАМ’ЯТІ ДЛЯ ЕФЕКТИВНОГО ВИКОРИСТАННЯ КОМП’ЮТЕРНИХ АГЕНТІВ НА ОСНОВІ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ

Андрій МУСІЄНКО; Данило ВОРВУЛЬ

doi:10.31891/2219-9365-2026-85-20

Автор(и)

Андрій МУСІЄНКО Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського" https://orcid.org/0000-0002-1849-6716
Данило ВОРВУЛЬ Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» https://orcid.org/0009-0009-5822-9063

DOI:

https://doi.org/10.31891/2219-9365-2026-85-20

Ключові слова:

великі мовні моделі, агенти комп’ютерної взаємодії, графова пам’ять, автоматизація GUI, повторне використання знань, ефективність виконання завдань, OSWorld

Анотація

Агенти, керовані великими мовними моделями (Large Language Model, LLM), які здійснюють взаємодію з комп’ютером (Computer Use Agents, CUA), часто нераціонально витрачають обчислювальні ресурси, повторно виконуючи міркування щодо завдань, які вже були розв’язані раніше. У цій роботі запропоновано усунути таку неефективність шляхом впровадження графової архітектури пам’яті для автоматизації графічного інтерфейсу користувача (GUI). Запропонований підхід передбачає збереження агентом своїх траєкторій взаємодії у динамічному графі, вузли якого відображають екрани застосунків, а ребра кодують послідовності дій, що ведуть до переходів між станами. Повторне використання цього графа попереднього досвіду дає змогу агентові відтворювати як низькорівневі дії, так і високорівневі робочі процеси без необхідності повторного обчислення з нуля. Запропоновану архітектуру пам’яті реалізовано шляхом розширення сучасного агента CUA (Agent S3) за допомогою створеного модуля пам’яті. Експерименти на еталонному наборі OSWorld продемонстрували, що запропонований метод скорочує споживання токенів LLM і час виконання приблизно на 50 % порівняно з базовою моделлю без пам’яті, не знижуючи рівня успішності виконання завдань. Графова пам’ять забезпечує ефективне відтворення точних маніпуляцій з інтерфейсом користувача та дає змогу агенту міркувати над абстрактними завданнями (на приклад «вхід у систему» чи «експорт звіту») як над придатними до повторного використання підпроцедурами. Отримані результати свідчать, що структурована пам’ять суттєво підвищує практичну ефективність агентів на основі LLM у контексті виконання повторюваних завдань реального світу.

ГРАФОВА АРХІТЕКТУРА ПАМ’ЯТІ ДЛЯ ЕФЕКТИВНОГО ВИКОРИСТАННЯ КОМП’ЮТЕРНИХ АГЕНТІВ НА ОСНОВІ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ

Автор(и)

DOI:

Ключові слова:

Анотація

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Мова

Інформація

StrikePlagiarism

Індексація