Ново изследване от Университета на Ватерло показва, че изкуственият интелект (ИИ) все още се затруднява с някои основни задачи за разработване на софтуер, което повдига въпроси за това колко надеждно системите с ИИ могат да помагат на разработчиците.
Тъй като големите езикови модели (LLM) все повече се включват в разработването на софтуер, разработчиците се затрудняват да гарантират, че генерираните от ИИ отговори са точни, последователни и лесни за интегриране в по-големи работни процеси за разработка.
Изследването е публикувано в Transactions on Machine Learning Research и ще бъде представено на ICLR 2026 (International Conference on Learning Representations - Международна конференция за представяне на обучението).
Преди време, специалистите по LLM отговаряха на въпросите за разработка на софтуер с отговори в свободна форма на естествен език. За да се справят с този проблем, няколко компании за изкуствен интелект, включително OpenAI, Google и Anthropic, въвеждат "структурирани изходи". Те принуждават LLM отговорите да следват предварително дефинирани формати като JSON, XML или Markdown, което ги прави по-лесни за четене и обработка както от хора, така и от софтуерни системи.
Ново сравнително проучване от Университета на Ватерло обаче показва, че технологията все още не е толкова надеждна, колкото много разработчици са се надявали. Дори най-модерните модели постигнаха само около 75% точност в тестовете, докато моделите с отворен код се представият близо до 65%.
Проучването е оценило 11 LLM модела в 18 структурирани изходни формата и 44 задачи, предназначени да оценят доколко надеждно системите следват структурирани правила.
"С този вид проучване искаме да измерим не само синтаксиса на кода – тоест дали той следва зададените правила – но и дали резултатите, получени за различните задачи, са точни", обяснява Дунфу Дзян (Dongfu Jiang), докторант по компютърни науки и съавтор на изследването.
"Открихме, че макар да се справят добре със задачи, свързани с текст, те наистина се затрудняват със задачи, включващи генериране на изображения, видеоклипове или уебсайтове."
"Напоследък в нашите лаборатории се провеждат много подобни проекти за бенчмаркинг", разказва д-р Уънху Чън (Wenhu Chen), доцент по компютърни науки. "Във Ватерло студентите често започват като анотатори, след което организират проекти и създават свои собствени бенчмаркинг проучвания. Те не просто използват изкуствен интелект в своите проучвания – те го изграждат, изследват и оценяват."
Въпреки че LLM-структурираните резултати са вълнуваща стъпка за разработването на софтуер, изследователите заявяват, че системите все още не са достатъчно надеждни, за да работят без човешки надзор. "Разработчиците може да имат тези агенти, които работят за тях, но те все още се нуждаят от значителен човешки надзор", коментира Дзян.
Справка: Jialin Yang et al, StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs, Transactions on Machine Learning Research (2026). On arXiv. DOI: 10.48550/arxiv.2505.20139
Източник: Top AI coding tools make mistakes one in four times, study shows, University of Waterloo
Още по темата
Технологии
Как изкуственият интелект може да сложи край на онлайн анонимността
Космос
Чрез неандерталците се демонстрира разликата между генеративния изкуствен интелект и научните знания
Технологии
Изкуствен интелект със скоростта на светлината? Вече е възможно


















Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари
"Ад" на Данте описва удар на астероид 500 години преди съвременната наука
10-годишно момиче открива рядък мексикански аксолотъл. Какво знаем за тези животни
Хората с тъмни черти на характера са естествено склонни към лидерски роли, установява ново проучване
Хората с тъмни черти на характера са естествено склонни към лидерски роли, установява ново проучване