Водещите инструменти за кодиране с изкуствен интелект допускат грешки в 1 от всеки 4 случая

Ваня Милева Последна промяна на 18 March 2026 в 12:16 2381 0

Цялостно проектираният конвейер за анотации на набора от данни StructEval.

Кредит arXiv. DOI: 10.48550/arxiv.2505.20139

Цялостно проектираният конвейер за анотации на набора от данни StructEval.

Ново изследване от Университета на Ватерло показва, че изкуственият интелект (ИИ) все още се затруднява с някои основни задачи за разработване на софтуер, което повдига въпроси за това колко надеждно системите с ИИ могат да помагат на разработчиците.

Тъй като големите езикови модели (LLM) все повече се включват в разработването на софтуер, разработчиците се затрудняват да гарантират, че генерираните от ИИ отговори са точни, последователни и лесни за интегриране в по-големи работни процеси за разработка.

Изследването е публикувано в Transactions on Machine Learning Research и ще бъде представено на ICLR 2026 (International Conference on Learning Representations - Международна конференция за представяне на обучението).

Преди време, специалистите по LLM отговаряха на въпросите за разработка на софтуер с отговори в свободна форма на естествен език. За да се справят с този проблем, няколко компании за изкуствен интелект, включително OpenAI, Google и Anthropic, въвеждат "структурирани изходи". Те принуждават LLM отговорите да следват предварително дефинирани формати като JSON, XML или Markdown, което ги прави по-лесни за четене и обработка както от хора, така и от софтуерни системи.

Ново сравнително проучване от Университета на Ватерло обаче показва, че технологията все още не е толкова надеждна, колкото много разработчици са се надявали. Дори най-модерните модели постигнаха само около 75% точност в тестовете, докато моделите с отворен код се представият близо до 65%.

Проучването е оценило 11 LLM модела в 18 структурирани изходни формата и 44 задачи, предназначени да оценят доколко надеждно системите следват структурирани правила.

"С този вид проучване искаме да измерим не само синтаксиса на кода – тоест дали той следва зададените правила – но и дали резултатите, получени за различните задачи, са точни", обяснява Дунфу Дзян (Dongfu Jiang), докторант по компютърни науки и съавтор на изследването.

"Открихме, че макар да се справят добре със задачи, свързани с текст, те наистина се затрудняват със задачи, включващи генериране на изображения, видеоклипове или уебсайтове."

"Напоследък в нашите лаборатории се провеждат много подобни проекти за бенчмаркинг", разказва д-р Уънху Чън (Wenhu Chen), доцент по компютърни науки. "Във Ватерло студентите често започват като анотатори, след което организират проекти и създават свои собствени бенчмаркинг проучвания. Те не просто използват изкуствен интелект в своите проучвания – те го изграждат, изследват и оценяват."

Въпреки че LLM-структурираните резултати са вълнуваща стъпка за разработването на софтуер, изследователите заявяват, че системите все още не са достатъчно надеждни, за да работят без човешки надзор. "Разработчиците може да имат тези агенти, които работят за тях, но те все още се нуждаят от значителен човешки надзор", коментира Дзян.

Справка: Jialin Yang et al, StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs, Transactions on Machine Learning Research (2026). On arXiv. DOI: 10.48550/arxiv.2505.20139

Източник: Top AI coding tools make mistakes one in four times, study shows, University of Waterloo

    Най-важното
    Всички новини