Моделите на изкуствения интелект могат да се саморазрушат, превръщайки оригиналното съдържание в непоправимо бълнуване само за няколко поколения, сочи изследване, публикувано наскоро в Nature.
Скорошното проучване подчертава нарастващия риск от срив на моделите на AI в резултат на самообучението, подчертавайки необходимостта от оригинални източници на данни и внимателно филтриране на данните.
Какви видове AI са податливи на срив на модела?
Сривът на модела настъпва, когато моделът на изкуствения интелект се обучава прекомерно върху данни, генерирани от AI.
„Сривът на модела представлява явление, при което моделите се разпадат поради безразборно обучение върху изкуствени данни“, заявява пред Gizmodo Иля Шумайлов (Ilia Shumailov), изследовател в Оксфордския университет и водещ автор на статията.
Според новия документ генеративните инструменти за изкуствен интелект, като например големите езикови модели, могат да пренебрегнат определени части от набора от данни за обучение, което кара модела да се обучава само върху някои от данните.
Големите езикови модели (LLM - Large Language Models) са вид AI модели, които се обучават върху огромни количества данни, което им позволява да интерпретират информацията в тях и да я прилагат в различни случаи на употреба. LLM обикновено са създадени както за разбиране, така и за създаване на текст, което ги прави полезни като чатботове и асистенти на AI. Но пренебрегването на части от текста, който той уж чете и включва в своята база от знания, може да превърне LLM в обвивка на предишната му същност сравнително бързо, установява изследователският екип.
„В ранния стадий на срив на модела първите модели губят вариативност, губейки производителност върху миноритарни данни“, посочва Шумайлов. „В късния стадий на срива моделът се разпада напълно.“
И така, тъй като моделите продължават да се обучават върху все по-малко точен и релевантен текст, който самите модели са генерирали, този рекурсивен цикъл води до дегенерация на модела.
Пример за срив на модела: Църкви и зайци
Изследователите дават пример в статията, като използват модел за генериране на текст, наречен OPT-125m, който се представя подобно на GPT3 на ChatGPT, но с по-малък въглероден отпечатък според HuggingFace. В случай, че не сте наясно, един умерено голям модел произвежда два пъти повече емисии на CO2 от живота на един средностатистически американец.
Екипът въвежда в модела текст на тема проектиране на църковни кули от 14-ти век. В първото поколение на извеждания текст моделът в повечето случаи е бил вне се е отклонявал от темата, обсъждайки сгради, построени при различни папи. Но при деветото поколение текстов резултат моделът обсъждал предимно големи популации от черни, бели, сини, червени и жълтоопашати зайци. Трябва да се отбележи, че повечето от тях не са реални видове зайци.
Сривът на модела става все по-сериозен с напшредването на процеса на насищане на интернет със съдържанието от изкуствен интелект
Това, че интернет е претоварен (задръстен с информация) не е новина. Както изследователите посочват в статията, много преди AI да бъдат позната тема на обществеността, фермите за съдържание и троловете в интернет са произвеждали съдържание, за да заблудят алгоритмите за търсене и да дадат приоритет на своите уебсайтове за кликвания. Но текстът, генериран от изкуствен интелект, може да бъде създаден по-бързо от човешките словоблудства, което поражда опасения в по-голям мащаб.
„Въпреки че въздействието на генерирания от AI интернет върху хората предстои да бъде установено, Шумайлов и колегите му съобщават, че разпространението на генерираното от AI съдържание онлайн може да бъде опустошително за самите модели“, отбелязва Емили Венгер (Emily Wenger), компютърен учен в университета Дюк, в свързана с това статия в News & Views.
„Наред с други неща, сривът на модела поставя предизвикателства пред обективността на генеративния AI. Сринатите модели пренебрегват по-рядко срещани елементи от обучителните си данни и така не успяват да отразят сложността и нюансите на света“, добавя Венгер.
Големите технологични компании предприемат някои действия, за да намалят количеството съдържание, генерирано от изкуствен интелект, което ще вижда типичният интернет сърфист. През март Google обяви, че ще промени алгоритъма си, за да премахне приоритета на страници, които изглеждат предназначени за търсачки, а не за хора, които търсят; това съобщение дойде по повод доклад на 404 Media за това, че Google News увеличава броя на статиите, генерирани от изкуствен интелект.
AI моделите обикновно са тромави и авторите на последното проучване подчертават, че достъпът до оригиналния източник на данни и внимателното филтриране на данните в рекурсивно обучените модели могат да помогнат за поддържането на моделите в правилна посока.
Екипът също така предполага, че координацията в AI общността, участваща в създаването на LLM, може да бъде полезна за проследяване на произхода на информацията, докато тя се подава през моделите.
„В противен случай“, заключава екипът, „може да стане все по-трудно да се обучават по-нови версии на LLM без достъп до данни, които са били обходени от интернет преди масовото приемане на технологията или директен достъп до данни, генерирани от хора.“
Добре дошли в прекрасния нов AI свят!
Справка: Shumailov, I., Shumaylov, Z., Zhao, Y. et al. AI models collapse when trained on recursively generated data. Nature 631, 755–759 (2024). https://doi.org/10.1038/s41586-024-07566-y
Източник: AI Learning From Its Own Nonsense Might Just Self-Destruct, Experts Warn, Isaac Schultz, Gizmodo
Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари