Изследователи от DeepMind на Google са създали "воден знак" за невидимо етикетиране на текст, който е генериран от изкуствен интелект (AI) – и са го внедрили за милиони потребители на чатботове.
Водният знак, описан в статия в Nature на 23 октомври, не е първият, направен за текст, генериран от AI. Нито пък ще може да издържи на решителните опити да бъде премахнат. Но изглежда, че това е първата реална мащабна демонстрация на текстов воден знак.
Откриването на текст, написан от AI, придобива все по-голямо значение като потенциално решение на проблемите с фалшивите новини и академичните измами, както и като начин да се избегне деградирането на бъдещи модели чрез обучението им на съдържание, създадено от AI.
В статията се съобщават ртезултатите на извършния мащабен експеримент, в който потребителите на големия езиков модел Gemini (LLM) на Google, в 20 милиона отговора, оценяват текстовете с воден знак като с еднакво качество с тези без воден знак.
Избор на думи
По-трудно е да се приложи воден знак към текст, отколкото към изображения, тъй като изборът на дума е по същество единствената променлива, която може да бъде променена. Водният знак на DeepMind - наречен SynthID-Text - променя кои думи моделът избира по таен, но формулиран начин, който може да бъде открит с криптографски ключ. В сравнение с други подходи водният знак на DeepMind е малко по-лесен за откриване и прилагането му не забавя генерирането на текст.
Инструментът също е направен отворен, така че разработчиците могат да прилагат свой собствен такъв воден знак към своите модели. „Надяваме се, че други разработчици на AI-модели ще вземат това и ще го интегрират със собствените си системи“, коментира Пушмийт Коли (Pushmeet Kohli), компютърен учен в DeepMind. Google пази собствения си ключ в тайна, така че потребителите няма да могат да използват инструменти за откриване, за да забележат текст с воден знак от Gemini.
Правителствата залагат на водния знак като решение за разпространението на текстове, генерирани от AI. И все пак има изобилие от проблеми, включително да се накарат разработчиците да се ангажират с използването на водни знаци и да координират своите подходи. И по-рано тази година изследователи от Швейцарския федерален технологичен институт в Цюрих са демонстрирали, че всеки воден знак е уязвим за премахване или за „фалшифициране“, процес на прилагане на водни знаци към текст, за да създаде погрешното впечатление, че той е генериран от AI.
Турнир на токени
Подходът на DeepMind се основава на съществуващ метод, който включва воден знак в алгоритъм за вземане на образци, стъпка в генерирането на текст, която е отделна от самия LLM.
LLM е мрежа от асоциации, изградена чрез обучение върху милиарди думи или части от думи, езикови единици, които могат да включват и симвили, пунктуационни знаци, наречени токени. Когато се даде низ от текст, моделът присвоява на всеки токен в своя речник вероятност да бъде следващ в изречението. Задачата на алгоритъма за вземане на проби е да избере от това разпределение кой токен да се използва според набор от правила.
Алгоритъмът SynthID-Text използва криптографски ключ, за да присвои произволни резултати на всеки възможен токен. Кандидат токените се изтеглят от разпределението, в числа, пропорционални на тяхната вероятност, и се поставят в "турнир". Там алгоритъмът сравнява резултатите в серия от нокаути един на един, като печели най-високата стойност, докато остане само един токен, който е избран за използване в текста.
Тази сложна схема улеснява откриването на водния знак, което включва стартиране на същия криптографски код върху генериран текст, за да се търсят високите резултати, които са показателни за "печеливши" токени. Това също може да затрудни премахването му.
Множеството рундове в турнира могат да бъдат оприличени на комбинирана ключалка, в която всеки рунд представлява различна цифра, която трябва да бъде решена, за да се отключи или премахне водният знак, обяснява Фужун Хуан (Furong Huang), компютърен учен в Университета на Мериленд в Колидж Парк. "Този механизъм прави значително по-трудно почистването, подправянето или обратното проектиране на водния знак", добавя тя.
С текст, съдържащ около 200 токена, авторите на алгоритъма са показали, че все пак могат да открият водния знак, дори когато се използва втори LLM за перифразиране на текста. За по-къси поредици от текст водният знак е по-малко стабилен.
Изследователите не са изследвали доколко водният знак може да устои на умишлени опити за премахване. Устойчивостта на водните знаци на подобни атаки е важен политически въпрос, смятат специалистите.
Справка: Dathathri, S., See, A., Ghaisas, S. et al. Scalable watermarking for identifying large language model outputs. Nature 634, 818–823 (2024). https://doi.org/10.1038/s41586-024-08025-4
Източник: Google unveils invisible ‘watermark’ for AI-generated text, Nature
Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари