Изкуствен интелект декодира реч от мозъчна дейност с изненадваща точност

Изследването все още е много далеч от това да помогне на хора, които не могат да общуват чрез говор

Ваня Милева Последна промяна на 12 септември 2022 в 00:01 7548 0

Кредит Wikimedia Commons

Изкуственият интелект прави една стъпка по-близо до неинвазивното декодиране на това, което чуваме и възнамеряваме да кажем от данните за мозъчната активност. Кредит: Wikimedia Commons

Изкуствен интелект може да декодира думи и изречения от мозъчната дейност с изненадваща, но все още ограничена точност. Използвайки само няколко секунди данни за мозъчната активност, изкуственият интелект отгатва какво е чул човекът. Той посочва правилния отговор в първите 10 възможности до 73% от случаите, установяват изследователите в предварително проучване.

"Резултатите на изкуствения интелект надхвърлят това, което много хора са смятали за възможно на този етап", коментира Джовани Ди Либерто (Giovanni Di Liberto), компютърен учен от Тринити Колидж, Дъблин, който не е участвал в изследването.

Разработен в компанията майка на Facebook, Meta, изкуственият интелект в крайна сметка може да се използва за подпомагане на хиляди хора по света, които не могат да общуват чрез реч, писане или жестове, съобщават изследователи в arXiv.org. Това включва много пациенти в минимално съзнание или във "вегетативни състояния" - това, което сега е общоизвестно като синдром на нереагиращо бодърстване.

Повечето съществуващи технологии за подпомагане на комуникацията на такива пациенти изискват рисковани мозъчни операции за имплантиране на електроди. Този нов подход "би могъл да осигури жизнеспособен път за подпомагане на пациенти с комуникативни дефицити ... без използването на инвазивни методи", отбелязва невробиологът Жан-Реми Кинг (Jean-Rémi King), изследовател на Meta AI, който понастоящем работи във École Normale Supérieure в Париж.

Кинг и колегите му обучават компютърен инструмент за откриване на думи и изречения върху 56 000 часа записи на реч от 53 езика. Инструментът, известен също като езиков модел, се е научил да разпознава специфични характеристики на езика както на фино ниво - например букви или срички - така и на по-широко ниво, например дума или изречение.

Екипът прилага изкуствен интелект с този езиков модел към бази данни от четири институции, които включват мозъчна активност от 169 доброволци. В тези бази данни участниците слушат различни литературни откъси и изречения, например от "Старецът и морето" на Ърнест Хемингуей и "Приключенията на Алиса в страната на чудесата" на Луис Карол, докато мозъците на хората са сканирани с помощта на магнитоенцефалография или електроенцефалография. Тези техники измерват магнитния или електрическия компонент на мозъчните сигнали.

След това с помощта на изчислителен метод, който помага да се отчетат физическите разлики между реалните мозъци, екипът се опитва да разкодира това, което участниците са чули, използвайки само три секунди данни за мозъчната активност на всеки човек. Екипът инструктира изкуствения интелект да съпостави звуците на речта от записите на изреченията с моделите на мозъчна активност, които изкуственият интелект изчислява като съответстващи на това, което хората са чували. След това той прави прогнози за това, което човекът може да е чул през това кратко време, като има предвид повече от 1000 възможности.

Кредит: Free SVG

С помощта на магнитоенцефалографията или МЕГ правилният отговор е бил сред първите 10 предположения на изкуствения интелект в 73 % от случаите, установяват изследователите. При електроенцефалографията тази стойност спада до не повече от 30 процента.

"[Това представяне на MEG] е много добро", посочва Ди Либерто, но не е толкова оптимистично настроен за практическото му използване. "Какво можем да направим с това? Нищо. Абсолютно нищо."

Причината, според него, е, че MEG изисква обемна и скъпа машина. Внедряването на тази технология в клиниките ще изисква научни иновации, които да направят машините по-евтини и по-лесни за използване.

Важно е също така да се разбере какво всъщност означава "декодиране" в това изследване, подчертава Джонатан Бренън (Jonathan Brennan), лингвист от Мичиганския университет в Ан Арбър. Думата често се използва, за да опише процеса на дешифриране на информация директно от източника - в този случай речта от мозъчната дейност. Но изкуственият интелект може да направи това само защото му е предоставен краен списък с възможни правилни отговори, за да направи своите предположения.

"При езика това няма да е достатъчно, ако искаме да го използваме на практика, защото езикът е безкраен", отбелязва Бренън.

Нещо повече, Ди Либерто уточнява, че изкуственият интелект е разкодирал информацията на участниците, които пасивно слушат аудио, което няма пряко отношение към невербалните пациенти. За да се превърне в значим инструмент за комуникация, учените ще трябва да се научат как да дешифрират от мозъчната активност това, което тези пациенти възнамеряват да кажат, включително изразяване на глад, дискомфорт или просто "да" или "не".

Новото изследване е "декодиране на възприемането на речта, а не на нейното производство", съгласява се Кинг. Въпреки че производството на реч е крайната цел, засега "сме доста далеч".

Справка: A. Défossez et al. Decoding speech from non-invasive brain recordings. arXiv:2208.12266. Posted August 25, 2022.

Източник: An AI can decode speech from brain activity with surprising accuracy, Science News

Най-важното
Всички новини
За писането на коментар е необходима регистрация.
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!

Няма коментари към тази новина !