С физиката се откриват закономерности в данните

Ваня Милева Последна промяна на 08 октомври 2024 в 13:24 3446 0

Джон Хопфийлд (John J. Hopfield) и Джефри Хинтън (Geoffrey E. Hinton)

Кредит Ill. Niklas Elmehed © Nobel Prize Outreach

Кралската шведска академия на науките обяви носителите на Нобелова награда за физика за 2024 година на Джон Хопфийлд (John J. Hopfield) и Джефри Хинтън (Geoffrey E. Hinton) „за основополагащи открития и изобретения, които позволяват машинно обучение с изкуствени невронни мрежи“.

Кралската шведска академия на науките обяви за носители на Нобелова награда за физика за 2024 година Джон Хопфийлд (John J. Hopfield) и Джефри Хинтън (Geoffrey E. Hinton) „за основополагащи открития и изобретения, които позволяват машинно обучение с изкуствени невронни мрежи“.

Тазгодишните лауреати използват инструменти от физиката, за да създадат методи, които помагат да се положат основите на днешното мощно машинно обучение.

Джон Хопфелд създава структура, която може да съхранява и възстановява информация. Джефри Хинтън изобретява метод, който може самостоятелно да открива свойства в данните и който става важен за големите изкуствени невронни мрежи, които се използват сега.

Много хора са се убедили, че компютрите могат да превеждат между различни езици, да интерпретират изображения и дори да водят разумни разговори. Може би по-малко известно е, че този тип технологии отдавна са важни за научните изследвания, включително за сортирането и анализа на огромни количества данни.

Развитието на машинното обучение се разрасна през последните петнадесет-двадесет години и използва структура, наречена изкуствена невронна мрежа. В днешно време, когато говорим за изкуствен интелект, често имаме предвид именно този тип технология.

Въпреки че компютрите не могат да мислят, те вече могат да имитират функции като памет и учене. Тазгодишните лауреати в областта на физиката са допринесли това да стане възможно. Използвайки фундаментални концепции и методи от физиката, те са разработили технологии, които използват структури в мрежи за обработка на информация.

Машинното обучение се различава от традиционния софтуер, който работи като вид рецепта.

Софтуерът получава данни, които се обработват по ясно описание и дават резултати, подобно на това как някой събира съставки и ги обработва, следвайки рецепта, като получава накрая торта.

Вместо това при машинното обучение компютърът се учи чрез примери, което му позволява да се справя с проблеми, които са твърде неясни и сложни, за да бъдат управлявани чрез инструкции стъпка по стъпка. Пример за това е интерпретирането на снимка, за да се идентифицират обектите на нея.

Имитация на човешкия мозък

Една изкуствена невронна мрежа обработва информация, използвайки цялата структура на мрежата. Вдъхновението първоначално идва от желанието да се разбере как работи човешкият мозък. През 40-те години на миналия век изследователите са започнали да разсъждават върху математиката, която е в основата на мрежата от неврони и синапси в мозъка. Друга част от пъзела идва от психологията, благодарение на хипотезата на невролога Доналд Хеб (Donald Hebb) за това как се осъществява обучението, защото връзките между невроните се подсилват, когато работят заедно.

По-късно тези идеи са последвани от опити за пресъздаване на начина, по който функционира мозъчната мрежа, чрез изграждане на изкуствени невронни мрежи като компютърни симулации. В тях мозъчните неврони се имитират чрез възли, на които се задават различни стойности, а синапсите се представят чрез връзки между възлите, които могат да се правят по-силни или по-слаби. Хипотезата на Доналд Хеб все още се използва като една от основните правила за актуализиране на изкуствените мрежи чрез процес, наречен обучение.

Естествени и изкуствени неврони

Невронната мрежа на мозъка е изградена от живи клетки, неврони, с усъвършенстван вътрешен механизъм.

Те могат да изпращат сигнали помежду си чрез синапси.

Когато научаваме нещо, връзките между някои неврони се засилват, докато други отслабват.

Изкуствените невронни мрежи са изградени от възли, които са кодирани със стойност.

Възлите са свързани помежду си и когато мрежата се обучава, връзките между възлите, които са активни по едно и също време, се засилват, а в противен случай отслабват.

Кредит: © Johan Jarnestad/The Royal Swedish Academy of Sciences

В края на 60-те години на миналия век някои обезкуражаващи теоретични резултати карат много изследователи да предположат, че от тези невронни мрежи никога няма да има реална полза. Интересът към изкуствените невронни мрежи обаче се събужда отново през 80-те години на ХХ век, когато няколко важни идеи оказват влияние, включително и работата на тазгодишните лауреати.

Асоциативна памет

Представете си, че се опитвате да запомните доста необичайна дума, която рядко използвате, например такава за онзи наклонен под, който често се среща в кината и лекционните зали. Търсите в паметта си. Това е нещо като рампа... може би рад...иална? Не, не е това. Грабеж, това е! Този процес на търсене на сходни думи, за да се намери правилната, напомня на асоциативната памет, която физикът Джон Хопфийлд открива през 1982 г. Мрежата на Хопфийлд може да съхранява модели и има метод за тяхното пресъздаване. Когато на мрежата се предостави непълен или леко изкривен модел, методът може да намери запаметения модел, който е най-подобен. Преди това Хопфийлд е използвал опита си в областта на физиката, за да изследва теоретични проблеми в молекулярната биология. Когато е поканен на среща, посветена на неврологията, се среща с изследвания на структурата на мозъка. Очарован от наученото, започнал да мисли за динамиката на простите невронни мрежи. Когато невроните действат заедно, те могат да доведат до нови и мощни характеристики, които не са очевидни за човек, който разглежда само отделните компоненти на мрежата.

През 1980 г. Хопфийлд напуска работата си в Принстънския университет, където изследователските му интереси го извеждат извън областите, в които работят колегите му по физика, и се премества на другия край на континента. Той приема предложението за професорска длъжност по химия и биология в Калифорнийския технологичен институт (Caltech) в Пасадена, Южна Калифорния. Там е имал достъп до компютърни ресурси, които е можел да използва за свободни експерименти и да развива идеите си за невронните мрежи.

Въпреки това той не изоставя основата си във физиката, където намира вдъхновение за разбирането си как системи с много малки компоненти, които работят заедно, могат да доведат до нови и интересни явления. Особено му е полезно да се запознае с магнитните материали, които имат специални характеристики благодарение на атомния си спин - свойство, което превръща всеки атом в малък магнит. Спиновете на съседните атоми си влияят взаимно; това може да позволи образуването на области със спин в една и съща посока. Той успява да създаде модел на мрежа с възли и връзки, използвайки физиката, която описва как се развиват материалите, когато спиновете си влияят един на друг.

Мрежата запазва изображения в пространството Мрежата, изградена от Хопфелд, има възли, които са свързани помежду си чрез връзки с различна сила. Всеки възел може да съхранява индивидуална стойност - в първата работа на Хопфелд тя може да бъде 0 или 1, подобно на пикселите в черно-бяла картина. Хопфелд описва цялостното състояние на мрежата със свойство, което е еквивалентно на енергията в системата от спинове, открита във физиката; енергията се изчислява по формула, която използва всички стойности на възлите и силата на връзките между тях. Мрежата на Хопфелд се програмира чрез подаване на изображение към възлите, на които се задава стойност на черно (0) или бяло (1). След това връзките на мрежата се коригират, като се използва формулата за енергията, така че запаметеното изображение да получи ниска енергия. Когато в мрежата се подаде друг образ, има правило за преминаване през възлите един по един и проверка дали мрежата има по-ниска енергия, ако стойността на този възел се промени. Ако се окаже, че енергията намалява, ако вместо черен пиксел има бял, той променя цвета си. Тази процедура продължава, докато не стане невъзможно да се открият допълнителни подобрения. Когато се достигне този момент, мрежата често е възпроизвела оригиналното изображение, върху което е била обучена.

Това може да не изглежда толкова забележително, ако се запаметява само един модел. Може би се питате защо просто не се запази самото изображение и да се сравни с друго тествано изображение, но методът на Хопфелд е специален, защото могат да се запазят няколко изображения едновременно и мрежата обикновено може да направи разлика между тях.

Хопфелд оприличава търсенето на запазено състояние в мрежата на търкаляне на топка през пейзаж от върхове и долини, с триене, което забавя движението ѝ. Ако топката бъде изпусната на определено място, тя ще се търкулне в най-близката долина и ще спре там. Ако на мрежата се даде модел, който е близък до един от запазените модели, тя по същия начин ще продължи да се движи напред, докато не се озове в дъното на долината в енергийния пейзаж, като по този начин открие най-близкия модел в паметта си.

Мрежата на Хопфелд може да се използва за пресъздаване на данни, които съдържат шум или са били частично изтрити.

Спомените се съхраняват в релеф

Кредит: © Johan Jarnestad/The Royal Swedish Academy of Sciences

Хопфелд и други продължават да разработват детайлите на функционирането на мрежата на Хопфелд, включително възли, които могат да съхраняват всякакви стойности, а не само нула или единица. Ако си представите възлите като пиксели в картина, те могат да имат различни цветове, а не само черно или бяло. Усъвършенстваните методи позволяват да се запазват повече снимки и да се прави разлика между тях, дори когато са доста сходни. Също толкова възможно е да се идентифицира или реконструира каквато и да е информация, при условие че тя е изградена от много точки данни.

Класификация с помощта на физиката от XIX век

Запомнянето на дадено изображение е едно, но тълкуването на това, което то изобразява, изисква малко повече.

Дори много малки деца могат да посочат различни животни и да кажат с увереност дали това е куче, котка или катерица. Понякога може и да грешат, но съвсем скоро почти винаги са прави. Детето може да научи това дори без да вижда схеми или обяснения на понятия като вид или бозайник. След като се сблъска с няколко примера за всеки вид животно, различните категории се подреждат в главата на детето. Хората се научават да разпознават котка, да разбират дадена дума или да влизат в стая и да забелязват, че нещо се е променило, като се запознаят със заобикалящата ги среда.

Когато Хопфелд публикува статията си за асоциативната памет, Геофри Хинтън работи в университета „Карнеги Мелън“ в Питсбърг, САЩ. Преди това той е изучавал експериментална психология и изкуствен интелект в Англия и Шотландия и се е интересувал дали машините могат да се научат да обработват модели по подобен на хората начин, откривайки свои собствени категории за сортиране и интерпретиране на информацията. Заедно с колегата си Терънс Сейновски (Terrence Sejnowski) Хинтън изхожда от мрежата на Хопфелд и я разширява, за да изгради нещо ново, като използва идеи от статистическата физика.

Статистическата физика описва системи, които се състоят от много сходни елементи, като например молекули в газ. Трудно е или е невъзможно да се проследят всички отделни молекули в газа, но е възможно да се разгледат заедно, за да се определят общите свойства на газа, като например налягане или температура. Съществуват много потенциални начини молекулите на газа да се разпространяват в обема му с индивидуални скорости и въпреки това да водят до същите колективни свойства.

Състоянията, в които отделните компоненти могат да съществуват съвместно, могат да бъдат анализирани с помощта на статистическата физика и да се изчисли вероятността за тяхното настъпване. Някои състояния са по-вероятни от други; това зависи от количеството налична енергия, което е описано в уравнението на физика от XIX век Лудвиг Болцман. Мрежата на Хинтън използва това уравнение, а методът е публикуван през 1985 г. под впечатляващото име „машина на Болцман“.

Разпознаване на нови примери от същия тип

Машината на Болцман обикновено се използва с два различни типа възли. Информацията се подава към една група, наречена видими възли. Другите възли образуват скрит слой. Стойностите и връзките на скритите възли също допринасят за енергията на мрежата като цяло.

Машината се управлява чрез прилагане на правило за актуализиране на стойностите на възлите един по един. В крайна сметка машината ще навлезе в състояние, в което моделът на възлите може да се променя, но свойствата на мрежата като цяло остават същите. Тогава всеки възможен модел ще има определена вероятност, която се определя от енергията на мрежата в съответствие с уравнението на Болцман. Когато машината спре, тя е създала нов модел, което прави машината на Болцман ранен пример за генеративен режим.

Различни видове мрежи

МРЕЖА НА ХОПФИЛДМАШИНА НА БОЛЦМАНОГРАНИЧЕНА МАШИНА НА БОЛЦМАН


Асоциативната памет на Джон Хопфийлд е изградена така, че всички възли са свързани помежду си.

Информацията се подава и се чете от всички възли.

Машината на Болцман на Джефри Хинтън често се изгражда на два слоя, при което информацията се подава и разчита с помощта на слой от видими възли. Те са свързани със скрити възли, които влияят върху начина, по който мрежата функционира в своята цялост. В ограничената машина на Болцман няма връзки между възлите в един и същи слой. Машините често се използват във верига, една след друга. След като се обучи първата ограничена машина на Болцман, съдържанието на скритите възли се използва за обучение на следващата машина и т.н.

Кредит: © Johan Jarnestad/The Royal Swedish Academy of Sciences

Машината на Болцман може да се учи - не от инструкции, а от дадени примери. Тя се обучава, като се актуализират стойностите в мрежовите връзки, така че примерните модели, които са били подадени на видимите възли при обучението, да имат възможно най-голяма вероятност да се появят, когато бъде пусната машината. Ако един и същ модел се повтори няколко пъти по време на това обучение, вероятността за този модел е още по-висока. Обучението влияе и върху вероятността за извеждане на нови модели, които приличат на примерите, върху които е била обучена машината. Обучената машина на Болцман може да разпознава познати черти в информация, която не е виждала преди това. Представете си, че срещнете брат или сестра на приятел, и веднага можете да видите, че те трябва да са роднини. По подобен начин машината на Болцман може да разпознае напълно нов пример, ако той принадлежи към категория, открита в обучаващия материал, и да го разграничи от материал, който не е сходен.

В първоначалния си вид машината на Болцман е доста некомпетентна и й е необходимо много време, за да намери решения.

Нещата стават по-интересни, когато тя се развива по различни начини, които Хинтън продължава да изследва. По-късните версии са разредени, тъй като връзките между някои от звената са премахнати. Оказва се, че това може да направи машината по-ефективна.

През 90-те години на ХХ век много изследователи губят интерес към изкуствените невронни мрежи, но Хинтън е един от тези, които продължават да работят в тази област. Той също така помага за започването на нов бум на вълнуващи резултати; през 2006 г. той и колегите му Саймън Осиндеро (Simon Osindero), Йеуи Тех (Yee Whye Teh) и Руслан Салахутдинов (Ruslan Salakhutdinov) разработват метод за предварително обучение на мрежа с поредица от машини на Болцман в слоеве, един върху друг. Това предварително обучение дава на връзките в мрежата по-добра начална точка, което оптимизира обучението ѝ за разпознаване на елементи в картини.

Машината на Болцман често се използва като част от по-голяма мрежа. Например тя може да се използва за препоръчване на филми или телевизионни сериали въз основа на предпочитанията на зрителя.

Машинно обучение - днес и утре

Благодарение на работата си от 80-те години на миналия век и след това Джон Хопфелд и Геофри Хинтън са помогнали да се положат основите на революцията в машинното обучение, която започна около 2010 г.

Развитието, на което сме свидетели сега, стана възможно благодарение на достъпа до огромни количества данни, които могат да се използват за обучение на мрежи, и на огромното увеличение на компютърната мощ. Съвременните изкуствени невронни мрежи често са огромни и са изградени от много слоеве. Те се наричат дълбоки невронни мрежи, а начинът, по който се обучават, се нарича дълбоко обучение.

Един бърз поглед към статията на Хопфелд за асоциативната памет от 1982 г. дава известна перспектива за тази разработка. В нея той използва мрежа с 30 възела. Ако всички възли са свързани помежду си, те имат 435 връзки. Възлите имат свои стойности, връзките имат различна сила и като цяло има по-малко от 500 параметъра, които трябва да се следят. Опитал е и мрежа със 100 възела, но това е било твърде сложно, предвид компютъра, който е използвал по това време. Можем да сравним това с големите езикови модели днес, които са изградени като мрежи, които могат да съдържат повече от един трилион параметри (един милион милиона).

В момента много изследователи разработват областите на приложение на машинното обучение. Кои от тях ще бъдат най-жизнеспособни, предстои да разберем, като в същото време се водят широкообхватни дискусии по етичните въпроси, които съпътстват разработването и използването на тази технология.

Тъй като физиката е допринесла с инструменти за развитието на машинното обучение, интересно е да се види как физиката, като изследователска област, също се възползва от изкуствените невронни мрежи. Машинното обучение отдавна се използва в области, които може би са ни познати от предишни Нобелови награди за физика. Сред тях е използването на машинно обучение за пресяване и обработка на огромните количества данни, необходими за откриването на частицата Хигс. Други приложения включват намаляване на шума при измерванията на гравитационните вълни от сблъскващи се черни дупки или търсенето на екзопланети.

През последните години тази технология започна да се използва и за изчисляване и прогнозиране на свойствата на молекули и материали - например за изчисляване на структурата на белтъчните молекули, която определя тяхната функция, или за определяне кои нови версии на даден материал могат да имат най-добрите свойства за използване в по-ефективни слънчеви клетки.

Източник: The Nobel Prize in Physics 2024

Science Editors: Ulf Danielsson, Olle Eriksson, Anders Irbäck, and Ellen Moons, the Nobel Committee for Physics
Text: Anna Davour
Translator: Clare Barnes
Illustrations: Johan Jarnestad
Editor: Sara Gustavsson
© The Royal Swedish Academy of Sciences

Най-важното
Всички новини
За писането на коментар е необходима регистрация.
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!

Няма коментари към тази новина !