Известно е, че човешките езици са се развивали и променяли значително в хода на историята, често отразявайки технологични, културни и обществени промени. Изучаването на еволюцията на езиците може да предложи ценна информация за това как човешките общества и култури са се трансформирали с течение на времето.
Изследователи от университетите Фудан, Харвард и Стоуни Брук наскоро са изследвали еволюцията на 22 езика, използвайки комбинация от инструменти за изкуствен интелект (ИИ), статистически методи и огромен набор от реални лингвистични данни. Статията им, публикувана в Proceedings of the Royal Society B Biological Sciences, идентифицира обща статистическа структура за всички изследвани езици и моделите, които стоят в основата на тяхната еволюция.
"Нови думи, концепции и идеи се генерират непрекъснато, но съществуват ли скрити закономерности, които управляват кои концепции е по-вероятно да се появят? Има ли прости математически модели, които емулират този процес?", коментира пред Phys.org Стивън Скиена (Steven Skiena), старши автор на статията. "Вдъхновихме се от идеята, че технологиите за машинно обучение за представяне на езиковата семантика (вграждане на думи) ни дават строг начин да разсъждаваме върху сложния материал на човешкия език."
Изучаване на езиковата еволюция със стари и нови методи
За да изучат еволюцията на човешките езици и култури, Скиена и колегите му са използвали методи за обработка на естествен език (NLP) - алгоритми, предназначени за анализ на текстове или реч. Тези модели представят думи, използвайки така наречените "вграждания на думи".
Вгражданията на думи са числови представяния на думи, които свързват всяка дума от речника с определена точка в семантично пространство с висока степен на разделение. В това пространство думите, които имат сходни значения, са представени като близки точки.
"По същество нашата статия пита как речникът на различните езици е разпределен в това пространство от характеристики и какъв математически процес би създал подобно разпределение", обяснява Скиена. "Нашата статия имаше удивително дълъг период на разработване: работим по това заедно повече от седем години до този момент и е чудесно да видим докъде най-накрая стигнахме."
Изследователите са използвали големи масиви от данни, съдържащи думи на английски и на 21 други езика, след което са представили тези думи като вграждания на думи. Това им е позволило математически да картографират значението им и да търсят модели в това как те са свързани помежду си.
"Комбинирахме езикови данни, стигащи чак до Средновековието, и сравнително установени инструменти, като методи от пространствената статистика, популярни в количествената география и науките за околната среда, с много съвременните техники на машинно обучение и естествено програмиране (NLP)", обяснява Сергий Верстюк (Sergiy Verstyuk), съавтор на статията. "Това ни позволи да разкрием някои факти за културата, които са валидни за много различни човешки езици днес и през цялата ни история."
Интересното е, че Скиена, Верстюк и техните колеги са установили, че 22-та езика, които са анализирали систематично, споделят някои универсални модели. Първо, те са установили, че популярните думи са последователно групирани с други популярни думи, което води до "популярни" региони с високочестотни думи.
Изследователите също така откриват общи профили за скоростта на групиране на думи. С други думи, те откриват, че думите от речника са организирани в йерархичен модел, като структурата на тази йерархия е като цяло еднаква във всички анализирани езици.
"Наблюдавахме също интересна времева динамика, показваща, че новите думи обикновено се създават на изблици заедно с други скорошни думи около тях", съобщава Скиена. Това донякъде напомня как протича биологичната еволюция в бързи периоди на значителни генетични или морфологични промени.
Освен това, те откриват, че така нареченият закон на Тейлър, първоначално открит за екологични съобщества и по-късно идентифициран в други биологични проби, физически данни и математически обекти, е валиден и за думите от речника. В този случай това е математическа зависимост от степенен тип, която свързва средната стойност и дисперсията на броя думи, сортирани по тяхното семантично значение и исторически произход, което ни позволява едновременно да разберем семантиката и еволюцията на езика.
Следващи стъпки за разбиране на езиковата еволюция
Това проучване предлага някои интересни нови прозрения за това как различните езици са еволюирали през последните векове и за многобройните прилики между тях. Взети заедно, статистическите модели, които разкриват, биха могли да имат значение за по-задълбочено разбиране на човешките езици. Още по-важно е, че има някои доказателства, че други области на човешката култура показват подобни модели.
Анализите на екипа им позволяват да идентифицират стохастичен математически процес, който генерира набори от думи със сходни свойства. Този процес би могъл частично да обясни механизмите, чрез които са създадени човешките езици и как са се развивали с течение на времето.
"Конструирахме изненадващо прост модел, който не само възпроизвежда по-ранните резултати за степенното разпределение на честотите на думите (т.е. проявяващи се в едно измерение), но също така отчита нови емпирични открития в много допълнителни измерения (по-специално в 300-мерното семантично пространство и в историческо време)", разказва Верстюк. "Това беше постигнато чрез комбиниране на добре познат процес на кумулативно предимство с рядко използвано вероятностно разпределение на фон Мизес-Фишер."
В бъдеще тази работа би могла да вдъхнови по-нататъшни лингвистични и антропологични изследвания, които използват методите на естественото програмиране (NLP) и други инструменти за изкуствен интелект (ИИ), както и формално математическо моделиране. "Продължава вълнението ни от възможностите за използване на генерирани от ИИ вграждания като инструмент за фундаментални изследвания за разбиране на историческите процеси в културната еволюция – не само за изграждане на технологични инструменти", добавя Скиена.
Справка: Xingzhi Guo et al, Statistical structure and the evolution of languages, Proceedings of the Royal Society B Biological Sciences (2026). DOI: 10.1098/rspb.2025.2374.
Източник: Universal patterns emerge across 22 languages, mapping how vocabularies evolve, Ingrid Fadelli, Phys.org
Още по темата
Човекът
Трайни модели в езиците по света
Човекът
Древна ДНК разкрива популация - липсваща връзка в произхода на индоевропейските езици
Човекът
Индоевропейски езици: Ново изследване съгласува двете доминиращи хипотези за произхода им














Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари
"Ад" на Данте описва удар на астероид 500 години преди съвременната наука
10-годишно момиче открива рядък мексикански аксолотъл. Какво знаем за тези животни
Хората с тъмни черти на характера са естествено склонни към лидерски роли, установява ново проучване
Хората с тъмни черти на характера са естествено склонни към лидерски роли, установява ново проучване