Мащабно проучване открива следи от изкуствен интелект в милиони научни статии

Ваня Милева Последна промяна на 08 юли 2025 в 00:00 143 0

Думи, показващи повишена честота през 2024 г.

Кредит Science Advances (2025). DOI: 10.1126/sciadv.adt3813

Думи, показващи повишена честота през 2024 г. (A) Честоти през 2024 г. и съотношения на честотите (r). И двете оси са в логаритмична скала. Само подмножество от точки са обозначени за визуална яснота. Пунктираната линия показва прага, определящ излишните думи (вижте текста). Думите с r > 90 са показани при r = 90. Излишните думи са ръчно анотирани като думи за съдържание (синьо) и стилови думи (оранжево). (B) същото, но с честотна разлика (δ) като вертикална ос. Думите с δ > 0,05 са показани при δ = 0,05.

Сигурно случайно вече сте се натъквали на завладяващо онлайн съдържание, създадено изцяло или частично от някоя версия на Large Language Model (LLM). Тъй като тези ресурси с изкуствен интелект, като ChatGPT и Google Gemini, стават все по-добри в генерирането на текст с качество, близко до човешкото, става все по-трудно да се прави разлика между текст, написан изцяло от човек, и съдържание, което е било модифицирано или изцяло генерирано от LLM.

Този напредък поражда опасения в академичната общност, че генерирано от изкуствен интелект съдържание тихомълком се промъква в рецензирани публикации.

За да хвърлят светлина върху това колко широко разпространено е съдържанието, свързано с LLM, в академичното писане, екип от американски и немски изследователи анализират повече от 15 милиона биомедицински резюмета в PubMed, за да определят дали LLM са оказали осезаемо влияние върху специфичните избори на думи в статиите в списания.

Тяхното проучване разкрива, че от появата на LLM се наблюдава съответно увеличение на честотата на определени стилистични думи в академичната литература. Тези данни показват, че поне 13,5% от публикациите през 2024 г. са написани с известна степен на LLM обработка. Резултатите са публикувани в списанието с отворен достъп Science Advances.

От пускането на ChatGPT преди по-малко от три години, разпространението на съдържание, свързано с изкуствен интелект и LLM, в мрежата се е увеличило драстично, което поражда опасения относно точността и целостта на някои изследвания.

Миналите усилия за количествено определяне на нарастването на LLM в академичното писане обаче бяха ограничени от зависимостта им от набори от текстове, генерирани от хора и от LLM. Тази настройка, отбелязват авторите, "…може да въведе пристрастия, тъй като изисква предположения за това кои модели използват учените за своето писане, подпомогнато от LLM, и как точно ги подтикват."

В опит да избегнат тези ограничения, авторите на последното проучване вместо това са изследвали промените в прекомерната употреба на определени думи преди и след публичното пускане на ChatGPT, за да открият евентуални явни тенденции.

Изследователите са моделирали разследването си въз основа на предишни изследвания в областта на общественото здравеопазване за COVID-19, които са успели да направят извод за влиянието на COVID-19 върху смъртността, като са сравнили допълнителните смъртни случаи преди и след пандемията.

Чрез прилагане на същия подход "преди и след", новото проучване анализира моделите на прекомерна употреба на думи преди появата на LLM и след това. Изследователите установяват, че след пускането на LLM е имало значителна промяна от честа употреба на "съдържателни думи" към прекомерна употреба на "стилистични и цветисти" избори на думи, като например "демонстриране" (showcasing), "ключов" (pivotal) и "борба" (grappling).

Чрез ръчно присвояване на части на речта на всяка излишна дума, авторите установяват, че преди 2024 г. 79,2% от излишните избори на думи са били съществителни. През 2024 г. е имало ясно забележима промяна. 66% от излишните избори на думи са били глаголи, а 14% са били прилагателни.

Екипът също така идентифицира забележителни разлики в използването на LLM между изследователските области, държавите и местата на провеждане.

Справка: Dmitry Kobak et al, Delving into LLM-assisted writing in biomedical publications through excess vocabulary, Science Advances (2025). DOI: 10.1126/sciadv.adt3813

Източник: Massive study detects AI fingerprints in millions of scientific papers, Charles Blue, Phys.org

    Най-важното
    Всички новини