Най-големия набор от математически задачи на ниво олимпиада в света вече е достъпен за всички

Ваня Милева Последна промяна на 23 April 2026 в 10:28 8534 0

математика

Кредит Shaden Alshammari

MathNet е най-големият висококачествен набор от данни от математически задачи, базирани на доказателства, създавани някога. Той се състои от повече от 30 000 задачи и решения, написани от експерти, обхващащи 47 държави, 17 езика (вкл. български) и 143 състезания.

Всяка година страните, участващи в Международната математическа олимпиада, пристигат с книжка с най-добрите си и най-оригинални задачи. Тези книжки се раздават между делегациите и след това изчезват. Никой никога не ги е събирал систематично и не ги е предоставял – нито за изследователи на изкуствен интелект, които тестват границите на математическото мислене, нито за студенти по целия свят, които се подготвят за тези състезания до голяма степен сами.

Изследователи от Масачузетския технологичен институт (MIT), Университета за наука и технологии „Крал Абдула" (KAUST) и HUMAIN вече са направили точно това.

MathNet е най-големият висококачествен набор от математически задачи, базирани на доказателства, създавани някога, и е достъпен за всички. Съдържа повече от 30 000 задачи и решения, написани от експерти, обхващащи 47 държави, 17 езика (един от езиците е български) и 143 състезания, той е пет пъти по-голям от следващия по големина набор от данни от този вид. Работата ще бъде представена на Международната конференция за обучение по математика ICLR 2026 в Бразилия по-късно този месец.

Това, което отличава MathNet, е не само размерът му, но и обхватът му. Предишни набори от данни на ниво олимпиада са извлечени почти изключително от състезания в Съединените щати и Китай. MathNet обхваща десетки страни на шест континента, работи на 17 езика, включва както текстови, така и графични задачи и решения и обхваща четири десетилетия състезателна математика. Целта е да се обхване пълният набор от математически перспективи и традиции за решаване на проблеми, които съществуват в световната математическа общност, а не само най-популярните.

Изграждането на MathNet изисква проследяване на 1595 PDF тома с общ обем над 25 000 страници, обхващащи дигитални документи и сканирания на десетилетия на повече от дузина езици. Значителна част от този архив идва от неочакван източник: Навид Сафаей, дългогодишен член на общността на IMO и съавтор, който събира и сканира тези брошури на ръка от 2006 г. Неговият личен архив формира голяма част от гръбнака на набора от данни.

Източникът е от значение също толкова, колкото и мащабът. Докато повечето съществуващи математически набори от данни извличат задачи от обществени форуми като Art of Problem Solving (AoPS), MathNet черпи изключително от официални брошури за национални състезания. Решенията в тези брошури са написани от експерти и рецензирани от колеги и често са на няколко страници, като авторите представят няколко подхода към една и съща задача.

Тази дълбочина дава на моделите с изкуствен интелект далеч по-богат сигнал за изучаване на математическо мислене, отколкото по-кратките, неформални решения, типични за набори от данни, генерирани от общността. Това също така означава, че наборът от данни е наистина полезен за учениците: всеки, който се подготвя за IMO или национално състезание, вече има достъп до централизирана, търсеща се колекция от висококачествени задачи и работещи решения от традиции по целия свят.

MathNet функционира и като строг бенчмарк за производителността на изкуствения интелект, а резултатите разкриват по-сложна картина, отколкото биха могли да подсказват последните заглавия за математическите умения на изкуствения интелект. Моделите на Frontier са постигнали изключителен напредък: някои от тях са постигнали златен медал в IMO, а по стандартни бенчмаркове те сега решават задачи, които биха озадачили повечето хора. Но MathNet показва, че напредъкът е неравномерен.

Дори GPT-5, най-добре представящият се тестван модел, постига средно около 69,3% в основния тест на MathNet от 6400 задачи, като не успява да реши почти една от всеки три задачи на ниво олимпиада. А когато задачите включват фигури, производителността му спада значително във всички области, което разкрива визуалното мислене като постоянна слабост дори за най-способните модели.

Няколко модела с отворен код постигат 0% резултати при задачи на монголски език, което подчертава друго измерение, където настоящите системи с изкуствен интелект не успяват въпреки цялостната си сила: GPT моделите са еднакво добри на английски и други езиц, но много от моделите с отворен код се провалят напълно при по-рядко срещани езици като монголски.

Разнообразието на MathNet е предназначено и за справяне с по-дълбоко ограничение в начина, по който моделите с изкуствен интелект учат математика. Когато данните за обучение са насочени към английски и китайски задачи, моделите абсорбират тясна част от математическата култура. Българска комбинаторика или бразилска задача по теория на числата може да подходи към същата основна концепция от съвсем различен ъгъл. Изследователите твърдят, че излагането на този диапазон прави както хората, така и системите с изкуствен интелект по-добри математически мислители.

Освен решаването на задачи, MathNet въвежда бенчмарк за извличане на данни, който пита дали моделите могат да разпознаят кога две задачи споделят една и съща основна математическа структура – ​​способност, която е важна както за разработването на изкуствен интелект, така и за самата математическа общност. През годините в реални изпити на IMO са се появявали почти дублиращи се задачи, защото намирането на математически еквивалентности в различни нотации, езици и формати е наистина трудно, дори за експертни човешки комисии.

Тествайки осем най-съвременни модели за съпоставяне, изследователите установяват, че дори най-добрите идентифицират правилното съвпадение само в около 5% от случаите от първия опит, като моделите често класират структурно несвързани задачи като по-сходни от еквивалентните.

Наборът от данни включва и бенчмарк за генериране на добавени данни (RAG), който тества дали задаването на структурно свързана задача на модел, преди да му се поиска да реши друга, подобрява производителността. Подобрява се, но само когато предишната задача е наистина релевантна. DeepSeek-V3.2-Speciale е спечелил до 12 процентни пункта при добре съвпадащо извличане, докато нерелевантното извличане е влошило производителността в приблизително 22% от случаите.

Справка: MathNet; A Global Multimodal Benchmark for Mathematical Reasoning and Retrieval; Shaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba; https://mathnet.csail.mit.edu/ 

Източник: World's largest collection of Olympiad-level math problems now available to everyone, Rachel Gordon, Massachusetts Institute of Technology

    Най-важното
    Всички новини