Add news
News Every Day |

New AI Benchmark ARC-AGI-2 ‘Significantly Raises the Bar for AI’

6

The ARC Prize Foundation introduced this month the newest iteration of its popular benchmark: ARC-AGI-2 (also known as the Abstraction and Reasoning Corpus). The latest benchmark test is even more challenging than the original called ARC-AGI-1, which launched in 2019.

According to Arc Prize Foundation President Greg Kamradt, “ARC-AGI-2 significantly raises the bar for AI.”

Examining the early scores

The ARC-AGI-2 benchmark is comprised of a series of puzzles for AI to solve. After giving the test to 400+ humans, the ARC Prize Foundation established a human baseline for its tests.

  • Human panel: 60% average with a cost per task of $17.

Current generative AI tools, however, didn’t fare so well.

  • OpenAI o1-pro: 1% with a cost per task of $200.
  • OpenAI o3-mini-high: 0.0% with a cost per task of $0.41.
  • OpenAI GPT-4.5: 0.0% with a cost per task of $0.29.
  • DeepSeek-R1 and R1-Zero: 0.3% with a cost per task of $0.08.
  • Anthropic Claude 3.7: 0.0% with a cost per task of $0.120.
  • Google Gemini 2.0 Flash: 1.3% with a cost per task of $0.004.

The human panel vastly outperformed the large language models (LLMs) and AI systems that were evaluated using ARC-AGI-2. But what datasets did the tests use?

Analyzing the datasets

The ARC-AGI-2 benchmark comprises a total of four datasets.

  • Training: 1,000 uncalibrated public tasks.
  • Public Eval: 120 calibrated public tasks.
  • Semi-Private Eval: 120 calibrated private tasks.
  • Private Eval: 120 calibrated private tasks.

Tasks are considered calibrated when they are independent and identically distributed. This calibration approach, as detailed by TechCrunch, ensures that scores across these datasets remain directly comparable. 

ARC Prize 2025: The grand prize is $700K 

March 2025 also saw the announcement of ARC Prize 2025, which is based on the ARC-AGI-2 benchmarks and datasets. With a grand prize of $700,000, the competition challenges AI developers to attain an 85% accuracy rating on ARC-AGI-2’s private evaluation dataset.

In order to be eligible, the types of AI models competing for the prize can spend no more than $0.42 per task. Moreover, they must complete the evaluation without access to the internet.

Those competing in ARC Prize 2025 must have their submission ready by November 3, 2025. Researchers can also submit whitepapers for a shot at a $75,000 grand prize. The deadline for paper submissions is November 9, 2025.

Whichever AI model scores the highest on the private evaluation dataset will be declared the winner. Paper submissions are evaluated according to a standardized rubric.

The post New AI Benchmark ARC-AGI-2 ‘Significantly Raises the Bar for AI’ appeared first on eWEEK.

Москва

Сотрудники военкомата и спецназ уложили в пол клиентов фитнес-клуба в Москве

Реклама
Top 6 nutrition questions men should ask themselves after 40

To maintain health and remain full of energy, men will be helped by this

Marcus Rashford got his Man Utd break when I got injured – I knew there was no way back after that

Snezhana Beschetnaya: "The Patriot military industrial Complex is a place where history speaks..."

Vladimir Denisov heads one of the largest and most successful media holdings in Russia

Dalljiet Kaur requests fans to help as her Nach Baliye Choreographer suffers from a brain stroke; writes 'We are doing our best to support them'

Ria.city






Read also

‘The system is broken’: FERC finally wakes up

Boeing lacks ‘trained and experienced’ employees

Opening Series Gives A’s Much To Be Hopeful Around

News, articles, comments, with a minute-by-minute update, now on Today24.pro

News Every Day

Dalljiet Kaur requests fans to help as her Nach Baliye Choreographer suffers from a brain stroke; writes 'We are doing our best to support them'

Today24.pro — latest news 24/7. You can add your news instantly now — here


News Every Day

Dalljiet Kaur requests fans to help as her Nach Baliye Choreographer suffers from a brain stroke; writes 'We are doing our best to support them'



Sports today


Новости тенниса
Большой шлем

Теннисистка Касаткина призналась в любви к Австралии



Спорт в России и мире
Москва

Гандболистки «Ставрополья» повторно проиграли в Москве хозяйкам из ЦСКА



All sports news today





Sports in Russia today

Москва

Проведут фестиваль гиревого спорта


Новости России

Game News

GRENNI-забытая легенда


Реклама
The most beautiful beach towns with cheap living

A huge number of people around the world dream of one day breaking out of the daily routine

Russian.city

Реклама
The most beautiful beach towns with cheap living

A huge number of people around the world dream of one day breaking out of the daily routine


ATP

Новак Джокович готов бороться за 100-й титул ATP на Мастерсе в Майами


Губернаторы России
Домодедово

Дорожные службы Домодедово вышли на субботник


"КИБЕР КОРОЛЬ, WHITE BROTHER, ВОЖДЬ КРАСНОКОЖИХ" ЛИБО "СВЯТОЙ ЛЕНИН" МЕССИЯ? СЕНСАЦИЯ! Дональд Трамп, В.В. Путин. Новости. Россия, США, Европа могут улучшить отношения и здоровье общества?!

Проведут фестиваль гиревого спорта

Героическое участие армян в СВО. Часть двенадцатая

Аэропорт Оренбурга перешёл на весенне-летнее расписание


Релиз трека. Релиз новой песни. Релиз сингла. Релиз Музыкального альбома.

Сергей Шнуров не разрешает детям слушать свои песни

Жизнь в интернате, клиническая смерть и расставание с Подольской: Владимиру Преснякову — 57

Покупательница квартиры Долиной Лурье заявила, что ей не вернули деньги за жилье


Новак Джокович готов бороться за 100-й титул ATP на Мастерсе в Майами

Спортивный эксперт о смене гражданства Дарьи Касаткиной: «Свалила, наконец-то»

Чемпион ОИ Васильев: Касаткина не собирается вредить России

Теннисистка Касаткина призналась в любви к Австралии


Реклама
Top 6 nutrition questions men should ask themselves after 40

To maintain health and remain full of energy, men will be helped by this


Педагогов Хакасии приглашают к участию в V Форуме классных руководителей

Билл Гейтс: благодаря искусственному интеллекту, к 2035 году мы сможем перейти на двухдневную рабочую неделю

Проведут фестиваль гиревого спорта

Управление клинико-диагностическими лабораториями: современные тенденции и опыт экспертов ГК "ДИАКОН"


На заседании Российско-Армянского делового совета в ТПП РФ обсудили укрепление сотрудничества двух стран. Фоторяд

Пришествие Интернета в Россию. Часть 4: «послание генсека Черненко», хакер из Apple в Москве и Usenet в ожидании Russkes

На заседании Российско-Армянского делового совета в ТПП РФ обсудили укрепление сотрудничества двух стран. Фоторяд

В Петербурге планируют продлить метро до Пулково, Экспофорума и музеев Царского Села


Москвички объединяются в инициативные группы для помощи в зоне СВО

Устроившего по людям и электробусу стрельбу в Москве осудили на 4,5 года

Педагогов Хакасии приглашают к участию в V Форуме классных руководителей

Что произошло 31 марта в истории Якутии



Путин в России и мире






Реклама
The most beautiful beach towns with cheap living

A huge number of people around the world dream of one day breaking out of the daily routine

Персональные новости Russian.city
Sex Pistols

Группа Sex Pistols отправится в тур впервые за 22 года



News Every Day

Vladimir Denisov heads one of the largest and most successful media holdings in Russia




Friends of Today24

Музыкальные новости

Персональные новости