인공지능 일반 지능(AGI)을 위한 ARC-AGI 테스트가 해결에 가까워졌지만, 테스트 설계의 결함이 지적되고 있습니다.
프랑수아 숄레와 마이크 누프는 2025년 새로운 ARC-AGI 벤치마크를 출시할 계획입니다. LLM의 한계와 테스트의 결함을 해결하기 위한 노력이 필요합니다.
AGI 테스트의 발전
인공지능 일반 지능(AGI)을 위한 잘 알려진 테스트가 해결에 가까워졌습니다. 그러나, 테스트의 창시자들은 이것이 진정한 연구 돌파구라기보다는 테스트 설계의 결함을 나타낸다고 말합니다.
ARC-AGI 벤치마크 소개
2019년, AI 분야의 선두 주자인 프랑수아 숄레는 "인공지능 일반 지능을 위한 추상 및 추론 코퍼스"의 약자인 ARC-AGI 벤치마크를 도입했습니다. 이 테스트는 AI 시스템이 훈련된 데이터 외부에서 새로운 기술을 효율적으로 습득할 수 있는지를 평가하기 위해 설계되었습니다. 프랑수아는 ARC-AGI가 일반 지능을 향한 진보를 측정하는 유일한 AI 테스트라고 주장합니다.
LLM의 한계
올해까지 가장 성능이 좋은 AI는 ARC-AGI의 작업 중 3분의 1도 해결하지 못했습니다.
숄레는 대형 언어 모델(LLM)에 대해 업계에 집중적으로 비난하며, LLM이 실제 "추론"을 할 수 없다고 믿습니다. "LLM은 전적으로 암기에 의존하기 때문에 일반화에 어려움을 겪습니다"라고 그는 2월에 X에 게시한 일련의 글에서 말했습니다.
"그들은 훈련 데이터에 없었던 내용에 대해서는 무너집니다."
LLM의 통계적 특성
LLM은 통계적 기계입니다.
많은 예제에 대해 훈련되면, 그 예제에서 패턴을 학습하여 예측을 합니다.
예를 들어, 이메일에서 "to whom"이 일반적으로 "it may concern" 앞에 오는 것을 예측하는 것과 같습니다.
숄레는 LLM이 "추론 패턴"을 암기할 수 있을지 모르지만, 새로운 상황에 기반한 "새로운 추론"을 생성할 가능성은 낮다고 주장합니다.
연구 촉진을 위한 경쟁
LLM을 넘어선 연구를 장려하기 위해, 숄레와 Zapier 공동 창립자 마이크 누프는 6월에 ARC-AGI를 이길 수 있는 오픈 소스 AI를 구축하기 위한 100만 달러의 경쟁을 시작했습니다.
올해 17,789개의 제출물 중 최고 점수는 55.5%로, 2023년 최고 점수보다 약 20% 높았지만, 승리를 위해 필요한 85%의 "인간 수준" 임계값에는 미치지 못했습니다.
테스트의 결함
그러나, 누프는 이것이 AGI에 20% 더 가까워졌다는 의미는 아니라고 말합니다.
블로그 게시물에서 누프는 ARC-AGI 제출물 중 많은 부분이 브루트 포스 방식으로 해결책을 찾았다고 말하며, ARC-AGI 작업의 대부분이 일반 지능에 대한 유용한 해결책을 찾은 신호는 아니라고 말합니다.
미래 계획
프랑수아와 누프는 AGI에 대한 벤치마크로 ARC-AGI를 과대평가했다는 비판에 직면했습니다.
한 OpenAI 직원은 최근 AGI를 "대부분의 작업에서 대부분의 인간보다 나은 AI"로 정의하면 AGI가 이미 달성되었다고 주장했습니다.
누프와 숄레는 이러한 문제를 해결하기 위해 2025년 경쟁과 함께 2세대 ARC-AGI 벤치마크를 출시할 계획이라고 말합니다. "우리는 AI의 가장 중요한 미해결 문제를 연구 커뮤니티의 노력으로 계속 이끌고, AGI로 가는 타임라인을 가속화할 것입니다"라고 숄레는 X 게시물에서 썼습니다.
하지만 첫 번째 ARC-AGI 테스트의 단점이 시사하는 바와 같이, AI의 지능을 정의하는 것은 인간에게 그랬던 것처럼 해결하기 어렵고 계속적인 논란이 될 것입니다.
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다
댓글
댓글 쓰기