AI 벤치마킹 논란과 성능 측정의 모호함: 포켓몬 게임 사례를 중심으로

최근 인공지능(AI) 모델들의 성능을 측정하는 방식에 대한 논란이 다시금 수면 위로 떠올랐습니다. 구글의 Gemini와 Anthropic의 Claude 모델 간 포켓몬 게임 진행 속도 비교가 이러한 논쟁의 중심에 서게 되었습니다. 벤치마킹의 공정성과 AI 모델 평가 방식의 표준화 문제는 인공지능 산업이 성장함에 따라 더욱 중요해지고 있습니다. 이번 글에서는 AI 벤치마킹의 현재 문제점과 앞으로의 방향성에 대해 살펴보겠습니다.

포켓몬 게임으로 본 AI 벤치마킹의 함정

지난주 소셜 미디어 X(트위터)에서는 구글의 최신 Gemini 모델이 Anthropic의 Claude 모델을 포켓몬 게임에서 앞질렀다는 게시물이 바이럴 콘텐츠가 되었습니다. 이 게시물에 따르면, Gemini는 개발자의 트위치 스트림에서 라벤더 타운(Lavender Town)에 도달한 반면, Claude는 2월 말 기준으로 달의 산(Mount Moon)에 머물러 있었습니다.

그러나 이 게시물은 중요한 사실을 언급하지 않았습니다. Gemini 모델은 공정하지 않은 이점을 가지고 있었던 것입니다. Reddit 사용자들이 지적했듯이, Gemini 스트림을 관리하는 개발자는 모델이 게임 내 '타일'(나무 등의 장애물)을 식별할 수 있도록 도와주는 커스텀 미니맵을 구축했습니다. 이로 인해 Gemini는 게임 스크린샷을 분석하는 데 필요한 시간을 크게 줄일 수 있었습니다.

물론 포켓몬 게임이 AI 모델의 능력을 평가하는 진지한 벤치마크라고 주장하는 사람은 많지 않을 것입니다. 하지만 이 사례는 벤치마크 구현 방식의 차이가 결과에 얼마나 큰 영향을 미칠 수 있는지를 보여주는 교훈적 예시입니다.

벤치마킹의 문제점: 커스터마이징과 표준화 부재

포켓몬 게임 사례만이 유일한 예는 아닙니다. AI 기업들은 자사 모델의 성능을 더 좋게 보이기 위해 다양한 방식으로 벤치마크를 조작하거나 수정하고 있습니다.

Anthropic은 최근 출시한 Claude 3.7 Sonnet 모델의 성능을 SWE-bench Verified 벤치마크에서 평가했을 때, 기본 환경에서는 62.3%의 정확도를 달성했지만 자체 개발한 "커스텀 스캐폴드"를 사용했을 때는 70.3%라는 더 높은 점수를 얻었다고 보고했습니다.

Meta 역시 최근 Llama 4 Maverick 모델의 변형을 특정 벤치마크인 LM Arena에서 좋은 성능을 내도록 미세 조정했습니다. 그러나 동일한 평가에서 기본 버전의 모델은 훨씬 낮은 점수를 기록했습니다.

이처럼 AI 벤치마크는 본래 불완전한 측정 도구인데, 여기에 사용자 정의 및 비표준 구현까지 더해지면서 모델 간 비교가 더욱 어려워지고 있습니다. 새로운 모델이 출시될 때마다 그 성능을 객관적으로 평가하기가 점점 더 어려워질 것으로 보입니다.

최신 AI 모델 동향: OpenAI의 GPT-4.1 출시와 코딩 역량 강화

최근 OpenAI는 GPT-4.1 모델 제품군을 출시했습니다. 이 모델들은 GPT-4.1, GPT-4.1 mini, GPT-4.1 nano로 구성되어 있으며, 코딩 및 지시 이행에 특화된 특성을 가지고 있습니다. 이 모델들은 OpenAI의 API를 통해 제공되며, 100만 토큰 컨텍스트 윈도우를 갖추고 있어 약 75만 단어(전쟁과 평화보다 긴 분량)를 한 번에 처리할 수 있습니다.

GPT-4.1은 Google의 Gemini 2.5 Pro와 Anthropic의 Claude 3.7 Sonnet과 같은 경쟁 모델들이 코딩 벤치마크에서 높은 성적을 거두는 가운데 출시되었습니다. OpenAI를 포함한 많은 기술 기업들은 복잡한 소프트웨어 엔지니어링 작업을 수행할 수 있는 AI 코딩 모델을 훈련시키는 것을 목표로 하고 있습니다.

OpenAI는 GPT-4.1이 프론트엔드 코딩, 불필요한 편집 축소, 형식 및 구조 준수, 일관된 도구 사용 등 개발자들이 가장 중요하게 생각하는 영역에서 향상되었다고 주장합니다. 이러한 개선을 통해 개발자들은 실제 소프트웨어 엔지니어링 작업에 더 적합한 에이전트를 구축할 수 있게 될 것으로 기대됩니다.

OpenAI의 내부 테스트에 따르면, GPT-4.1은 SWE-bench Verified에서 52%에서 54.6% 사이의 점수를 기록했습니다. 이는 같은 벤치마크에서 Google의 Gemini 2.5 Pro(63.8%)와 Anthropic의 Claude 3.7 Sonnet(62.3%)이 보고한 점수보다 약간 낮은 수치입니다.

OpenAI의 비즈니스 전략 변화: GPT-4.5의 API 중단

OpenAI는 최근 자사의 가장 큰 AI 모델인 GPT-4.5의 API 가용성을 곧 중단할 계획이라고 밝혔습니다. 이 모델은 2025년 2월 말에 출시된 지 불과 몇 개월 만에 API 서비스가 종료될 예정입니다.

개발자들은 7월 14일까지 OpenAI의 API를 통해 GPT-4.5에 접근할 수 있으며, 이후에는 OpenAI 제품 카탈로그 내 다른 모델로 전환해야 합니다. OpenAI는 최근 출시된 GPT-4.1을 선호하는 대체 모델로 포지셔닝하고 있습니다.

OpenAI 대변인에 따르면 "GPT-4.1은 주요 영역에서 GPT-4.5와 유사하거나 향상된 성능을 훨씬 낮은 비용으로 제공한다"고 합니다. 회사는 "미래 모델 구축에 우선순위를 두기 위해 GPT-4.5를 중단할 것"이라고 덧붙였습니다.

GPT-4.5는 OpenAI의 이전 모델들보다 더 많은 컴퓨팅 파워와 데이터를 사용하여 훈련되었습니다. 그러나 운영 비용이 매우 높아 OpenAI는 2월에 이미 장기적으로 API를 통해 GPT-4.5를 제공할지 여부를 평가하고 있다고 경고했습니다. 이 모델의 가격은 입력 토큰 백만 개당 $75, 출력 토큰 백만 개당 $150로, OpenAI의 가장 비싼 제품 중 하나였습니다.

교육 분야의 AI 혁신: Google Classroom의 Gemini 기반 기능

Google Classroom은 월요일에 교사들이 질문을 생성하는 데 도움을 주는 AI 기반 새로운 기능을 도입했습니다. 이 도구를 사용하면 교육자들은 특정 텍스트 입력을 기반으로 질문 목록을 작성할 수 있습니다.

Gemini를 활용한 이 텍스트 의존적 질문 생성 도구를 통해 교사들은 Google Drive에서 파일을 업로드하거나 AI가 질문을 생성할 텍스트를 수동으로 입력할 수 있습니다. 생성된 질문은 Google 문서나 Google 설문지로 내보낼 수 있습니다.

교사들은 학년 수준, 질문 수, 질문 유형(예: 객관식 또는 주관식) 등 다양한 필터를 선택할 수 있습니다. 또한 비유적 언어 사용이나 논쟁 평가 능력과 같이 학생들이 보여줄 기술을 지정할 수 있는 옵션도 있습니다.

이 기능은 Gemini Education 추가 기능($24/사용자) 또는 Gemini Education Premium($36/사용자)을 보유한 Google Workspace for Education 구독자만 이용할 수 있습니다.

데이터 프라이버시와 AI: 메타의 EU 데이터 활용 재개

메타는 월요일에 규제 압박으로 일시 중단했던 EU 내 페이스북과 인스타그램의 공개 콘텐츠를 AI 모델 훈련에 사용하는 계획을 재개한다고 발표했습니다. 회사는 이번 주부터 EU 내 사용자들의 콘텐츠를 기반으로 AI 모델을 훈련할 예정이라고 밝혔습니다.

메타는 미국에서는 수년간 사용자 생성 콘텐츠로 AI를 훈련시켜 왔지만, EU에서는 블록의 엄격한 개인정보 보호법, 특히 AI 모델을 훈련시키기 위한 개인 데이터 처리에 명확한 법적 근거를 요구하는 GDPR(일반 데이터 보호 규정) 때문에 저항에 직면했습니다.

2024년 6월, 메타는 아일랜드 데이터 보호 위원회(DPC)의 반발에 따라 EU와 영국에서 사용자 데이터를 사용하여 AI 시스템을 훈련시키는 계획을 중단할 것이라고 밝혔습니다. 2024년 9월, 메타는 영국 사용자 기반의 공개 게시물을 사용하여 AI 시스템을 훈련시키는 노력을 재개한다고 발표했습니다.

이제 EU 사용자 기반의 공개 게시물도 동일한 용도로 사용할 계획입니다. 메타는 "작년에 규제 기관이 법적 요구 사항을 명확히 하는 동안 공개 콘텐츠를 사용하여 대규모 언어 모델을 훈련시키는 것을 지연했다"며 "12월에 EDPB가 제공한 의견을 환영하며, 이는 우리의 원래 접근 방식이 법적 의무를 충족했음을 확인했다"고 밝혔습니다.

미국 내 AI 칩 생산 강화: 엔비디아의 국내 제조 확대

엔비디아는 월요일에 미국 내 생산의 일부를 이동하기 위한 노력의 일환으로 애리조나와 텍사스에서 AI 칩을 제조하고 테스트하기 위한 100만 제곱피트 이상의 제조 공간을 확보했다고 발표했습니다.

칩메이커는 애리조나 피닉스에 있는 TSMC의 칩 공장에서 블랙웰 칩 생산이 시작되었으며, 텍사스에 "슈퍼컴퓨터" 제조 공장을 건설 중이라고 밝혔습니다. 휴스턴에서는 폭스콘과, 댈러스에서는 위스트론과 협력하고 있습니다. 애리조나에서는 앰코와 SPIL과 협력하여 패키징 및 테스트 작업을 진행한다고 덧붙였습니다.

휴스턴과 댈러스 공장의 대량 생산은 향후 12-15개월 내에 증가할 것으로 예상되며, 향후 4년 내에 최대 5천억 달러 규모의 AI 인프라를 미국 내에서 생산하는 것을 목표로 하고 있습니다.

엔비디아 CEO 젠슨 황은 "세계 AI 인프라의 엔진이 사상 처음으로 미국에서 제작되고 있다"며 "미국 제조를 추가함으로써 AI 칩과 슈퍼컴퓨터에 대한 믿을 수 없을 정도로 증가하는 수요를 더 잘 충족시키고, 공급망을 강화하며, 회복력을 높일 수 있다"고 밝혔습니다.

이 발표는 트럼프 행정부와의 국내 제조 계약을 체결한 후 엔비디아가 H20 칩에 대한 수출 통제를 간신히 피했다는 보도가 나온 지 며칠 만에 나왔습니다. NPR에 따르면, 중국으로 수출될 수 있는 엔비디아의 가장 발전된 칩인 H20는 미국 기반 AI 데이터 센터의 구성 요소에 자본을 투입하겠다는 황의 약속 덕분에 제재를 면했다고 합니다.

미래 전망: AI 벤치마킹과 산업의 방향성

AI 벤치마킹에서 드러난 문제점들은 인공지능 기술이 발전함에 따라 더욱 심각해질 가능성이 있습니다. 기업들이 자사 모델의 성능을 더 좋게 보이기 위해 벤치마크를 조작하거나 수정하는 행위는 산업 전반의 신뢰성을 저하시키는 요인이 됩니다.

향후 몇 년간 우리는 다음과 같은 변화를 예상할 수 있습니다:

표준화된 벤치마크의 등장: 독립적인 기관이나 연구 커뮤니티에서 보다 엄격하고 표준화된 벤치마크를 개발하여 모델 간 공정한 비교가 가능하도록 할 것입니다.
투명성 강화: AI 기업들이 자사 모델의 훈련 및 평가 방법에 대해 더 많은 정보를 공개하도록 하는 산업 규범이 발전할 것입니다.
실용적 평가 중심으로 전환: 학문적 벤치마크보다 실제 사용 사례에서의 성능을 측정하는 평가 방식이 더 중요해질 것입니다.
국가 간 AI 산업 경쟁 심화: 미국, 중국 등 주요국 간의 AI 기술 및 제조 경쟁이 더욱 치열해지면서, 자국 내 AI 인프라 구축에 대한 투자가 증가할 것입니다.
데이터 프라이버시와 AI 훈련의 균형: EU의 GDPR과 같은 엄격한 데이터 규제와 AI 혁신 사이의 균형을 찾기 위한 논의가 계속될 것입니다.

결론

포켓몬 게임 벤치마킹 사례에서 볼 수 있듯이, AI 모델의 성능 평가는 단순한 숫자 비교 이상의 복잡한 문제입니다. 벤치마킹 방식의 차이, 커스터마이징된 구현, 그리고 표준화 부재는 모델 간 객관적인 비교를 어렵게 만들고 있습니다.

AI 기업들은 자사 모델의 우수성을 강조하기 위해 다양한 방식으로 벤치마크 결과를 제시하고 있지만, 이는 궁극적으로 산업 전반의 신뢰성을 저하시키는 요인이 될 수 있습니다. 더욱 투명하고 표준화된 평가 방식이 등장하기 전까지는, AI 모델의 성능을 평가할 때 단일 벤치마크 결과보다 다양한 실제 사용 사례에서의 성능을 종합적으로 고려하는 것이 중요할 것입니다.

동시에 AI 산업은 데이터 프라이버시, 국가 간 경쟁, 제조 역량 등 다양한 도전에 직면해 있습니다. 이러한 복합적인 환경 속에서 AI 기술의 발전과 공정한 평가 방식의 확립은 향후 AI 생태계의 건강한 성장을 위한 핵심 과제로 남을 것입니다.

크립토 자본주의

이 블로그 검색