AI 벤치마크와 해석

AI 벤치마크와 해석

벤치마크는 좋은 도구지만, 이는 완벽한 비교도구가 아닌 프록시이다.

AI 모델이 새로 나올 때마다 몇몇 사람들은 벤치마크의 성적을 비교하며 특정 모델을 칭찬하고는 한다. MMLU, GPQA-D, SWE-bench, Terminal-bench 같은 이름들이 줄줄이 붙고, 표와 차트로 비교되는 각 숫자는 마치 모델의 역량을 쉽게 비교할 수 있을 것처럼 보인다. 그러나 정작 그 벤치마크에서 어떤 질문을 묻고, 어떤 형식으로 묻고, 무엇을 측정하지 못하는지는 논의가 적다.

예시로 과학 분야에서 자주 언급되는 GPQA-D도 그렇다. GPQA의 풀네임은 Graduate-Level Google-Proof Q&A으로 생물학, 물리학, 화학 전문가들이 구글 검색(Google-Proof)으로도 정답을 쉽게 찾을 수 없는 고난도 문제다.(-D는 Diamond로 매우 어려운 문제로 구성된 서브셋이다.) 인간이 쉽게 검증하기 어려운 과학 문제를 AI가 어떻게 다루는지 보기 위한 평가에 가깝다. 이런 벤치마크를 구상하고 실제로 전문가를 동원하여 만들었다는 점은 AI 생태계에 매우 큰 기여를 한다. 다만 이 점수를 곧바로 "AI의 과학 역량"처럼 해석할 수 있을까?

GPQA-D가 측정하는 모델의 역량이 "과학 실력"이라고 하기에는 비약이 크다. 특정한 조건에서 고난도 과학 객관식 문제를 맞히는 능력이다. 이 차이는 생각보다 크다. 무언가를 잘한다고 이야기하는 것은 생각보다 정의하기 어려운 일이다. 예시로 과학을 잘한다는 것은 무엇일까? "과학"은 단순히 정답 하나를 고르는 일이 아니라, 문제를 정의하고, 가설을 세우고, 실험과 계산을 설계하며, 데이터를 해석하여, 자기 결론이 어디서 깨질 수 있는지 확인하는 과정 등을 수반한다. 반면 객관식 벤치마크는 이 긴 과정을 대부분 접어둔 채 마지막 선택만 기록한다. 모델이 답을 실제로 구성했는지, 보기 중 가장 그럴듯한 것을 골랐는지, 일부 단서로 소거법을 썼는지, 아니면 불확실한 상태에서 운 좋게 맞혔는지는 같은 정답률 안에 섞인다. 우리가 재고 싶은 것은 "과학적 능력"인데, 실제 시험이 재는 것은 "주어진 보기 안에서의 정답 선택 능력"에 더 가깝다.

contamination 문제도 있다. 공개된 벤치마크는 시간이 지나면 순수한 시험지로 남아 있기 어렵다. 원문이 그대로 학습 데이터에 들어가는 경우만 문제가 아니다. 문제 해설, 번역, 변형 문제, 토론 글, 다른 모델이 만든 풀이 데이터처럼 우회 경로는 많다. 단순히 문자열이 겹치는지 검사한다고 해서 오염을 다 잡을 수 있는 것도 아니다. 그러면 높은 점수는 두 가지 가능성을 동시에 품는다. 모델이 정말 더 깊은 과학 추론을 하게 되었을 수도 있고, 그 벤치마크류 문제의 문법에 더 익숙해졌을 수도 있다. 그렇기에 단순히 "지표"로 비교할 수 없다.

점진적으로 벤치맥싱/체리피킹 등의 무의미한 지표 우위를 위한 벤치마크 자체가 모델 개발의 목표가 되면, 우리는 일반화 능력과 벤치마크 적응 능력을 구분하기 더 어려워진다. 물론 이 글이 주장하고 싶은게 GPQA가 나쁜 지표라는 뜻은 아니다. (실제로 약간의 오염이 있을지언정 GPQA-D는 아직까진 괜찮은 프록시 중 하나다) 결론은 지표를 복합적으로 해석하며 이해하는 게 중요하다고 이야기하고 싶다. 심지어 인간은 단순히 AI 뿐만이 아니라 "지능"을 측정하는 것은 모두 인간이 만든 기준이었으며 본질을 측정할 수 없기에 항상 프록시로 측정되어 왔다. 결론적으로 AI를 벤치마크로 비교하기 위해 단일 점수가 아니라 여러 벤치마크의 trade-off, 비공개 신규 문항 여부, 장기 수행 능력, 오류 유형 분석 등을 함께 보는 구조에 대해 이해하는 것이 중요하다는 당연한 이야기를 쓰고 싶어 이렇게 글을 써보았다.

그리고 마지막 사견으로 AI가 인간보다 똑똑해지는 순간이 오겠지만 그렇다 하여 벤치마크가 좋다는 것에 대한 판단에 있어 단순히 AI-Eval/LLM-Eval은 믿을 수 없다고 생각한다. 이후의 질문은 AI가 벤치마크를 설정하고 자가 발전하는 미래에서 "AI를 통한 기하급수적 발전은 과연 모두가 바라는 미래인가"와 같은 생각으로 이어지는데 이는 언젠가 글로 남겨봐야겠다.