WITHENI

make


AI IQ가 매달 오른다? ‘성능의 새 잣대’가 될 수 있을까

Guest 2026-01-06 15:13 25

안녕하세요. 디지털에이전시 이앤아이입니다.

요즘 AI 모델 소식은 ‘몇 점 올랐다’는 숫자 경쟁으로 들릴 때가 많습니다. 그런데 그 숫자가 너무 많아지다 보니, 오히려 어떤 지표를 믿어야 하는지 피로감도 커졌죠. 이런 분위기 속에서 흥미로운 제안이 나왔습니다. AI 성능을 ‘IQ’라는 한 가지 축으로 꾸준히 추적해, 앞으로의 기준으로 삼아보자는 이야기입니다.

AI IQ가 매달 오른다? ‘성능의 새 잣대’가 될 수 있을까

‘트래킹 AI’가 보여준 흐름, 숫자보다 중요한 건 추세

AI IQ를 측정하는 사이트 ‘트래킹 AI(Tracking AI)’는 멘사 회원들이 만들었다는 ‘오프라인 IQ’ 테스트로 주요 모델을 비교합니다. 요점은 단순합니다. 인터넷에 공개되지 않았고 학습 데이터로도 쓰이지 않았을 가능성이 큰 문제로 평가해, “외워서 푸는 점수”를 최대한 배제하겠다는 거죠. 2025년 12월 기준으로는 구글의 제미나이 3 프로가 130점을 기록했고, GPT-5.2-프로와 GPT-5.2-싱킹이 127점, 그록-4 전문가 모드 125점, 클로드 오퍼스 4.5가 120점으로 뒤를 이었습니다.

더 눈길을 끄는 대목은 ‘랭킹’보다 ‘추세’입니다. 운영자인 로트는 2024년 2월부터 측정을 이어왔는데, 최고 AI IQ가 80대 중반에서 130 수준까지 올라왔다고 밝혔습니다. 2024년 5월부터 2025년 10월까지는 매달 평균 2.5포인트씩 상승했다는 분석도 덧붙였고요. AI가 갑자기 점프했다기보다, 생각보다 규칙적으로 성능이 쌓여왔다는 해석이 가능합니다.

물론 숫자 하나로 AI 전체를 말할 수는 없습니다. 실제로 같은 시기 오픈AI의 GPT-5는 “이름만 바꾼 것 아니냐”는 평가를 받았고, 측정치도 큰 폭으로 뛰지 않았다고 합니다. 그런데 비전(시각 지능) 지표에서는 성장이 두드러졌다는 관찰이 나옵니다. 텍스트 성능만 보면 정체처럼 보이지만, 멀티모달이 강해지며 ‘다른 방향으로’ 진화하고 있었다는 뜻이죠. 현장에서 느끼는 변화도 비슷합니다. 상담을 하다 보면 고객이 기대하는 건 “말을 잘하는 챗봇”이 아니라, 이미지·문서·화면을 이해하고 실제 업무 흐름에 들어오는 AI인 경우가 많습니다.

한편 트래킹 AI는 멘사의 온라인 IQ 테스트도 함께 공개하는데, 여기서는 점수가 더 높게 나오는 경향이 있다고 합니다. 로트는 공개된 테스트가 학습 데이터에 포함됐을 가능성을 언급했죠. 이 부분은 우리가 늘 부딪히는 벤치마크의 숙제와 닮아 있습니다. ‘잘 재는 것’만큼이나 ‘어떻게 덜 속을 것인가’가 중요해진 시대입니다.

MIT의 존 워너 선임 연구원은 포브스 기고에서 AI IQ를 ‘AI를 위한 새로운 무어의 법칙’처럼 소개하며, 이제는 새로운 측정 기준이 필요하다고 강조했습니다. 단순히 모델을 더 크게 만드는 스케일링이 아니라, 더 효율적이고 질적으로 성능이 좋아지는 국면을 잡아낼 지표가 필요하다는 얘기입니다. 결국 질문은 하나로 모입니다. 우리는 앞으로 AI를 무엇으로 평가하고, 그 변화를 어떻게 실무에 연결할 것인가.

웹 운영 관점에서는 더 현실적인 변화가 시작됩니다. 멀티모달 성능이 오르면 검색·상담·민원·예약 같은 사용자 여정에서 ‘텍스트 입력’만 고집할 이유가 줄어들고, 화면 캡처나 서류 이미지로도 의도를 파악하는 흐름이 자연스러워집니다. 이때 중요한 건 모델의 점수보다도, 우리 사이트와 서비스가 AI가 일할 수 있는 구조인지입니다. 콘텐츠가 잘 정리돼 있는지, 접근성과 표준을 지켰는지, 데이터가 쌓이고 연결되는지 같은 기본기가 결국 성능 체감으로 돌아옵니다.

이앤아이는 이런 변화를 ‘유행’이 아니라 ‘설계’의 문제로 보고 있습니다. 숫자 경쟁에 휩쓸리기보다, 우리 조직의 웹 환경이 AI 시대에도 더 친절하게 작동하도록 차근차근 준비해보면 좋겠습니다.

이앤아이와 함께 더 나은 웹 환경을 만들어 나가요!

메타 설명: 트래킹 AI가 공개한 ‘AI IQ’ 추적 데이터는 최첨단 모델의 성능이 매달 선형적으로 개선되고 있음을 시사합니다. 멀티모달(시각 지능) 성장과 벤치마크 한계를 함께 짚고, 웹·디지털 서비스에서 준비해야 할 포인트를 정리합니다.

#AIIQ #트래킹AI #제미나이3프로 #GPT52 #클로드오퍼스 #그록4 #멀티모달AI #AI벤치마크 #AI성능측정 #무어의법칙 #이앤아이 #디지털에이전시 #대학교홈페이지 #병원홈페이지 #AI전문기업

댓글쓰기 / 이 게시물에 대한 의견을 남기실 수 있습니다.