WITHENI

make


AI IQ가 매달 2.5점씩 오른다? ‘트래킹 AI’가 던진 새로운 성능 기준

Guest 2026-01-06 09:30 29

안녕하세요. 디지털에이전시 이앤아이입니다.

AI 성능 이야기를 하다 보면 어느 순간 숫자에 지치곤 합니다. 벤치마크 점수는 복잡하고, 항목도 많고, 어떤 건 학습 데이터에 섞였는지 아닌지도 애매하죠. 그런데 최근 ‘AI IQ’라는 꽤 직관적인 지표가 다시 주목을 받았습니다. AI의 지능을 사람의 IQ 테스트처럼 재보자는 시도인데, 의외로 이 숫자가 꾸준히, 그리고 꽤 선형적으로 오른다는 주장까지 나왔습니다.

AI IQ가 매달 2.5점씩 오른다? ‘트래킹 AI’가 던진 새로운 성능 기준

AI IQ가 오르는 속도, 그리고 ‘오프라인 테스트’가 중요한 이유

AI IQ를 측정하는 사이트 ‘트래킹 AI(Tracking AI)’에 따르면 12월 16일 기준 최고 점수 모델은 구글 ‘제미나이 3 프로’로 IQ 130을 기록했습니다. 그 뒤를 ‘GPT-5.2-프로’와 ‘GPT-5.2-싱킹’(각 127), ‘그록-4’ 전문가 모드(125), ‘클로드 오퍼스 4.5’(120) 등이 따라붙었습니다. 숫자만 보면 “이게 정말 의미가 있나?” 싶은데, 트래킹 AI가 강조하는 포인트는 테스트 방식입니다.

이들이 사용하는 ‘오프라인 IQ’ 테스트는 멘사 회원들이 만들었고, 인터넷에 공개된 적이 없으며 AI 학습 데이터로도 활용된 적이 없다고 알려져 있습니다. 요즘 벤치마크가 자주 겪는 ‘문제 유출’과 ‘학습 오염’ 논란을 피해가려는 장치인 셈이죠. 같은 사이트에서 제공하는 멘사 온라인 테스트 결과가 전반적으로 10점 이상 더 높게 나오는 것도 이런 맥락에서 이해할 수 있습니다. 예컨대 GPT-5.2 프로가 온라인에서는 147을 기록했는데, 운영자는 테스트 데이터가 학습에 포함됐을 가능성을 언급했습니다. “점수가 높다”보다 “어떤 시험을 봤는가”가 더 중요해진 시대입니다.

더 흥미로운 건 성장 속도입니다. 운영자 로트의 기록에 따르면 2024년 2월부터 2025년 10월까지 최첨단 모델의 최고 IQ는 80대 중반에서 약 130까지 올랐고, 특히 2024년 5월 이후에는 매달 평균 2.5점씩 꾸준히 상승했습니다. 들쭉날쭉한 ‘대박 업데이트’가 아니라, 매달 일정한 폭으로 성능이 올라가는 흐름이 관측된다는 이야기죠.

이 과정에서 마케팅과 실제 개선의 간극도 드러납니다. 로트는 오픈AI의 ‘GPT-5’가 출시 당시 이름값에 비해 점프 폭이 작았다고 평했는데, 직전 최고 모델 대비 오프라인 IQ가 5점 정도 오르는 데 그쳤다는 것입니다. 게다가 이후 측정에서 점수가 더 내려간 구간도 있었는데, 컴퓨팅 자원 조정 같은 운영 이슈가 있었을 수 있다고 봤습니다. 사용자 입장에서는 “요즘 AI 발전 멈춘 거 아니야?”라고 착각하기 쉬운 대목입니다.

하지만 반전은 ‘시각 지능(비전 IQ)’에서 나옵니다. 트래킹 AI는 멀티모달 능력을 별도로 측정하는데, 이 점수가 2024년 2월 60에서 2025년 10월 105까지 뛰었다고 합니다. 105면 인간 평균치(104)와 비슷한 수준이죠. 초기에는 시각 이해가 너무 약해 문제를 텍스트로 풀어 설명해야 할 정도였다고 하는데, 1년 사이에 상황이 급변한 겁니다. 로트는 GPT-5의 핵심 개선도 텍스트보다 비전 영역에서 컸다고 짚습니다. 요즘 제품 기획에서 이미지·문서·화면을 한 번에 다루는 기능이 빠르게 늘어나는 이유와도 연결됩니다.

이 흐름이 업계에서 더 커진 배경에는 ‘새로운 기준’에 대한 갈증도 있습니다. MIT 연구원 존 워너는 포브스를 통해 AI IQ를 ‘AI를 위한 새로운 무어의 법칙’에 비유했습니다. 트랜지스터 수처럼 AI IQ도 일정한 패턴으로 오르면, 투자나 제품 전략이 예측 가능한 궤도 위에 올라설 수 있다는 기대죠. 물론 IQ가 모든 능력을 대변하진 않습니다. 실제 현업에서는 정답 맞히기보다 맥락 이해, 데이터 관리, 보안, 비용, 장애 대응이 더 중요할 때도 많습니다. 그럼에도 불구하고, “오염이 적고, 비교가 쉬운 숫자”를 찾으려는 시도가 계속되는 건 자연스러운 흐름입니다.

우리에게 중요한 질문은 이것일지도 모릅니다. AI가 ‘얼마나 똑똑해졌나’보다, 그 똑똑함이 웹과 서비스에서 어떤 사용자 경험으로 바뀌느냐입니다. 예를 들어 고객센터 챗봇은 더 적은 대화로 문제를 해결해야 하고, 대학·병원·공공기관의 웹사이트는 정보 탐색이 쉬워야 하며, 기업 업무 시스템은 문서와 화면을 이해하는 멀티모달 기능을 안전하게 붙일 준비가 되어 있어야 하죠. 점수는 참고자료일 뿐, 실제 서비스에서는 설계와 운영이 성능을 완성합니다.

AI IQ가 계속 오른다면, 앞으로 ‘웹 환경’도 그 속도를 따라가야 합니다. 콘텐츠는 더 구조화되고, 검색은 더 대화형이 되며, 접근성·보안·개인정보 기준도 더 엄격하게 적용될 가능성이 큽니다. 숫자가 알려주는 건 단순합니다. 준비할 시간이 생각보다 길지 않을 수 있다는 것.

메타 설명: 트래킹 AI의 오프라인 IQ 테스트를 통해 본 최신 AI 모델의 IQ 순위와 월평균 2.5점 상승 추세, 멀티모달(시각 지능) 개선 포인트를 쉽게 정리하고 웹·디지털 서비스 전략에 주는 시사점을 소개합니다.

#AIIQ #트래킹AI #오프라인IQ테스트 #AI벤치마크 #제미나이3프로 #GPT52 #클로드오퍼스 #그록4 #멀티모달AI #비전IQ #이앤아이 #디지털에이전시 #대학교홈페이지 #병원홈페이지 #AI전문기업

이앤아이와 함께 더 나은 웹 환경을 만들어 나가요!

댓글쓰기 / 이 게시물에 대한 의견을 남기실 수 있습니다.