안녕하세요. 디지털에이전시 이앤아이입니다.
요즘 대형언어모델(LLM) 경쟁은 “더 크게, 더 많이”에서 “더 똑똑하게, 더 효율적으로”로 중심축이 옮겨가고 있습니다. 딥시크(DeepSeek)가 최근 공개한 ‘엔그램(Engram)’ 프레임워크도 이런 흐름을 상징적으로 보여주는데요. 핵심은 모델이 매번 어렵게 추론해서 답을 만들기 전에, 자주 쓰는 지식은 ‘기억 저장소’에서 곧장 꺼내 쓰게 하자는 발상입니다.

딥시크가 깃허브에 공개한 논문은 MoE(전문가 혼합) 기반 LLM에 ‘조건부 메모리(Conditional Memory)’라는 축을 더해 성능과 비용을 동시에 잡았다고 설명합니다. 트랜스포머 구조는 원래 “지식 조회”에 최적화되어 있지 않아서, 단순한 사실 하나를 확인하는 데도 어텐션과 매개변수가 대거 동원됩니다. 예를 들어 ‘알렉산더’ 다음에 ‘대왕’이 올 확률을 계산하려고 해도, 모델은 매번 복잡한 연산을 반복해야 하죠. 엔그램은 이런 ‘뻔한 사실’과 ‘반복되는 문맥’을 전용 임베딩 테이블에 저장해두고, 필요할 때 직접 조회(Direct Lookup)로 꺼내 쓰는 방식입니다.
여기서 흥미로운 지점은 기존 KV 캐시와의 역할 분리입니다. KV 캐시는 대화 중에 계속 바뀌는 동적 메모리라면, 엔그램은 학습된 지식을 고정 형태로 저장하는 정적 메모리입니다. 즉 “대화 맥락을 잠깐 들고 있는 기억”과 “자주 쓰는 상식을 빠르게 꺼내는 기억”을 분리해 속도를 끌어올린 셈이죠. 실제로 연구진은 매개변수의 약 20~25%를 엔그램 메모리에 할당했을 때 효율이 가장 좋아지는 ‘U자형 확장 법칙’을 관측했다고 밝혔습니다. 무조건 메모리를 많이 붙인다고 좋은 게 아니라, 계산(MoE)과 기억(Engram)의 균형점이 있다는 이야기입니다.
벤치마크 결과도 인상적입니다. 270억 매개변수 모델에서 엔그램을 적용한 모델이 동일 크기 MoE 대비 MMLU, CMMLU 같은 지식 검색 성능이 각각 3.4%, 4% 개선됐고, 추론(BBH, ARC-챌린지), 코딩(HumanEval), 수학(MATH)에서도 향상을 보였습니다. 단순 암기성 확인을 엔그램이 처리해주니, 트랜스포머의 핵심 레이어가 더 복잡한 추론에 집중하면서 ‘유효 깊이’가 늘어난 효과라는 설명입니다. 긴 문서에서 정보 하나를 찾는 ‘건초더미 속 바늘(Needle In A Haystack)’ 테스트에서도 기존 84.2점에서 97점으로 크게 뛰었습니다.
이 변화는 서비스 관점에서도 시사점이 큽니다. 모델이 “어디에 뭐가 있는지”를 매번 계산하는 대신, 주소가 정해진 메모리에서 빠르게 가져올 수 있다면 응답 지연과 인프라 비용을 줄이기 쉬워집니다. 특히 지식성 질문이 많은 고객센터 챗봇, 대학·기관의 규정 안내, 병원의 예약·진료 안내처럼 반복 질의가 많은 도메인에서는 ‘추론을 덜 하고, 검색을 잘 하는’ 구조가 체감 품질을 좌우할 가능성이 큽니다. 앞으로 딥시크-V4 같은 플래그십 모델이 이런 설계를 얼마나 적극적으로 반영할지도 관전 포인트입니다.
메타 설명: 딥시크가 공개한 엔그램(Engram) 프레임워크는 LLM에 조건부 메모리를 추가해 단순 지식은 직접 조회로 처리하고, 모델은 고차원 추론에 집중하도록 만들어 성능과 비용 효율을 함께 개선하는 접근이다.
이앤아이와 함께 더 나은 웹 환경을 만들어 나가요!
#LLM #딥시크 #Engram #조건부메모리 #MoE #트랜스포머 #AI인프라 #지식검색 #긴컨텍스트 #AI모델최적화 #이앤아이 #디지털에이전시 #대학교홈페이지 #병원홈페이지 #AI전문기업