WITHENI

make


AI의 ‘감정 판단’은 어디서 왔을까: 합성 데이터 프레임워크 DefMoN이 던진 질문

최고관리자 2026-01-19 17:42 6

안녕하세요. 디지털에이전시 이앤아이입니다.

요즘 고객 상담 기록, 리뷰, 게시글을 분석해 ‘사용자 감정’을 읽어내는 AI 활용이 빠르게 늘고 있습니다. 문제는 결과가 그럴듯할수록 더 불안해진다는 점입니다. 이 사용자는 왜 ‘분노’로 분류됐을까, 어떤 문장이 ‘불안’의 근거였을까, 데이터는 어떤 기준으로 라벨링됐을까. 정서 분석은 특히 해석이 민감한 영역이라 “그냥 모델이 그렇게 말했어요”로는 설명이 부족합니다.

프랑스 라이언 리서치 연구소(RRI) 김상백 박사팀이 발표한 합성 데이터 생성 프레임워크 ‘DefMoN’은 이 지점을 정면으로 다룹니다. 핵심은 AI가 정서·심리 판단을 내릴 때의 근거를 ‘심리학 이론 기반의 구조’로 남기고, 그 구조대로 합성 데이터를 만들어 학습과 검증을 가능하게 하자는 접근입니다. 연구진은 바이런트(Vaillant)의 방어기제 체계와 플루칙(Plutchik)의 동기 정서 이론을 토대로, 판단 가이드라인을 명확히 구분해 결과를 추적하고 재현할 수 있게 설계했다고 설명합니다.



DefMoN이 흥미로운 이유는 합성 데이터의 품질관리(QC)를 전면에 내세웠다는 점입니다. 심리학적 개념에서 벗어나는 ‘구성개념 이탈’을 막고, 특정 단어만 보고 정답을 맞히는 ‘라벨 누출’도 방지하도록 절차를 넣었습니다. 또한 실험 기록과 스크립트, 시드 번호까지 공개해 “어떻게 만들었는지”를 따라갈 수 있게 한 것도 눈에 띕니다. 정서 분석처럼 설명가능성이 중요한 분야에서는 이런 투명성이 곧 신뢰의 출발점이 됩니다.

성과도 인상적입니다. 한국어와 영어 합성 데이터에서 Macro F1이 각각 0.96, 0.97로 높은 수준을 보였고, 영어로만 학습한 뒤 한국어에 적용하는 제로샷 환경에서도 0.81을 기록했습니다. 언어가 달라도 심리 논리 구조를 어느 정도 포착했다는 의미로 해석할 수 있죠. 또 합성 데이터만으로 학습한 AI가 실제 사람 글을 분석했을 때 0.62, 여기에 클래스당 64개 수준의 실제 데이터만 더해도 0.76까지 오른 결과는, 합성 데이터가 ‘현장 적응을 돕는 바닥’이 될 수 있음을 시사합니다.

기업이나 기관 입장에서는 이 흐름이 실무에 꽤 직접적입니다. 상담센터 VOC 분석, 커뮤니티 모니터링, 내부 구성원 정서 케어, 안전·컴플라이언스 리스크 감지처럼 “판단 근거를 요구받는 AI”가 늘고 있기 때문입니다. 앞으로는 모델 성능만큼이나 데이터 생성·라벨링의 근거, 재현 가능성, 검증 절차가 구매·도입 기준이 될 가능성이 큽니다. 정서 분석을 도입하거나 고도화하려는 조직이라면, DefMoN 같은 프레임워크가 제시하는 ‘설명 가능한 데이터 파이프라인’ 관점을 함께 챙겨볼 만합니다.

메타 설명: 심리학 이론 기반 합성 데이터 프레임워크 DefMoN이 정서·심리 분석 AI의 판단 근거를 추적·검증 가능하게 만드는 방법과 실무적 의미를 쉽게 정리합니다.

#DefMoN #합성데이터 #정서분석AI #설명가능AI #데이터라벨링 #품질관리QC #제로샷학습 #MacroF1 #AI신뢰성 #심리학기반AI #이앤아이 #디지털에이전시 #대학교홈페이지 #병원홈페이지 #AI전문기업
댓글쓰기 / 이 게시물에 대한 의견을 남기실 수 있습니다.