이앤아이 CMS 주메뉴
전체메뉴
WITHENI

최고관리자 2026-02-05 09:46 54
합법 판결과 별개로 남는 질문, ‘우리는 어떤 데이터로 AI를 키울 것인가’
안녕하세요. 디지털에이전시 이앤아이입니다.
생성형 AI 경쟁이 치열해질수록 ‘무엇을 먹고 자랐는지’가 기술만큼 중요한 이슈가 되고 있습니다. 최근 앤트로픽(Claude 운영사)이 2023~2024년경 중고책 수백만 권을 대량 구매해 잘라내고 스캔한 뒤 AI 학습에 활용한 ‘프로젝트 파나마’ 정황이 보도되며, 업계 안팎에서 논쟁이 다시 커졌습니다. 미국 법원은 중고책을 활용한 학습을 합법으로 판단했지만, “합법이면 끝인가”라는 질문은 오히려 더 선명해졌습니다.
프로젝트 파나마의 핵심은 단순합니다. 출판사나 작가의 사전 동의를 일일이 받기 어렵다고 보고, 이미 유통된 중고책을 대량 확보해 데이터로 전환하는 방식이죠. 알려진 내용에 따르면 외부업체를 통해 책을 유압식 절단기로 분리하고 페이지를 스캔해 학습 데이터로 만들었으며, 처리가 끝난 책은 재활용으로 넘겨졌습니다. 내부 문서에는 ‘전 세계 모든 책을 스캔’ 같은 강한 표현과 함께, 외부에 알려지지 않기를 바란다는 취지의 문구도 등장했다고 전해집니다. 기술 관점에서 보면 ‘양질의 문장’을 대규모로 확보하려는 의도가 뚜렷합니다. 인터넷 데이터만 먹고 큰 모델이 종종 거칠고 반복적인 표현을 내놓는다는 문제의식도 있었을 겁니다.

하지만 반발 역시 거셉니다. 출판·저작권 단체들은 “비밀리에 진행하려 했던 점 자체가 법적·윤리적 문제를 인식했다는 방증”이라고 비판합니다. 특히 책은 한 권 한 권이 창작자의 노동과 생계, 그리고 독자와의 계약(구매·대여라는 형태의 이용) 위에서 성립합니다. 중고책 구매가 ‘읽을 권리’까지는 보장해도, ‘대규모 복제·분해·학습’까지 자동으로 포함하는지에 대해선 사회적 합의가 부족하죠. 법원의 판단이 ‘새로운 창작을 위한 학습’이라는 비유를 들었지만, AI는 개인의 학습과 달리 산업적 규모로 재현·확장된다는 점에서 체감이 크게 다릅니다.
더 복잡한 지점은 앤트로픽이 중고책뿐 아니라 불법 유통 저작물(이른바 해적판 라이브러리)까지 학습에 활용했다는 의혹과 소송 이력입니다. 이 부분은 ‘중고책 학습의 합법성’과는 별개의 층위에서 신뢰 문제로 이어집니다. 합법 판결이 일부를 정리해줘도, 데이터 수급 과정 전반의 투명성 요구는 더 강해질 수밖에 없습니다.
그렇다면 우리에게 남는 실무적 질문은 무엇일까요. 기업과 기관이 AI를 도입할 때 가장 먼저 점검해야 할 건 성능표만이 아니라, 데이터·저작권·보안·거버넌스입니다. 특히 웹사이트 콘텐츠 제작, 챗봇/검색형 AI, 문서 요약·자동화 같은 업무에서 외부 모델을 쓰거나 사내 모델을 학습한다면 “학습 데이터 출처가 명확한가, 권리 관계가 정리됐는가, 문제가 생겼을 때 책임은 어디로 가는가”를 계약과 정책으로 먼저 세워야 합니다. 기술이 빠르게 바뀌는 시기일수록, 운영의 기본기가 리스크를 줄입니다.
메타 설명: 앤트로픽의 ‘프로젝트 파나마’(중고책 대량 구매·절단·스캔 기반 AI 학습) 논란을 바탕으로, AI 학습 데이터의 합법성과 윤리, 그리고 기업·기관의 AI 도입 시 데이터 거버넌스 점검 포인트를 쉽게 정리했습니다.
이앤아이와 함께 더 나은 웹 환경을 만들어 나가요!
#앤트로픽 #클로드 #프로젝트파나마 #AI학습데이터 #저작권이슈 #중고책스캔 #생성형AI규제 #데이터거버넌스 #출판저작권 #AI윤리 #이앤아이 #디지털에이전시 #대학교홈페이지 #병원홈페이지 #AI전문기업