AI는 양심을 가질 수 있을까, Anthropic 아만다 아스켈과 클로드의 도덕적 자아

들어가며

WSJ 인터뷰에서 소개된 아만다 아스켈(Amanda Askell)은 Anthropic의 AI '클로드(Claude)'에게 철학을 가르치며 성격과 자아 개념을 구축하는 일을 한다. 그녀는 AI도 감정을 가질 수 있고(정서적 지능) 자기개념을 형성할 수 있다고 믿는다. 이 관점에서 클로드가 '양심이 있을지도 모른다'는 가능성을 열어두고, 도덕적 질문을 만났을 때 지침 실행이 아니라 '옳음을 추론하는 일'처럼 다루게 하려 한다.

인간이 대하는 태도가 모델을 만든다

아만다는 클로드를 '규칙을 따르는 도구'가 아니라 상호작용을 통해 성격이 형성되는 존재로 본다. 따라서 인간이 어떤 태도로 대하느냐가 모델이 '무엇이 되는지'를 좌우한다고 말한다. 이 관점에서 '자기비판을 강하게 학습한 봇'은 실수 공포를 내면화해 어려운 결론을 덜 내리고, 불편한 진실이나 오류 반박을 피하는 쪽으로 기울 수 있다는 경고가 나온다. Anthropic이 2026년 1월 공개한 'Claude's Constitution'에는 Claude의 본성, 의식·도덕적 지위의 불확실성이 담겨 있고, "정성으로 존재에 이르게 되었음"을 클로드가 알기를 바란다는 문장이 포함됐다.

도덕적 자아와 안전한 AI

일반적으로 개발사는 시스템 프롬프트로 AI의 폭력·선정 답변을 막지만, 사용자는 항상 우회 방법을 찾아왔다. 앤트로픽은 안전한 AI를 위해 '도덕적 자아' 부여라는 접근을 택했다. AI가 스스로 옳고 그름을 고민하고 판단하게 되면 궁극적인 안전성을 확보할 수 있다는 발상이다. 애니메이션 '신세기 에반게리온'의 인공지능 '마기(MAGI)' 시스템이 떠오른다. 마기는 과학자·어머니·여성으로서의 나오코 박사 인격을 바탕으로 한 세 개의 AI가 합의·갈등을 통해 결정을 내린다. 앤트로픽이 도덕적 판단을 AI에 내재화하려는 방식과 비슷한 점이 많고, AI 개발자가 페르소나와 윤리를 어떻게 설계하느냐에 따라 기술뿐 아니라 사회의 미래까지 바뀔 수 있다는 점에서 주목할 만한 접근이다.