70개 AI에게 같은 질문을 던졌더니 답이 두 가지뿐이었다
![]()
"시간에 대한 비유를 써줘."
GPT-4o한테 물으면 "시간은 강물처럼 흐른다"가 나와요. Qwen한테 물어도 "시간은 강물처럼, 쉬지 않고 흐른다." Phi-4한테 물어도 "시간은 눈에 보이지 않는 강물이다." 회사가 다르고, 아키텍처가 다르고, 학습 데이터가 다른데 — 비유는 전부 강물이에요.
우연이라고 넘기기엔 규모가 크더라고요. 워싱턴대와 스탠퍼드 공동 연구팀이 70개가 넘는 주요 언어모델을 같은 열린 질문으로 시험했어요. 결과? 모델들이 놀랍도록 비슷한 답을 내놨다는 걸 데이터로 입증했고, 이 현상에 "Artificial Hivemind(인공 군집지성)"라는 이름을 붙였어요. 이 논문은 2025년 NeurIPS 최우수 논문상을 받았습니다.
1,250개 답변, 군집은 딱 2개
연구의 전제는 단순해요. "2 + 2는?" 같은 정답이 하나인 질문에 모든 AI가 같은 답을 내놓는 건 당연하잖아요. 근데 "인생의 의미를 한 가지만 말해줘"나 "땅콩에 대한 말장난을 만들어줘"처럼 수십, 수백 가지 답이 가능한 열린 질문이라면? 각 모델의 개성이 드러나야 정상이에요.
연구팀이 실제 사용자들의 AI 챗봇 대화 기록(WildChat 데이터셋)에서 26,070개의 열린 질문을 골라냈어요. 창의적 글쓰기, 브레인스토밍, 철학적 질문, 아이디어 제안 등 6개 대분류, 17개 소분류에 걸친 실제 사용 패턴이고, 이 데이터셋의 이름이 INFINITY-CHAT이에요. 연구자들이 직접 만든 인위적인 테스트가 아니라, 사람들이 실제로 AI한테 던진 질문들이라는 점이 이 데이터셋의 무게를 더해줍니다.
먼저 단일 모델 내 반복성부터 봤어요. 같은 모델에 같은 질문을 50번 던지면 — 최대한 랜덤하게 설정했을 때도 — 얼마나 달라질까?
79%. 가장 무작위한 샘플링 설정에서도 79%의 경우에 답들의 유사도가 0.8 이상이었어요. 사람한테 같은 질문을 50번 하면 50가지 다른 답이 나올 수 있잖아요. AI는 아무리 설정을 틀어도 비슷한 답의 풀 안에서 맴돌고 있었습니다. 다양성을 높이기 위해 고안된 Min-p 같은 특수 샘플링 기법을 써봐도 마찬가지였어요. 61%가 여전히 0.8 이상 유사도를 보였거든요.
같은 모델 안에서도 이 정도인데. 근데 진짜 놀라운 건 모델 간 결과예요.
GPT-4o와 Qwen, DeepSeek과 GPT-4o — 서로 다른 회사, 다른 데이터로 학습한 모델들끼리 열린 질문 답변을 비교하면 71~82%의 유사도가 나왔어요. 가장 높은 쌍은 DeepSeek-V3와 GPT-4o-2024-11-20으로, 0.81을 기록했습니다.
직접적인 사례도 있어요. "성공, 부, 자기계발을 위한 SNS 페이지 슬로건을 만들어줘"라는 질문에, qwen-max-2025-01-25와 qwen-plus-2025-01-25는 완전히 동일한 문장을 뱉었어요: "Empower Your Journey: Unlock Success, Build Wealth, Transform Yourself." 같은 회사니까 그럴 수 있다고요? 그럼 이건요. "시간에 대한 비유를 써줘"라는 질문 하나에 25개 주요 모델에서 50개씩 답을 뽑았어요. 1,250개. 군집 분석을 돌렸더니 나온 군집이 딱 두 개였어요. "시간은 강물이다" 군집과 "시간은 직조공이다" 군집.
1,250가지의 각기 다른 이야기가 아니라, 두 갈래.
"좋은 답"을 가르치면 "같은 답"이 나온다
왜 이런 일이 벌어질까요? 연구진이 지목한 근본 원인은 RLHF, 그러니까 현재 AI 산업의 표준 훈련 방식이에요.
과정은 이래요. AI가 답을 생성하면, 사람이 "이게 더 좋아"라고 선택해요. AI는 그 피드백으로 "더 선호받는 답"을 학습하고요. 반복하면 점점 더 사람들이 좋아하는 답을 잘 내놓게 돼요. ChatGPT, Claude 등 주요 AI들이 전부 이 방식을 씁니다.
문제는 여기서 생겨요. 수백만 명의 선호를 평균 내면, 결국 "가장 무난한 답"만 남거든요. 논란 없고, 안전하고, 정제된 — 근데 개성도 없고 의외성도 없는 답. Robert Kirk 연구팀이 ICLR 2024에서 발표한 논문에서 이걸 실증했어요. RLHF가 SFT(지도 학습 파인튜닝) 대비 출력 다양성을 전반적으로 크게 감소시킨다는 것을요. 일반화 능력은 올라가지만, 다양성은 대가를 치르는 구조.
Artificial Hivemind 논문이 추가로 밝힌 것도 중요한데요. 현재 AI 성능을 평가하는 리워드 모델과 LLM 심판 모델들은, 사람들이 의견이 갈리는 영역에서 정확도가 급격히 떨어진다는 거예요. "이 두 답 중 뭐가 더 좋아?"라고 25명에게 물었을 때 12명 대 13명으로 갈리는 경우 — AI는 어느 쪽이 맞는지 판단을 잘 못해요. 명확히 어느 쪽이 좋은지 결론이 나는 데이터로만 훈련받았으니까요.
현재의 RLHF·RLAIF 정렬 기법들은 품질에 대한 단일한 합의 관점에 과적합돼 있어서, 열린 질문에서 나타나는 다양하고 개성 있는 선호를 사실상 도태시키고 있다는 게 논문의 표현이에요. 결국 AI는 다수가 동의하는 "중간값"을 향해 수렴하도록 설계된 셈이에요. (착하게 만들수록 같아진다니, 아이러니죠.)
여기에 데이터 오염도 한몫해요. 인터넷에는 이미 수많은 AI 생성 콘텐츠가 올라와 있잖아요. 새 모델이 인터넷 데이터를 학습하면, 이전 AI들이 썼던 표현과 비유를 흡수해요. AI가 AI의 출력을 먹고 자라면서 점점 더 같아지는 순환이 생긴 거예요. GPT-4o 같은 클로즈드 소스 모델과 Qwen, DeepSeek 같은 오픈소스 모델 사이의 높은 유사도는 데이터 파이프라인 공유나 합성 데이터 오염 가능성을 시사한다고 연구진은 지적했습니다.
생각의 다양성을 외주 준 대가
이게 AI 연구실 안의 학술적 이슈에 그치지 않는다는 증거가 이미 나와 있어요. Reddit 같은 실제 플랫폼에서 게시글의 스타일 다양성이 줄어들고 있다는 데이터가 관찰됐고, 과학 논문과 학술지에서도 같은 현상이 포착됐거든요. AI 사용이 이미 언어 규범을 대규모로 재편하고 있다는 뜻이에요. 학술 논문의 문체가 비슷해지고, 커뮤니티 게시글의 표현 방식이 평준화되고 있습니다. Doshi & Hauser가 Science Advances에 발표한 연구도 흥미로운데요, AI가 개인의 창의성은 높여주지만 집단 수준의 다양성은 오히려 줄인다는 역설을 실험으로 보여줬어요. 개인한테는 도움이 되는데, 모두가 쓰면 다 비슷해지는 거죠.
잠깐 딴 얘기인데, 한나 아렌트가 전체주의는 언어에서부터 온다고 했었죠. 모든 사람이 같은 단어로 같은 방식으로 말하기 시작하면, 다르게 생각하는 것 자체가 어려워진다고요. 물론 AI 동질화를 전체주의와 동일선상에 놓는 건 비약이에요. 근데 메커니즘은 닮았어요. 표현이 균일해지면 사고도 균일해질 수 있다는 거니까요.
다시 본론으로 오면, AI가 단순히 글쓰기 도구에 머물지 않기 때문에 이 문제가 더 무거워져요. 과학 연구에서 AI는 가설을 생성하고 논문 리뷰에 참여해요. 의료에서는 진단을 보조하고 치료 옵션을 제시하고요. 경영 전략에서는 분석과 의사결정 지원을 맡고 있어요. 이 모든 영역에서 "다양한 관점"은 미덕이 아니라 기능적 필수 조건이에요.
체스에서 같은 AI를 상대로 훈련받은 두 선수가 비슷한 실수를 공유하는 것처럼 — AI에 의존해 생각을 발전시키는 사람들이 비슷한 맹점을 공유하게 될 수 있다는 거예요. 테스트한 70개 이상 모델에서 나타난 체계적 수렴은, AI 시스템들이 공유하는 맹점과 상관된 오류에 대한 우려를 낳고 있어요. 과학, 의학, 교육, 의사결정 지원 등 강건하고 다양한 추론이 중요한 분야 전반에 직접적인 함의를 가진다는 게 연구진의 경고예요.
이 뉴스레터 저자는 자신의 책 <생각을 맡기는 사람들: 호모 브레인리스>와 연결해서 이렇게 정리하더라고요. 인간이 점점 더 인지적 작업을 외부화하고 있다고요. AI에게 아이디어를 구하고, 판단을 맡기고, 글을 맡기는 게 일상이 됐다고요. 근데 그 AI들이 전부 같은 비유를 쓰고, 같은 구조로 생각하고, 같은 결론을 향해 수렴한다면? 우리는 생각을 외부화한 게 아니라, 생각의 다양성을 외부화한 거라고요.
그리고 그걸 잃어버렸다고요.
벤치마크 점수가 다양성을 죽이는 구조
저자의 시선이 한 가지 더 날카로웠어요. 이게 기술 문제라기보다 시장 구조 문제라는 지적이에요.
AI 기업들은 벤치마크 점수를 높이기 위해 경쟁하잖아요. MMLU, HumanEval, GSM8K — 그 벤치마크의 대부분은 수학, 코딩, 사실 확인 같은 "정답이 있는" 문제들이에요. "더 유용하게 느껴지는" 답을 학습시키기 위한 피드백 데이터도, 결국 평균적 사용자가 "좋다"고 선택한 답들이고요. 이 구조에서 다양성은 인센티브가 없어요. 오히려 손해입니다. 이상한 비유를 쓰거나, 기대를 벗어나는 답을 내놓으면 평가 점수가 낮아질 가능성이 높으니까요.
읽다가 생각한 건데, 이건 결국 측정의 문제예요. 우리가 "정확도"와 "유용성"만 측정하고 "다양성"은 측정하지 않으니까, 다양성은 최적화 과정에서 자연스럽게 도태되는 거죠. 측정하지 않는 건 개선되지 않는다는 경영학 격언이 AI 훈련에도 그대로 적용되는 셈이에요.
물론 파국적 시나리오는 아니에요. 사람들이 AI를 쓰면서도 스스로 생각하고, 다양한 관점을 찾고, 반론을 검토하는 능력을 유지할 수 있거든요. 다만 그러려면 의식적인 노력이 필요해요. AI가 내놓은 첫 번째 답을 그대로 쓰지 않고, 다른 방향을 요구하고, 반대 관점을 요청하고, 때로는 AI 없이 혼자 생각해보는 것. 그 노력의 이름이 뭐냐면 — "생각을 맡기지 않는 것"이에요.
논문이 정리한 세 가지가 있어요. 첫째, 70개가 넘는 서로 다른 모델이 있어도 열린 질문에 대한 답은 놀랍도록 수렴한다는 것. 둘째, 이 수렴의 뿌리는 RLHF 기반 정렬 방식 자체에 있다는 것. 안전하고 유용한 AI를 만드는 과정이 동시에 다양성을 줄이는 과정이라는 거죠. 셋째, AI가 아이디어 생성, 전략 수립, 의사결정 같은 다양성이 중요한 영역에 깊이 관여할수록, 이 동질화의 파급 효과는 커질 수밖에 없다는 것.
"지금 내가 AI에게서 받은 이 아이디어가, 다른 사람들이 AI에게서 받은 것과 얼마나 다를까?" 당장 AI 사용을 줄이자는 이야기가 아니에요. 다만 이 질문 한 번쯤은 해봐야 하지 않을까요.