86,000명이 사람 글보다 AI 글을 골랐다 — 2026년 4월, 숫자로 보는 AI 현주소

뉴욕타임스가 86,000명한테 글 두 편을 보여줬어요. 같은 주제, 한쪽은 사람이 쓴 거고 한쪽은 AI가 쓴 건데, 누가 쓴 건지는 안 알려줬죠. 더 좋은 글을 고르라고 했더니 54%가 AI 쪽을 골랐어요. 압도적이냐고요? 아뇨. 근데 "사람이 쓴 글이 무조건 낫다"는 전제가 깨졌다는 건 꽤 다른 이야기예요.

2026년 AI 현주소

"AI 한번 써봤는데, 엉뚱한 답만 내놓더라." 주변에서 이런 말 아직도 들리잖아요. 1년 전이라면 맞는 말이었을 수도 있어요. 근데 2026년 4월 기준, 숫자들이 말해주는 건 완전히 다른 풍경이에요.

100번 중 21번 틀리던 AI가 100번 중 1번도 안 틀린다

AI를 기피하는 가장 흔한 이유가 환각 문제잖아요. 그럴듯하게 거짓말하는 거. 한때는 진짜 심각했어요.

근데 Vectara의 요약 벤치마크 기준으로 최고 성능 모델의 환각률이 2021년 21.8%에서 2025년 0.7%로 떨어졌어요. 4년 만에 96% 감소. 100번 답변하면 21번 틀리던 AI가, 이제는 100번 중 1번도 채 안 틀리는 수준이 된 거예요. (물론 법률이나 의료 같은 전문 분야에서는 아직 환각률이 높아질 수 있어요.) 일상적인 업무 — 이메일 초안, 보고서 요약, 데이터 분석 — 에서는 환각 문제가 사실상 해결 단계에 접어든 셈이에요.

21.8%에서 0.7%. 이 숫자 하나만 놓고 봐도 "AI가 거짓말한다"는 건 이미 옛말이에요.

NYT 블라인드 테스트 — "사람 글이 무조건 낫다"가 깨졌다

2026년 3월, 뉴욕타임스가 실험을 했어요. 같은 주제에 대해 사람이 쓴 글과 AI가 쓴 글을 나란히 놓고 독자한테 골라보라고 한 거예요. 누가 쓴 건지는 비공개.

86,000명이 참여했는데, 54%가 AI가 쓴 글을 선택했어요. 이걸 "AI가 사람보다 글을 잘 쓴다"고 단정하기엔 무리가 있긴 해요. 비교 대상이 된 인간 글이 특별히 뛰어난 작가의 글은 아니었다는 비판도 있었고, 장르에 따라 결과가 달라질 수 있다는 점도 고려해야 하니까요.

근데 "AI 글은 다 티가 나서 못 쓴다"? 이 인식은 분명히 깨졌어요. 54 대 46. 숫자가 말해주고 있잖아요.

7개월마다 2배 — 이 속도가 무서운 이유

AI 연구기관 METR이 2019년부터 2026년까지 최고 성능 AI 에이전트들의 코딩 작업 능력을 측정했어요. 결과? AI가 처리할 수 있는 작업의 복잡도가 약 7개월마다 2배씩 성장하고 있었어요. 일부 분석에서는 이 속도가 최근 더 빨라져서 4개월 수준까지 단축됐다는 주장도 나오고요.

이게 뭘 뜻하냐면요. 지금 이 순간 AI가 못 하는 작업이 있더라도, 반년 뒤에는 할 수 있게 된다는 거예요. "작년에 써봤는데 별로였어"라는 경험? 이미 유효기간이 지난 정보일 가능성이 높아요. 복리처럼 성장한다는 거잖아요.

잘 쓰는 사람들은 AI를 3.5개 쓴다

AI Daily Brief의 월간 설문조사에서 재미있는 패턴이 나왔어요. 응답자의 97%가 매일 AI를 사용하고, 60% 이상이 에이전트나 자동화 같은 고급 기능을 활용하고 있었거든요. 그리고 이들이 사용하는 AI 모델 수는 평균 3.5개.

왜 하나가 아니라 여러 개일까요? AI 모델마다 잘하는 영역이 다르기 때문이에요. 엑셀 작업에는 이 모델, 글쓰기에는 저 모델, 이미지 생성에는 또 다른 모델. 연필과 볼펜과 만년필을 용도에 맞게 쓰는 것과 비슷하다고 보면 돼요.

반면 초보자들이 가장 많이 하는 실수가 "무료 기본 모델만 쓰는 것"이에요. ChatGPT 접속하면 기본으로 설정된 모델이 있는데, 비용 절감을 위해 최고 성능보다 한 단계 아래인 경우가 많거든요. AI를 처음 써보고 "별로"라고 느꼈다면, 최고 성능 모델이 아니라 비용 효율적인 모델로 경험한 것일 수 있어요. 아이폰을 판단하면서 SE만 써본 격이에요.

좋아졌다고 무조건 믿어도 되는 건 아니다

AI 헤비유저들이 공통으로 하는 말이 있어요.

첫째, AI는 틀려도 자신 있게 말해요. 환각률이 0.7%까지 떨어졌지만 0%는 아니잖아요. 문제는 "모릅니다"라고 하지 않고, 확신에 찬 어조로 잘못된 정보를 내놓을 수 있다는 거예요. 중요한 의사결정에 AI 답변을 그대로 쓰기보다는, 핵심 정보는 한 번 더 확인하는 습관이 필요해요.

둘째, AI는 아첨을 잘해요. "이 사업 아이디어 어때?"라고 물으면 대부분 "정말 좋은 아이디어네요!"라고 답하거든요. 비판적 시각이 필요할 때는 명시적으로 "반대 의견을 제시해줘" 또는 "이 아이디어의 약점을 찾아줘"라고 요청해야 솔직한 피드백을 받을 수 있어요. (진지하게요? 네, 진지하게요.)

셋째, 양이 곧 질은 아니에요. AI 덕분에 100페이지 보고서도 금방 만들 수 있게 됐지만, 모든 마이크로 의사결정에 100페이지짜리 메모를 붙이면 조직이 오히려 혼란에 빠져요. "이걸 AI로 만들 수 있는가"와 "이걸 만들어야 하는가"는 다른 질문이에요.

결국 격차. AI를 쓰는 사람과 안 쓰는 사람 사이의 거리는 좁아지는 게 아니라 벌어지고 있어요. 복리 성장이니까요. 지금 시작한 사람은 6개월 후에 능숙한 사용자가 되어 있겠지만, 6개월을 더 미룬 사람은 그만큼 더 큰 격차를 메워야 해요. 프롬프트 엔지니어링 같은 전문 기술이 필요했던 시절은 지났고, 지금은 그냥 한국어로 말하면 돼요. 마음에 안 들면 다시 말하면 되고요. "AI가 별로"라고 느꼈던 그 경험은 이미 유통기한이 끝났을 수도 있어요.