AI로 5배 빨라진 경제학자가 더 좋은 논문을 쓰고 있을까 — 대답은 '아직 아니오'

다트머스 대학의 Paul Novosad 교수는 AI 덕분에 진짜 연구 질문을 고민하는 시간이 5배로 늘었다고 말했어요. ETH 취리히의 Elliott Ash 교수는 생산성 향상이 너무 신나서 오히려 더 일하고 싶어졌다고 하고요. 경제학자들이 AI에 열광하는 풍경.

근데 같은 학계 소셜 미디어에서는 AI로 생성한 저품질 콘텐츠 — 이른바 'AI 슬롭(slop)' — 에 대해 "제발 그만하라"는 경고가 돌고 있어요. FT 칼럼니스트 팀 하포드(Tim Harford)가 이 양면을 정면으로 다뤘습니다. 그는 AI가 경제학을 바꿀 수 있는 경로를 세 가지로 정리했어요 — 생산성, 범위, 검증. 근데 각각을 뜯어보면 장밋빛만은 아니거든요.

이건 경제학만의 이야기가 아니에요. 지식 생산 전반의 구조적 전환이 벌어지고 있다는 신호예요.

잡무에서 풀려났지만, 논문 품질은 그대로

하포드가 짚은 첫 번째 경로는 생산성이에요. 데이터 정제, 연구비 신청서 작성, 표 서식 정리 같은 작업은 경제학자의 시간을 갉아먹는 대표적인 잡무잖아요. AI가 이걸 상당 부분 자동화해주고 있죠. Novosad 교수가 말한 '5배'라는 숫자 — 이게 연구 자체가 5배 빨라졌다는 뜻은 아니에요. 사고할 수 있는 시간이 5배로 늘었다는 의미예요. 미묘하지만 중요한 차이입니다.

자, 그런데 그 시간이 결과로 이어지고 있냐고 물으면? 아직은 아니에요. American Economic Review의 에르초 루트머(Erzo Luttmer) 편집장에 따르면, 투고 논문의 약 25%가 AI 사용을 공시하고 있어요. 대부분 편집이나 프로그래밍 보조 용도인데, 투고 품질이 눈에 띄게 달라지지는 않았다고 합니다. 25%가 도구를 쓰는데 품질 변화가 없다? 이걸 어떻게 해석해야 할까요.

하포드는 여기서 직접 실험까지 했어요. AI 에이전트를 활용해 NBER 워킹페이퍼의 초록을 분석한 거예요. NBER(National Bureau of Economic Research)은 미국의 대표적 경제학 연구기관인데, 여기서 나오는 워킹페이퍼가 학계 최신 동향을 가장 빠르게 보여주는 창구거든요. ChatGPT 출시 이후 평균 문장 길이는 줄었지만, 이건 이전부터 이어진 추세의 연장선이었어요. 오히려 단어 복잡도는 상승했고요. 엘리트 저널들의 투고 건수도 기존 추세 대비 뚜렷한 변화가 없었습니다.

더 많은 시간을 벌었는데 더 나은 결과가 안 나온다. 좀 이상하잖아요. (솔직히 불편한 결론이에요.)

측정 불가능했던 것을 측정하다 — BIS가 내놓은 범용 예측 모델

생산성보다 더 재밌는 건 두 번째 경로, 연구 범위의 확장이에요. 정성적 데이터(qualitative data)는 원래 수집 비용이 높고 체계적 분석이 어려웠거든요. 손으로 하나하나 분류하고 해석해야 했으니까요. 이제 경제학자들은 AI를 통해 이전에는 엄두도 못 냈던 연구를 하고 있어요. 용도지역 규제가 실제로 어떤 효과를 내는지 측정하고, 면접 난이도가 채용 결과에 미치는 영향을 분석하고, 수천 건의 기업 실적 발표를 한꺼번에 탐색해서 관세에 대한 기업들의 대응 패턴을 찾아내고 있죠.

예측 분야에서도 한 건 나왔어요. 국제결제은행(BIS)이 올해 3월에 BISTRO라는 거시경제 시계열 예측 범용 모델을 공개했거든요. 트랜스포머 아키텍처 — ChatGPT 같은 대형 언어 모델의 기반이 되는 신경망 구조 — 를 거시경제 시계열 데이터에 적용한 거예요. 기존 계량모델은 특정 과제에 맞춰 일일이 설계해야 했는데, BISTRO는 범용이에요. 한 번 학습시켜놓으면 여러 종류의 거시경제 예측에 쓸 수 있다는 뜻이죠.

BIS는 이 모델이 2021~2022년 인플레이션의 지속성을 정확히 예측했을 거라고 밝혔어요. 당시 상황을 떠올려보면 — 대부분의 전통적 모델이 "인플레이션은 곧 평균으로 회귀할 것"이라고 기계적으로 찍어서 크게 빗나갔거든요. 중앙은행들이 "일시적(transitory)"이라는 단어를 붙잡고 있을 때, 트랜스포머 기반 모델은 지속성을 읽어냈다는 얘기예요. 물론 사후적 분석이라 할인해서 봐야 하지만, 방향 자체는 의미심장합니다.

40년 학자가 "최고 수준의 코멘트"라고 한 AI 리뷰어

세 번째 경로가 가장 미묘하고, 개인적으로 가장 중요하다고 느꼈어요. 오류를 잡는 AI.

노스웨스턴 대학의 벤 골럽(Ben Golub) 교수가 공동 창업한 Refine.ink라는 도구가 있어요. AI 기반 논문 리뷰 시스템인데, 수학적 오류, 실증 전략의 허점, 논리적 일관성 문제를 체계적으로 검출합니다. 골럽 교수에 따르면, 상위 저널의 심사를 통과한 논문에서도 최소 3분의 1 이상에서 문제를 발견하고 있다고 해요. 심사를 통과한 논문에서요. 3분의 1 이상.

읽다가 놀란 건 시카고 대학의 존 코크레인(John Cochrane) 교수 이야기였어요. 자신의 인플레이션 연구서를 Refine에 넣어보고 "40년 학자 생활에서 받아본 최고 수준의 코멘트"라고 평가했거든요. 40년이에요. 수많은 동료 리뷰, 학회 토론, 편집자 피드백을 다 겪은 사람이 AI 리뷰가 최고였다고 한 거예요. 이건 농담이나 과장이 아니라, 실제 학술 리뷰의 품질이 얼마나 들쭉날쭉한지를 역으로 보여주는 거기도 하죠.

경제학 5대 저널 중 여러 곳이 이미 Refine을 실험적으로 도입하고 있어요. 조건부 게재 승인 직전, 최종 점검 단계에서 쓰는 게 가장 자연스럽다고 하더라고요. 저자가 출판 후 부끄러울 수 있는 실수를 미리 잡아주는 용도로요. (비슷한 서비스로는 한국인이 만든 jenni.ai도 있어요. 무료 체험판이 있으니 자기 글을 넣어보는 것만으로도 AI 검증의 수준을 체감할 수 있습니다.)

ICLR 심사 보고서 5편 중 1편이 통째로 AI 작성 — 속도의 군비경쟁

여기까지 보면 꽤 좋은 소식 같죠? 하포드가 던지는 핵심 질문이 있어요.

"AI가 오류를 찾는 속도가, 인간이 오류를 찾기를 포기하는 속도보다 빠를 수 있을까?"

단순한 수사가 아니에요. ICLR 2025 — 국제 머신러닝 학회 — 에 제출된 리뷰 7만 건을 분석한 결과, 약 21%가 처음부터 끝까지 AI로 작성된 것으로 추정됐어요. 편집을 도운 게 아니에요. 통째로 LLM이 쓴 심사 보고서가 다섯 편 중 한 편이었다는 뜻이에요. 머신러닝 학회에서요. AI를 연구하는 사람들이 AI로 심사를 대충 때우고 있다는 거예요. (아이러니가 이 정도면 코미디에 가깝죠.)

경제학 저널에서도 "부끄러울 정도로 대충 만든 AI 심사 보고서"가 제출되고 있다는 이야기가 이미 돌고 있어요.

문제의 구조를 뜯어보면 이래요.

학술 논문은 매년 전 세계에서 500만 편 이상 쏟아지고 있어요
적격한 심사자 풀은 그 속도를 따라가지 못하고요
심사(peer review)는 보상도 적고 인센티브도 약한 작업이에요
이 상황에서 AI가 "대신 해줄게"라고 나서면, 이미 동기가 약한 인간 심사자가 더 노력할 이유가 줄어들어요

경제학에서 말하는 전형적인 도덕적 해이(moral hazard)예요. 보험에 가입하면 오히려 위험한 행동을 하게 되는 현상. 에어백이 달리면 과속하는 것처럼, AI가 오류를 잡아주니까 인간 심사자가 덜 꼼꼼해지는 거죠.

엑셀이 더 좋은 분석을 만들었나? 파워포인트가 발표를 고쳤나?

잠깐 역사를 되짚어볼게요. 생산성 도구가 결과물의 품질로 직결된 경우가 있었나? 생각보다 드물었어요.

엑셀이 나왔을 때 더 좋은 분석이 나올 거라 기대했잖아요. 실제로 늘어난 건 '더 많은 스프레드시트'였거든요. 파워포인트가 발표의 질을 올렸냐고요? 말하기 어렵죠. 예상 가능한 결과.

AI도 같은 패턴을 밟고 있다고 느껴요. 원래 잘하던 사람은 더 잘하게 만들어주는데, 원래 대충하던 사람도 더 많이 대충하게 해줘요. 도구는 중립적인데 결과는 양극화되는 거예요. 골럽 교수 본인도 인정했어요 — 자기 논문에서조차 "AI가 쓴 섹션이 진짜 작업처럼 보이게 끼어드는" 경험을 했다고요. 만든 사람이 그러니까요.

한 가지 가능성은 있어요. Refine 같은 도구가 단순한 오류 검출기를 넘어 학술 품질의 새로운 기준선(baseline)을 만들 수도 있거든요. 모든 논문이 제출 전에 AI 리뷰를 거치는 세상이 오면, 인간 심사자는 AI가 잡지 못하는 것 — 독창성, 이론적 기여, 맥락적 판단 — 에 집중할 수 있어요. 위협이 아니라 분업의 재설계가 되는 거죠.

다만 그 전환기에 슬롭의 홍수를 버텨야 한다는 게 문제예요. 지금이 딱 그 한복판이에요. 쏟아지는 AI 콘텐츠의 홍수. 숏츠든, 블로그 글이든, 논문이든.

오류를 잡는 AI와 오류를 양산하는 AI가 같은 기술이라는 아이러니

정리하면 이래요. AI는 경제학자의 잡무를 줄이고 있어요. 연구 범위를 넓히고 있어요. 오류를 잡는 데도 기여하고 있고요. 근데 "더 많은 연구"가 "더 나은 연구"로 이어졌다는 증거는 아직 약해요. 25%가 AI를 쓴다고 공시하는데 품질 변화는 감지 안 되고, NBER 워킹페이퍼 문장은 짧아졌지만 복잡도는 올라갔고, 심사 보고서 5편 중 1편은 통째로 AI가 썼어요.

이건 경제학만의 숙제가 아니에요. 코드 리뷰, 법률 문서 검토, 의료 진단 보조 — AI가 검증 역할을 맡는 모든 분야에서 같은 질문이 돌아올 거예요.

안전망이 생기면, 사람은 더 주의 깊어질까요? 에어백이 달린 차를 몰아본 사람은 답을 알 거예요.