코드의 95%를 직접 안 친다는 Django 창시자, 그가 본 2025년 11월의 변곡점

Django 공동 창시자가 강아지 산책시키면서 코드를 짜요. 핸드폰으로요.

사이먼 윌리슨 얘기예요. Instagram, Pinterest, Spotify를 돌리는 그 프레임워크의 25년차 엔지니어. 그가 만드는 코드의 95%는 직접 타이핑한 게 아니에요. 코딩 에이전트 2~3개를 동시에 돌려놓고 다른 일을 하다가 돌아오는 식이거든요. 레니 팟캐스트(Lenny's Podcast)에 출연한 그의 인터뷰가 흥미로워서 정리해봤어요.

이미지 출처: Lenny's Podcast

2025년 11월에 무슨 일이 있었나

2025년은 Anthropic과 OpenAI가 같은 결론에 도달한 해였어요. "코드가 곧 애플리케이션이다." Claude Code가 2월에 나오고 월 200달러짜리 계정에 사람들이 몰려들기 시작했을 때, 두 회사 모두 깨달았거든요. 사람들이 코딩에는 이 돈을 낼 의향이 있다는 걸요. 그래서 1년 내내 훈련 자원을 코딩 능력에만 쏟았어요.

거기에 추론 모델(reasoning model)이 더해졌죠. 2024년 말 OpenAI o1에서 처음 나온 단계적 추론 기술이 이제는 표준이 됐어요. 코드를 따라가며 버그의 근본 원인을 추론하는 일에 추론 모델이 기가 막히게 잘 맞거든요.

AI가 혼자 처리할 수 있는 작업 길이가 2년 만에 30초에서 4시간으로 늘었다. 이미지 출처: Epoch AI / METR

11월에 GPT 5.1과 Claude Opus 4.5가 나왔어요. 사이먼은 이 시점을 '변곡점'이라고 불러요. 직전 모델 대비 점진적 향상이었지만, 어떤 임계값을 넘었거든요. 이전엔 에이전트한테 코드를 시키면 대충 되긴 하는데 세심하게 봐야 했어요. 그런데 갑자기 "거의 항상 시킨 대로 한다"는 수준이 된 거예요.

이 차이가 엄청나요.

소프트웨어 엔지니어들이 연말 휴가 때 도구들을 만져보다가 깨닫는 순간이 왔어요. "이거 진짜 되네." 1월, 2월에 많은 사람들이 눈을 떴고요. 그러면서 따라온 질문 — "하루에 코드 1만 줄을 쏟아낼 수 있다는 게 대체 무슨 의미지?"

Claude Code 창시자 Boris Cherny:

코드가 다른 분야보다 먼저 영향을 받는 이유는 단순해요. 맞고 틀림이 분명하니까요. 실행하면 되거나 안 되거나, 둘 중 하나죠. 에세이나 소송 서류는 제대로 했는지 판단하기가 훨씬 어려워요. 그래서 코드가 선행 지표가 됐고, 다른 지식 노동에도 곧 퍼질 거예요.

사람들이 AI에게 가장 많이 맡기는 일은 코딩이다. 전체 대화의 37%, 다른 직군을 압도한다. 이미지 출처: Anthropic Economic Index

다크 팩토리: "아무도 코드를 안 읽는다"

여기서부터 좀 무서운 얘기예요.

StrongDM이라는 보안 회사가 2025년 8월부터 두 가지 규칙을 세웠어요. 첫째, 아무도 코드를 직접 타이핑하지 않는다. 둘째 — 진짜 급진적인 건데 — 아무도 코드를 읽지 않는다. 사이먼이 '다크 팩토리 패턴'이라고 부르는 거예요. 공장 자동화에서 빌려온 이름인데, 기계만 돌면 사람이 없으니까 불을 꺼도 된다는 발상이죠.

근데 보안 회사가 이걸 한다고요? 접근 권한 관리 소프트웨어를 만드는 곳인데?

StrongDM의 2원칙. 이미지 출처: factory.strongdm.ai

방법은 이래요. QA 부서를 AI로 시뮬레이션해요. 시뮬레이션된 직원 수백 명이 시뮬레이션된 Slack 채널에서 24시간 내내 "Jira 접근 좀 열어주세요"라고 요청하는 거죠. 토큰 비용으로 하루 1만 달러를 썼대요. 잠 안 자는 QA 팀을 둔 셈이에요.

여기서 한 번 더 재미있는 게, 진짜 Slack이나 Jira로 테스트하지 않아요. 속도 제한 때문에 시뮬레이션 사용자 1만 명을 동시에 돌릴 수가 없거든요. 그래서 자체 시뮬레이션 버전을 만들었어요. Slack, Jira, Okta 각각의 공개 API 문서와 오픈소스 클라이언트 라이브러리를 에이전트한테 던져주고 "이 API 시뮬레이션을 만들어"라고 했더니 그냥 만들어졌다고. (이걸 '바이브 코딩하면 안 되는 분야'라고 부르는 게 맞나요?)

시뮬레이션 직원들이 Slack에서 끊임없이 요청을 던지는 상황. 이미지 출처: factory.strongdm.ai

에이전트가 만든 'Jira 시뮬레이션'. 이미지 출처: factory.strongdm.ai

보안 쪽에선 다른 일도 벌어지고 있어요. 에이전트들이 침투 테스트(penetration testing)를 점점 잘해요. 지난 3~6개월 사이에 보안 연구자로 쓸 만한 수준에 도달했고요. OpenAI와 Anthropic 모두 일반에 공개 안 하는 전문 보안 모델을 갖고 있어요. 웹사이트 해킹에 쓰일 수 있어서 초대제로만 풀려요.

얼마 전 Firefox가 Anthropic 도움으로 릴리스를 했는데, Anthropic이 Firefox에서 잠재적 취약점 100개 정도를 찾아내 Mozilla에 보고했어요. 핵심은, 보안팀이 에이전트 결과를 그대로 넘긴 게 아니라 검증하고 넘겼다는 거예요.

2026년 2월 한 달간 Claude Opus 4.6이 찾아낸 Firefox 보안 취약점은 22개. 2025년 월간 최대치를 처음으로 돌파. 이미지 출처: Anthropic

반대 사례가 골치예요. 자기가 뭘 하는지도 모르는 사람들이 ChatGPT한테 보안 취약점 찾으라 시킨 다음, 그럴듯한 형식의 보고서를 오픈소스 메인테이너한테 던져버려요. 검증 안 된 채로요. 메인테이너 시간만 낭비시키는 거죠. 검증 여부가 전부를 가른다는 게 사이먼의 결론이에요.

에이전틱 엔지니어링 — 개인 차원의 패턴들

회사 단위 얘기는 그만하고, 개인은 어떻게 해야 할까요. 사이먼이 책으로 정리하고 있는 '에이전틱 엔지니어링' 얘기인데, 출발점이 한 줄로 정리돼요. 코드가 싸졌어요.

예전엔 "코더를 방해하지 마라"는 말이 있었어요. 머릿속 모델 세우려면 2~4시간 집중 시간이 필요했으니까요. 지금은? 사이먼은 가끔 2분만 있으면 된다고 해요. 에이전트한테 다음 작업 프롬프트를 던지고 다른 일 하다가 돌아오면 되거든요. 매니저의 하루로 일해도 메이커의 결과물이 나오는 거예요.

왼쪽이 매니저의 하루, 오른쪽이 메이커의 하루(Paul Graham). 이미지 출처: tylerdevries.com/maker-manager

핵심 질문이 바뀌었어요. "하루에 1만 줄 쏟아낼 수 있는데, 그게 슬롭(slop, 부실 코드)이 아니라 진짜 좋은 코드가 되려면 어떻게 해야 하나?" 사이먼이 정리한 패턴 네 개를 보면 답이 보여요.

프로토타이핑이 공짜. 기능 디자인할 때 세 가지 방식으로 동시에 프로토타입을 만들어 비교해요. 시간이 거의 안 드니까. 사이먼은 자기 커리어 내내 프로토타이핑이 초능력이었다고 하는데, 그 경쟁 우위가 사라졌대요. UI 프로토타입은 이제 누구나 만들 수 있거든요.

호딩(hoarding) 전략. 됐던 것, 안 됐던 것 다 모아두는 거예요. 기술 X와 Y를 모두 경험해본 사람이 새 문제를 그 조합으로 풀 수 있어요. 사이먼은 GitHub에 작은 도구와 리서치 프로젝트 193개를 모아두고, 새 문제가 나오면 에이전트한테 기존 것들을 조합시켜요. AI가 호딩을 훨씬 쉽게 만들어줘요.

Simon Willison의 GitHub, 호딩의 사례. 이미지 출처: Simon Willison의 github

테스트는 필수. 에이전트가 코드를 실행 안 하면 ChatGPT에서 복붙하고 기도하는 것과 다를 게 없어요. TDD라는 수십 년 된 기법이 다시 빛을 봐요. 프롬프트에 "red/green TDD"라고만 써도 에이전트가 알아서 사이클을 돌아요. 5초 타이핑으로 결과물 품질이 실질적으로 달라져요.

TDD의 세 단계. 이미지 출처: testrigor.com

얇은 템플릿 뼈대. 빈 프로젝트에서 시작하면 에이전트가 제멋대로 짜요. 그런데 예시 코드 한 줄이라도 있으면 그 스타일을 따라요. 새 직원한테 "알아서 보고서 써와" 대신 샘플 하나 던지는 것과 똑같아요. 사이먼이 GitHub에 Python 라이브러리용 템플릿을 공개해뒀어요.

도구 얘기도 잠깐. 사이먼은 주로 Claude Code for Web을 써요. Anthropic 서버에서 도는 호스팅 버전인데, iPhone 앱에서 코드 탭으로 바로 들어가요. 핸드폰으로 코드 짠다는 게 이거예요. 보안상 유리한 점도 있어요. 로컬에서 돌리면 실수로 파일을 지울 수 있는데, 서버에서 돌리면 그럴 일이 없으니까 YOLO 모드(권한 확인 건너뛰기)로 돌릴 수 있어요. (끊임없이 "이 파일 수정해도 돼?" 묻는 모드는 짜증나는 토들러랑 일하는 느낌이에요.)

Claude Code for Web 모바일 화면. 이미지 출처: Anthropic

모델은 한 가지에 올인하지 말라고 해요. 3주 전 GPT 5.4가 나왔는데 Claude Opus 4.6과 동급이거나 더 나을 수 있고 더 싸기도 하대요. 회사들이 계속 서로를 추월하고 있어서, 잘 나온 걸 골라 쓰는 게 맞아요.

OpenClaw — 모두가 원하지만 아무도 안전하게 못 만드는 것

이 인터뷰의 가장 흥미로운 대목이에요.

OpenClaw 첫 코드가 2025년 11월 25일에 작성됐어요. 그리고 슈퍼볼에 AI.com 광고가 나왔는데, 이게 사실상 OpenClaw를 화이트 라벨로 호스팅하는 서비스 광고였어요. 첫 코드에서 슈퍼볼까지 3개월 반. 이런 속도로 성공한 프로젝트가 있었나요?

가파른 상승세를 보여준 오픈클로. 이미지 출처: github

문제는 — 사이먼 본인이 "이게 가장 존재해서는 안 된다"고 주장해온 것과 OpenClaw가 거의 정확히 일치한다는 거예요. 모든 이메일에 접근하고 대신 행동하는 개인 디지털 비서. 보안 관점에서 재앙이고, 비트코인 지갑을 잃은 사람도 있대요.

오픈클로 설치 중에 보이는 경고 문구. 이미지 출처: openclaw

근데 OpenClaw가 보여준 게 있어요. 사람들이 개인 디지털 비서를 얼마나 간절히 원하는지. API 키 만들고 토큰 저장하고 연동 작업까지 거쳐야 하는데도 수십만 명이 해냈거든요. 보안 문제를 무시하면서까지요.

Anthropic이나 OpenAI는 왜 이걸 안 만들었을까요? 안전하게 만드는 방법을 모르기 때문이에요. 독립적인 제3자는 그런 제약이 없으니 그냥 만들어 내놓으면 되고요. 게다가 타이밍이 절묘했어요. 1년 전에 만들었으면 별로였을 텐데, 11월 말 코드 작성 → 12월 쓸 만해진 시점이 마침 도구를 안정적으로 호출하고 프롬프트 인젝션도 어느 정도 피하는 새 모델 세대와 겹쳤거든요.

코드 퀄리티 면에서도 묘해요. 바이브 코딩된 프로젝트인데 1,000명 이상이 기여했어요. 기적같이 잘 돌아가요. 사이먼이 큰 존경심을 갖고 있다고 말할 정도예요.

지금 AI에서 가장 큰 기회를 묻자 사이먼은 이렇게 답했어요. 안전한 OpenClaw를 만드는 것. 모든 걸 다 하면서 랜덤으로 데이터 유출하거나 파일 삭제하지 않는 버전. 어떻게 만드는지는 본인도 모른다고요. 알면 지금 만들고 있겠죠.

이미지 출처: 영화 스파이더맨2

본인은 Docker 컨테이너 안에서만 OpenClaw를 돌려요. Mac Mini를 따로 사서요. 친구가 그러더래요. OpenClaw는 타마고치고 Mac Mini는 수족관이라고. 개인 이메일은 안 줬고, 업무 이메일은 읽기 전용으로만 줬어요. 이론상 위험하긴 하지만, 그 정도 리스크는 감수한대요.

이 흐름은 어디로 가나

모든 회사가 자체 버전을 만들고 있어요. Anthropic, Manis, Perplexity 다요. 그런데 OpenClaw에는 마법 같은 게 있다고 사이먼은 말해요. 성격이랄까, 영혼이랄까. 독특하게 재미있는 조합.

이제 이런 도구들의 총칭이 생겼어요. 'Claw(클로)'. OpenClaw 말고도 NanoClaw가 있고 여러 변종이 나오고 있어요. AI 엔지니어링의 새로운 'Hello World'가 자기만의 Claw를 만드는 게 될 것 같다고 사이먼은 말하더라고요. 본인도 만드는 중이래요.

영화 스파이더맨2에서 닥터 옥토퍼스 몸에 붙은 AI 클로(claw, 집게팔)를 떠올리면 돼요. 억제 칩 있을 땐 말 잘 듣다가, 칩이 망가지면 클로가 주인을 조종하기 시작하잖아요. OpenClaw가 딱 그거예요.

칩이 망가지기 전에, 누가 안전한 버전을 먼저 만드느냐. 그게 다음 라운드의 게임이에요.