수년간 공들인 데이터 카탈로그가 AI 에이전트를 하루 만에 가능하게 만들었다

"@다해 어제 DAU가 갑자기 늘게 된 원인이 뭐야?" Slack에서 이 한마디를 던지면, AI가 DataHub에서 테이블과 스키마를 파악하고, BigQuery 쿼리를 생성 및 실행해서 답변을 돌려줘요. 화해의 AI 데이터 분석봇 '다해'는 데이터(DAta)와 화해(HwaHAE)의 합성어로, 말 그대로 데이터 분석을 "다 해"주는 존재예요. 그런데 이 에이전트가 가능했던 건 AI 기술 덕분만은 아니었어요.

다해의 동작 흐름

Ad-hoc 요청이 데이터 분석가의 시간을 잠식하는 오래된 문제

데이터팀에는 오래된 숙제가 있어요. "이번 달 신규 가입자 수 좀 뽑아주세요" 같은 Ad-hoc 요청이죠. 질문 자체는 단순해 보이지만, 맥락 파악부터 테이블 확인, 쿼리 작성, 결과 검증, 정리까지 실제 과정은 꽤 복잡해요. 두 가지 문제가 반복됐어요. 단순 데이터 조회가 분석가의 업무 시간을 잠식하고 있었고, SQL에 익숙하지 않은 동료들은 미리 만들어둔 대시보드에만 의존해야 했거든요.

Claude Desktop에 DataHub MCP와 BigQuery MCP를 연동해서 테스트해볼 기회가 있었는데, 놀라운 발견이 있었어요. 화해의 데이터 환경은 이미 수년간 DataHub을 운영하며 모든 테이블과 칼럼의 정의를 체계적으로 카탈로그해왔고, 네이밍 컨벤션도 명확한 규칙으로 설계돼 있었거든요. AI-ready 데이터 기반이 이미 갖춰져 있었던 셈이에요.

DataHub First 설계 원칙

BigQuery 직접 실행이 아니라 반드시 DataHub을 먼저 거치게 만든 이유

핵심 설계 원칙은 "DataHub First"예요. AI가 BigQuery 쿼리를 바로 작성하는 게 아니라, 반드시 DataHub에서 메타데이터를 먼저 확인한 뒤에 쿼리를 작성하도록 강제한 거죠. 초기 프로토타입에서 BigQuery Tools만 제공했을 때, 존재하지 않는 테이블명을 생성하거나 실제 스키마와 다른 칼럼명을 사용하는 할루시네이션이 빈번했거든요.

다해에는 총 10개의 도구가 탑재돼 있어요. DataHub 탐색용 6개와 BigQuery 조회용 4개죠. Claude API의 Tool Use는 한 번 호출하면 끝이 아니라 루프가 반복되는 구조예요. 복잡한 질문의 경우 최소 10번 이상의 Tool Use를 거치기도 하죠. 데이터 기반 의사결정의 속도를 "며칠"에서 "몇 분"으로 앞당기겠다는 목표가, 수년간 쌓아온 데이터 카탈로그 위에서 현실이 된 거예요.