AI는 왜 우리 동네 팝업 위치를 모를까 — 버티컬 서비스 데이터의 4가지 사각지대

미국 리테일 사이트로 들어오는 생성형 AI 트래픽이 1년 만에 3,500% 늘었어요.

근데 정작 두쫀쿠 팝업이 어디 있냐고 물으면 ChatGPT는 "직접 확인해보세요"라고 답해요. 검색을 대체할 만한 답이 아니죠. 그런데 이건 단순한 업데이트 속도 문제가 아니에요. AI가 실시간 정보 앞에서 선을 긋기 시작한 데는 구조적인 이유가 있거든요. 그리고 그 구조가 만든 정보 공백 위에, 지금 버티컬 서비스의 협상 카드가 놓여 있어요.

치명적 망각, AI가 실시간을 못 따라가는 진짜 이유

LLM은 특정 시점까지의 데이터를 한꺼번에 학습해서 수천억 개 파라미터에 압축 저장해요. 사람 뇌처럼 새 경험을 기존 기억 위에 쌓아가는 게 아니라, 모든 지식이 하나의 거대한 행렬에 분산 저장되는 구조거든요. 여기에 새 정보를 추가 학습시키면, 모델은 기존 가중치를 덮어쓰면서 조정해요. 문제는 이 과정에서 언어 추론 능력이나 맥락 이해 구조가 같이 손상될 수 있다는 거예요.

이걸 머신러닝 연구자들은 '치명적 망각(Catastrophic Forgetting)'이라고 불러요. 새 걸 넣을수록 모델이 전반적으로 퇴화할 위험이 생기는 셈.

대안이 RAG(검색 증강 생성)예요. 모델 재학습 대신 외부 DB에서 관련 정보를 실시간으로 끌어와 맥락으로 전달하는 방식. 대부분의 AI 검색 서비스가 이걸 써요. 근데 RAG도 한계가 있어요. 질문과 의미적으로 가까운 문서를 찾아오는 방식이라, "이 식당 오늘 열었어?"에 "이 식당은 보통 오전 11시에 영업을 시작합니다"라는 과거 정보를 가져올 수밖에 없거든요.

ChatGPT는 실시간 정보를 직접 말해주는 대신, 사용자가 정보를 확인할 수 있는 경로를 제시합니다.

더 근본적인 한계 — RAG가 검색할 수 있는 데이터 자체가 웹에 공개된 정보로 제한돼요. 특정 맥락에 관해서는 AI가 검색할 대상 자체가 없는 거죠. 결국 AI가 실시간에 약한 건 기술이 덜 발전해서가 아니에요. LLM 학습 구조 자체가 특정 시점의 세계를 스냅샷처럼 포착하도록 설계됐기 때문.

이 경계 바깥의 데이터, 즉 지금 이 순간에만 존재하는 데이터는 그걸 직접 생성하고 관리하는 버티컬 서비스만 갖고 있어요. 그래서 누가 데이터를 쥐고 있느냐가 중요한 거고요.

AI가 못 읽는 데이터 — 네 개의 층

기술적 한계가 실시간 학습을 막는다면, 다음 질문은 어떤 데이터냐예요. 카카오벤처스가 정리한 분류는 네 개로 나뉘어요.

실시간 상태 데이터. 가게 영업 여부, 재고 수량, 병원 대기 시간, 배달 가능 여부. 배달의민족 앱의 "준비 중"이나 "배달 지연"은 웹에 떠도는 정보가 아니에요. 가게 POS 시스템에 연동된 운영 데이터죠. AI가 아무리 추론해도 지금 그 가게가 열려 있는지 알 수가 없어요. 데이터 자체가 버티컬 내부 시스템에만 존재하니까요.

배달의민족에서 사장님이 재고 수량을 입력할 때, 그 데이터는 서비스에 저장됩니다.

거래 기반 데이터. 카드 혜택, 항공권 가격, 호텔 요금, 쿠폰처럼 경제적 로직에 묶인 정보. 자주 변하는 걸 넘어, 연회비·캐시백 조건·이벤트 기간 같은 변수가 복잡하게 얽혀 있어요. 카드고릴라가 카드사 API를 직접 연결해 실시간으로 비교하는 것과, AI가 학습 데이터에서 기억하는 혜택을 답하는 것 — 신뢰도 차이가 비교가 안 되죠.

접근 제한 데이터. 웹에 공개되지 않아 크롤링 자체가 불가능한 정보. 캐치테이블의 현재 대기 팀 수, 쿠팡의 실시간 재고와 물류 상태, 내부 가격 정책과 개인화 혜택. 서비스 운영 주체만 갖고 있는 데이터예요.

지금 이 순간, 하이디라오 홍대점에 46팀이 기다리고 있다는 정보는 캐치테이블 앱 안에만 존재합니다.

행동 데이터. 정보 탐색에서 실제 액션으로 이어지는 영역. 맛집 찾기와 예약하기는 다른 레이어고요. AI 에이전트가 가장 빠르게 진입하려는 영역이 바로 여기인데, 예약·발급·결제 같은 실제 액션은 각 버티컬의 워크플로우와 인증 체계 위에서만 작동해요.

AI가 접근하지 못하는 데이터 4유형 분류표.

현실 데이터는 한 유형에만 해당하지 않아요. 배달의민족은 네 가지를 동시에 갖고 있고, 카드고릴라는 세 가지가 겹쳐 있죠. 여러 축에 걸칠수록 AI가 그 영역을 대체하기 어려워져요. 결국 AI 시대 버티컬의 생존을 가르는 질문 — 그 데이터를 누가 생성하고 검증하는가.

비자발적 → 인센티브 → 의무, 데이터의 문이 열리는 3단계

데이터 통제권이 버티컬에 있다는 건, 언제 문을 열지도 버티컬이 결정한다는 뜻이에요. 플랫폼의 역사적 패턴을 보면 데이터 공급자 합류는 늘 세 단계를 거쳤어요.

비자발적 단계가 1단계예요. 플랫폼이 직접 수집하는 시기. 배달의민족 창업자들이 발로 뛰며 전단지를 수거해 식당 정보를 입력하던 시절이에요. 에어비앤비도 사진 질이 예약률을 결정한다는 걸 알고 전문 사진사를 직접 섭외해 호스트 공간을 촬영했고요. 공급자가 안 움직이니 플랫폼이 대신 움직인 거죠. AI 서비스도 지금 이 단계예요. 웹 공개 데이터를 크롤링하며 정보를 모으는 중.

2단계는 인센티브. "등록하면 매출이 오른다"는 메시지가 초기 채택자를 움직이는 시기예요. OpenTable은 무료 예약 관리 소프트웨어를 제공해서 식당을 끌어들였고, 결과적으로 월 1,800만 좌석을 중개하는 시점에 도달했어요. 그 다음부터는 식당이 먼저 연락해왔고요. AI 시장에서도 비슷한 흐름이에요. AIEO·GEO 최적화 서비스가 등장하고, "Google AI Overview에서 노출 안 되면 존재하지 않는 것"이라는 인식이 빠르게 퍼지고 있죠. 구글은 GBP를 AI Overview에 연동하면서 사업자가 스스로 정보를 규격화해 올리도록 유도하는 중이에요.

3단계는 의무. 경쟁자가 이미 올라와 있으니 안 하면 뒤처진다는 압박이 작동하는 시기. "배민에 없으면 배달 주문이 안 들어온다"가 요식업계 상식이 됐을 때, 입점은 선택이 아닌 필수가 됐죠. AEO·GEO 업체들이 선점하려는 게 바로 이 의무 단계예요.

데이터 플라이휠 발생의 3단계.

세 단계 전환의 속도를 결정하는 메커니즘은 뭘까요. 2014년 스카이프 실사용 데이터 분석 연구는 사회적 영향을 통한 채택 확률이 주변 채택자 비율에 선형적으로 비례한다는 걸 실증했어요. 한 명이 채택하면 주변 확률이 올라가고, 또 다른 채택을 이끄는 연쇄 구조죠. 2020년 연구는 이 연쇄가 폭발적으로 전환되는 '복합 전염'의 임계 규모가 약 20~25%에서 반복적으로 관찰된다는 걸 보여줬고요.

이 연구들이 버티컬의 데이터 개방을 직접 다룬 건 아니지만, 공급자 행동 변화에도 비슷한 메커니즘이 작동할 수 있어요. 동일 상권의 식당 중 배민 입점 비율이 일정 수준을 넘는 순간, 미입점 식당의 입점 결정 확률이 급격히 올라갔을 거라는 추론이 가능하죠.

AI 데이터 개방도 같은 논리예요. 특정 카테고리에서 소비자의 AI 탐색 비율이 임계점을 넘는 시점, 그리고 같은 카테고리 경쟁 공급자들이 데이터를 열기 시작하는 시점이 교차할 때 변곡점이 만들어져요. 그게 언제일지는 아무도 모르지만, 모른다는 사실 자체가 이 시장의 본질이에요. 기술 인프라는 갖춰졌지만, 버티컬의 문이 열리는 시점은 비즈니스 의사결정의 문제거든요.

열어도 잃고, 잠가도 잃는 — 두 시나리오의 비용

생성형 AI 소스에서 미국 리테일 사이트로 들어오는 트래픽은 2024년 7월 대비 2025년 5월 기준 3,500% 증가했어요. 네이버 블로그 SEO가 검색 노출을 결정했고 배민 입점이 배달 매출을 결정했던 것처럼, AI 노출이 새 생존 조건이 되는 흐름이에요.

근데 버티컬에게 이건 양날의 검이에요.

시나리오 A — 열면 발견되지만, 발견되는 순간 앱이 불필요해져요. MCP 서버를 열어 AI 플랫폼에 실시간 데이터를 제공하면 단기적으로 AI 검색 노출이 늘어요. 신규 유입도 증가하고요. 그런데 소비자가 AI 채팅 안에서 탐색부터 의사결정까지 끝내는 순간, 자사 앱을 켤 이유가 사라지죠. 앱 트래픽이 사라지면 사용자 행동 데이터도 안 쌓여요. 수년간 쌓은 랭킹과 큐레이션 알고리즘이 AI 플랫폼으로 이동하고요. 노출을 얻고, 핵심 비즈니스 로직을 내어주는 거예요.

절충안으로 거론되는 게 데이터 계층화. 위치·영업시간 같은 기본 정보는 개방해 발견 가능성을 확보하고, 실시간 재고·개인화 혜택 같은 핵심 데이터는 앱 안에 가둬 전환을 유도하는 방식. 그런데 이게 작동하려면 롱테일 공급자의 디지털화, 데이터 구조 표준화, 공급자가 스스로 구조화해 올릴 인센티브가 동시에 필요해요. 쉽지 않죠.

시나리오 B — 잠그면 트래픽을 지키지만, 탐색 출발점에서 사라져요. 앱 내 경험과 데이터 통제력은 유지되지만 AI 검색에서 안 보이면 소비자의 시야 밖이에요. 구글 지도에 등록 안 된 가게가 서서히 손님을 잃은 것처럼, AI-invisible 페널티는 조용하지만 누적돼요. 탐색 빈도가 높은 카테고리일수록 페널티가 빠르게 심화되고요.

결국 두 시나리오 다 비용이 따라요. 열면 트래픽을 잃고, 잠그면 노출을 잃죠. 딜레마가 어느 비용을 언제까지 감당할 수 있는가의 문제로 넘어와요.

선점의 창은 지금 열려 있다

이 딜레마는 영원히 가지 않아요.

배달의민족도 전단지 수거하던 시절이 있었지만 어느 순간 입점이 필수가 됐죠. AI에도 그 전환이 언제 올지 아무도 몰라요. 그래서 지금 버티컬에게 필요한 건 전환이 오기 전에 AI와의 관계를 스스로 먼저 정의하는 일이에요. 어떤 데이터를 열고 어떤 데이터를 지킬지를 압박에 밀려 결정하는 게 아니라, 자기 비즈니스 논리 위에서 먼저 선택하는 거.

데이터 계층화 전략을 먼저 설계한 버티컬은 AI를 유통 채널로 활용하면서도 핵심 워크플로우를 지킬 수 있어요. 그렇지 않은 버티컬은 임계치가 오는 순간 플랫폼 논리에 끌려가게 되고요.

AI가 검색을 장악하는 속도와 버티컬이 자기 데이터 전략을 완성하는 속도. 지금은 이 두 속도가 맞붙는 시점이에요.