바이트댄스가 영상 생성 AI의 기준을 다시 썼다 — Seedance 2.0 프롬프트 9선

틱톡을 만든 회사가 AI 영상 생성 모델을 내놨어요. 그리고 솔직히, 결과물이 좀 무섭습니다.

헤드라인

바이트댄스(ByteDance) AI 연구팀의 Seedance 2.0은 Dreamina나 캡컷에서 바로 쓸 수 있어요. "또 나왔네" 싶을 수 있는데, 이번엔 진짜 다른 게 하나 있거든요. 입력 방식이에요. 텍스트, 이미지 최대 9장, 비디오 최대 3개(총 15초), 오디오 최대 3개(MP3)를 동시에 넣을 수 있어요. 총 12개 파일 조합. 현존 AI 영상 모델 중에서 이렇게 넓은 입력을 받는 건 Seedance 2.0이 처음이에요.

바이트댄스는 이걸 '쿼드모달(4중 모달) 입력'이라고 부르더라고요. (이름은 좀 거창한데, 실제로 해보면 납득이 갑니다.)

소리까지 동시에 만든다 — 순차 생성이 아닌 네이티브 동시 생성

기존 영상 생성 AI는 영상 먼저 만들고, 소리를 나중에 입히는 2단계 파이프라인이었어요. Seedance 2.0은 영상과 오디오를 한꺼번에 만들어냅니다. 듀얼 채널 스테레오 음향이고, 8개 이상 언어로 립싱크까지 돼요.

근데 실제로 써본 크리에이터들 반응이 재밌어요. 함께 생성되는 오디오보다 Varco Sound 같은 별도 도구로 사운드를 입히는 경우가 더 많다고 해요. 동시 생성이 가능하다는 것 자체가 중요하지, 아직 그 품질이 전문 사운드 도구를 대체하진 못하는 거죠. 기술은 앞서갔는데 실용성은 반보 뒤. 흔한 패턴이에요.

캐릭터 일관성도 크게 좋아졌어요. 프레임 간 얼굴이 바뀌고, 의상이 갑자기 달라지는 — 기존 AI 영상의 그 어색한 "깜빡임" 문제를 상당 부분 잡았습니다. 물리 시뮬레이션도 현실적이에요. 무게 분배, 관성, 착지 역학까지. 여러 인물이 동시에 움직이거나 빠른 동작 전환이 일어나는 장면에서도 물리적 일관성이 유지돼요.

가격은 매일 120 크레딧 무료 제공, 유료는 월 $9.9부터. 진입 장벽이 거의 없다는 얘기예요.

프롬프트 9개로 본 Seedance 2.0의 실력

직접 텍스트-투-비디오만으로 테스트한 결과를 공유할게요. 9가지 장르별 프롬프트인데, Seedance 2.0의 강점이 어디에 있는지 드러나더라고요.

1. 여행 브이로그 숏츠 — 파리 배경의 핸드헬드 카메라 느낌. 크루아상, 카페 테이블, 루브르 앞마당, 강변 석양을 빠르게 전환하는 9:16 세로 영상이에요. 프롬프트 핵심은 `energetic handheld camera`, `whip-pan transitions`, `loop-friendly ending`이에요.

2. 제품 설명 영상 — 휴대용 정수 필터가 중앙에서 천천히 회전하고, 내부 레이어가 절개 뷰로 보이면서 단계별 라벨이 붙는 깔끔한 설명 영상. `cutaway views reveal the internal layers`가 핵심이에요.

3. 시네마틱 포트레이트 — 비 오는 날 차콜 코트를 입은 인물이 진홍색 우산을 펴는 장면. 빗방울이 우산 가장자리를 따라 흐르는 디테일까지 표현돼요. `slow push-in`과 `muted blue tones`로 분위기를 잡았어요.

4. 자연 다큐멘터리 — 새벽 호숫가에서 안개 속으로 유니콘이 등장해 얕은 물을 달리는 장면. 느린 트래킹 샷에 물방울이 슬로모션으로 튀어요. 자연 다큐 스타일을 꽤 잘 살리더라고요.

5. 도시 타임랩스 — 골든아워의 교차로. 보행자들이 사방으로 건너고 차량 헤드라이트가 켜지기 시작하는 장면을 하이앵글 고정 카메라에 돌리 줌으로 잡았어요. `warm amber and cool blue contrast`가 황금시간대의 느낌을 만들어줍니다.

6. 댄스 영상 숏츠 — 거울 벽 흑실에서 웨이브 동작을 하는 댄서. 흰색에서 일렉트릭 블루로 변하는 조명 펄스에 맞춰 핸즈, 부츠, 얼굴 클로즈업이 빠르게 전환돼요. `beat-synced body motion`이 핵심인데, 실제로 리듬감이 느껴집니다.

7. 음식 클로즈업 — 이중 냄비 위에서 다크 초콜릿이 천천히 녹는 장면. 극단적 클로즈업에 45도 오버헤드 크레인 회전. 단일 따뜻한 스포트라이트가 위에서 내리쬐면서 갈색과 호박색이 어우러져요.

8. 무협 영상 — 비 내리는 대나무 숲에서 백의 검객과 삿갓 무사의 대결. 스테레오 비소리, 천둥, 진흙 위 발소리, 금속 울림이 액션과 동기화되는데, 여기서 네이티브 오디오-비디오 동시 생성의 강점이 제대로 드러납니다. `water rings explode outward from the steel`이라는 프롬프트가 실제로 구현된다는 게 놀라워요.

9. 틱톡 스타일 GRWM — 저녁 파티 준비 과정을 거울 앞에서 찍는 숏폼. 낮 메이크업에서 파티 룩으로 변신하면서 드레스, 악세서리, 힐을 차례로 착용하고 마지막에 카메라를 향해 자신감 넘치는 한 컷. 뷰티-라이프스타일 틱톡 감성을 정확히 잡아냅니다.

틱톡 회사라서 숏폼이 잘 되는 건 우연이 아니다

9개 프롬프트 중에서 인물이 등장하는 숏폼 스타일 — 여행 브이로그, 댄스, GRWM — 이 특히 잘 뽑혀요. 왜냐고요? 바이트댄스가 틱톡을 운영하고 있으니까요. 틱톡의 수억 개 영상이 학습 데이터로 쓰였을 거라는 건 충분히 합리적인 추론이에요.

근데 이건 바이트댄스만의 이야기가 아니에요. 인스타그램, 페이스북, 쓰레드, X, 유튜브. 사용자가 올리는 글, 이미지, 영상 전부 AI 학습에 들어가고 있어요. 우리는 무료로 학습 데이터를 제공하는 셈이죠. (그리고 그 데이터로 만든 모델이 유료로 팔리고 있고요.)

잠깐 딴 얘기인데, Wordpress와 Tumblr 사용자 데이터가 OpenAI와 Midjourney 학습에 사용될 예정이라는 보도가 있었어요. Reddit은 구글과 계약을 맺었고요. Figma도 콘텐츠 학습 동의가 기본 설정이에요. GitHub까지 개인 계정 기본값이 'AI 학습 허용'으로 바뀌었습니다.

다시 본론으로 오면, AI 영상 생성의 품질이 좋아지려면 대량의 영상 데이터가 저작권 고려 없이 학습되어야 한다는 딜레마가 있어요. AI가 주는 편의를 누리면서 동시에 내 데이터는 보호하고 싶다? 솔직히 양립이 어렵습니다. 지금은 미국과 중국 간 경쟁, 미국 내 빅테크 간 속도전이 한창이어서 윤리가 끼어들 틈이 없어요.

Veo 2가 공개됐을 때 받았던 충격. 그게 이제 바이트댄스 진영에서 비슷한 수준으로 따라왔어요. 데이터를 만드는 건 사람인데, 그 공로가 인정받을 날이 올까요? 모르겠어요. 근데 올 때까지 AI 영상 모델의 품질은 계속 올라갈 거예요.