시댄스로 만든 영상을 틱톡에 올렸더니 "이거 어디서 촬영한 거예요?"라는 댓글이 달렸어요. AI로 만들었다는 걸 아무도 몰랐어요.
핵심은 간단했어요. "realistic video"가 아니라 **"9:16 vertical music video"**처럼 포맷을 알려주는 거예요. 아래 5개는 저희가 실제로 테스트해서 "진짜 같다"는 반응을 받았던 숏폼 프롬프트예요.
1. K-POP 스타일 댄스 뮤직비디오
"9:16 vertical music video, low-angle medium shot, a lively stylish young woman dancing directly to camera against a clean high-saturation sky backdrop, energetic pop commercial aesthetic, fixed camera for most shots, ultra smooth rhythm and choreography, interactive performance, confident smile, playful attitude. Shot 1 (0-1s): girl in cyan top and pale yellow skirt, hands on cheeks, then points to camera, cute and lively, ending with a very fast clockwise spin transition with strong swoosh ener..."
숏폼 분석: "9:16 vertical music video" — 포맷 선언이 첫 줄에 나와야 해요. 시댄스는 기본적으로 16:9 가로 영상을 생성하려는 경향이 있고, "vertical"만이 아니라 "vertical music video"라고 써야 댄스 안무, 카메라 각도, 조명 스타일 전체를 뮤직비디오 방식으로 처리해요. "dancing directly to camera"와 "interactive performance"는 틱톡에서 잘 되는 댄스 영상의 핵심인 4번째 벽 깨기예요. 샷을 1초 단위로 자르고 전환 방식까지 지정하면 컷 사이의 에너지가 끊기지 않아요.
직접 뮤직비디오 프롬프트를 쓸 때는 전환 방식을 빠뜨리지 마세요. "ending with a very fast clockwise spin transition with strong swoosh energy"처럼 샷이 어떻게 끝나는지를 지정하면 다음 샷으로 넘어갈 때 흐름이 끊기지 않아요. 배경도 단색 고채도로 잡으면 틱톡 알고리즘이 선호하는 시각적 선명도가 유지되고 댄서가 배경에 묻히지 않아요.
2. 도심 긴급 상황 — 다큐멘터리 스타일
"15-second vertical emergency street incident, realistic cinematic documentary style, 9:16. Reference binding: @ Image1 is the main subject and must remain the same adult young woman throughout the full video. Preserve her exact face, long straight dark-brown hair with center part, fair skin, soft oval face, defined eyeliner, glossy pale pink lips, multiple silver ear studs, and yellow one-shoulder knit top with a silver oval brooch. Do not age-shift her. Do not change hairstyle, outfit, or ident..."
숏폼 분석: "Reference binding"이 이 프롬프트의 핵심이에요. 시댄스의 가장 큰 약점 중 하나가 긴 영상에서 캐릭터 일관성이 흔들리는 거예요 — 얼굴이 달라지거나, 의상 디테일이 사라져요. "must remain the same throughout the full video"와 "Do not age-shift her"처럼 부정 지시를 명시하면 그 드리프트를 막을 수 있어요. "documentary style"은 핸드헬드 카메라, 자연광, 현장감 있는 사운드를 통째로 불러와요 — 연출된 픽션이지만 찍힌 것처럼 보이는 게 소셜에서 가장 잘 되는 포맷이에요.
레퍼런스 이미지만 올리고 캐릭터 묘사를 빠뜨리면 샷이 바뀔 때 외형이 조금씩 달라져요. 이미지 + "Preserve her exact face" + 의상·헤어 텍스트 묘사를 세트로 쓰는 게 가장 안정적이에요. 소셜용 숏폼에서는 "documentary", "raw handheld footage", "phone camera" 같은 포맷 키워드가 AI 티를 가장 효과적으로 지워줘요.
3. F-16 위에서 서핑 — 바이럴 액션
"aesthetic: Raw 35mm handheld, high altitude sun haze. One unbroken continuous tracking shot. No cuts. All real time. audio: Full constant jet engine roar, wind blast, no other sound.
timeline:
- 0-3s: Normal guy in baggy cargo shorts and flip flops is standing perfectly relaxed balancing on top of the wing of an F16 doing 350mph at 10,000 feet.
- 3-7s: The pilot leans out of the canopy, gives a thumbs up towards the guy on the wing. The guy leans forward slightly, smiles and returns the thum..."
숏폼 분석: 바이럴의 핵심은 "이게 실제로 가능해?"라는 의문을 유발하는 거예요. "Raw 35mm handheld"와 "No cuts. All real time"이 그 사실감을 만들어요 — 핸드헬드의 미세한 흔들림이 "누군가가 실제로 촬영한 것"처럼 보이게 하고, 컷이 없으면 편집된 느낌이 사라져요. "Full constant jet engine roar, wind blast, no other sound"처럼 현장음만 지정하면 배경음악이 없어서 다큐멘터리 질감이 살아나요. "Normal guy in baggy cargo shorts and flip flops" — 평범한 사람이 불가능한 상황에 있다는 대비가 바이럴 포인트예요.
바이럴 소재를 고를 때는 "평범함 + 불가능"의 공식을 써보세요. 운동복 차림으로 우주선에 타거나, 슬리퍼 신고 에베레스트를 오르는 것처럼 캐릭터의 일상성과 상황의 비현실성을 극단으로 대비시키면 돼요. 여기에 "No cuts. All real time"으로 원테이크 질감을 더하면 시청자가 영상을 멈추고 다시 보게 만드는 훅이 생겨요.
4. 배구 스파이크 — 스포츠 하이라이트
"shot": { "lens": "24mm wide-angle", "starting_position": "Camera low and to the left of the attacking player, matching the reference image exactly. Player leaping high, right arm extended toward the frozen ball above. Net runs diagonally into background.", "motion": "bullet-time 360° orbit around the frozen spike moment — slow, sweeping arc" }
숏폼 분석: 스포츠 하이라이트는 틱톡과 릴스에서 항상 높은 조회수를 만드는 포맷이에요. 불릿타임은 스파이크가 터지는 0.1초의 순간을 360도 카메라로 7-8초에 걸쳐 포착해요 — 현실에서는 볼 수 없는 각도와 속도로 그 순간을 경험하게 해요. "24mm wide-angle"과 "Camera low and to the left"의 조합이 선수를 더 크게, 점프를 더 높게 보이게 만들고, "Net runs diagonally into background"로 카메라가 돌 때 배경이 역동적으로 변해요.
축구, 농구, 격투기 어느 종목이든 "결정적 순간 + 저각 광각 + 불릿타임 360도" 공식으로 쓸 수 있어요. 종목마다 가장 극적인 순간이 다른데, 그 순간을 "frozen [동작] moment"로 명시하고 카메라 시작 위치를 피사체 아래쪽에 배치하면 어떤 스포츠든 같은 공식이 통해요. 스포츠 하이라이트를 직접 만들 때 레퍼런스 이미지로 선수 자세를 고정하면 AI가 의도한 동작의 정확한 프레임을 잡아줘요.
5. 세계 육상 선수권 — TV 중계 스타일
"Film Style: Authentic 4K Ultra-HD Global TV Sports Broadcast. Professional high-shutter speed sports photography. Visual Elements: On-screen TV graphics, 'LIVE' bug in top corner, 'WORLD ATHLETICS CHAMPIONSHIPS' scoreboard overlays. Camera Behavior: Rapid-fire professional cuts every 2 seconds. High-speed gimbal tracking and aerial helicopter shots. Color Grade: Vibrant stadium daylight, high dynamic range, crisp whites and deep track oranges. Audio: Immersive spatial sound. High-energy, breathl..."
숏폼 분석: "Authentic 4K Ultra-HD Global TV Sports Broadcast"로 시작하면 화면 구성, 색보정, 편집 리듬 전체를 방송 중계 방식으로 처리해요. "LIVE bug in top corner", "scoreboard overlays" 같은 온스크린 UI 요소를 프롬프트에 넣으면 그냥 달리기 영상이 세계 선수권 중계로 바뀌어요. 한 줄 차이예요. "Vibrant stadium daylight, crisp whites and deep track oranges"처럼 그 장소의 특징적인 색상에서 색보정을 끌어내면 가장 사실적인 결과가 나와요.
이 방식은 스포츠 외에도 쓸 수 있어요. "Authentic Netflix documentary", "Live news broadcast", "Reality TV confessional cam" 같은 포맷 선언을 첫 줄에 넣으면 그 포맷에 맞는 촬영 방식과 편집 리듬이 통째로 적용돼요. 온스크린 UI 요소 — 자막 바, 로고, 타임코드 — 를 명시하면 AI가 만든 영상이라는 느낌이 사라지고 실제 방송처럼 보여요.
숏폼 프롬프트 체크리스트
시댄스로 숏폼을 만들 때 이 4가지를 확인해요:
- "9:16 vertical" 첫 줄 명시 — 포맷 선언이 가장 먼저예요. 뒤에 쓰면 무시될 수 있어요. "vertical music video", "vertical documentary"처럼 장르를 붙여야 전체 연출 방식이 바뀌어요.
- 방송/촬영 포맷 선언 — "music video", "documentary", "TV broadcast", "handheld raw footage" 등 실제 존재하는 포맷을 레퍼런스로 쓰세요. AI는 그 포맷에 맞는 카메라, 조명, 편집 패턴을 통째로 가져와요.
- 카메라 움직임 물리적으로 지정 — "fixed camera", "handheld", "gimbal tracking", "low angle" 등 카메라의 물리적 상태를 명시하세요. "dynamic" 같은 수식어는 의미가 없어요.
- 캐릭터 외형 고정 — 레퍼런스 이미지 + 의상·외형 묘사 + "must remain the same throughout" 조합이에요. 레퍼런스 이미지만 쓰면 샷이 바뀔 때 외형이 드리프트해요. 텍스트 묘사가 앵커 역할을 해줘요.
scenic.sh에서 더 많은 숏폼 프롬프트를 확인하세요.