O konci éry němých AI videí jsme psali už v květnu, když Google představil engine Veo 3. Jenže prvně fungoval pouze v USA, takže jsme mohli jen závidět. V uplynulých týdnech bez většího rozruchu Google zpřístupnil Veo 3 uživatelům služby Gemini Pro i v Česku.
Pokud v okně pro prompt na svém Gemini uvidíte vlevo Video, i vy můžete vytvořit krátké osmisekundové video dle textového zadání. Prompt můžete zadat i v češtině.
Veo3 často preferuje angličtinu. I když jsem v promptu na obrázku výslovně řekl, že chci, aby kočka mluvila česky, přesto se mi nedávno vygenerovalo video, kde mluví anglicky. Nyní už jen na základě českého promptu kočka mluví česky:
Hned další video, ale navzdory českému zadání mluvilo anglicky. Pomohlo zadat prompt anglicky a vyžádat si, aby postavy na videu namluvili zadaný konkrétní anglický text česky. Nestačí přitom říci jen „mluví česky“, musíte přesně definovat text. Například „A Czech television reporter on the ČT24 channel stands next to a destroyed building in the city center and dramatically in czech language announces the arrival of aliens.“ nám stále mluvil anglicky:
Pokročilý prompt
Jen osm sekund videa ale neznamená, že budete vytvářet obyčejná videa s jednoduchými prompty. Můžete se pustit i do mnohem kreativnějších projektů a pečlivě strukturovaně popsat požadovanou scénu. Například tento JSON:
{
"scene_1": {
"seconds": "0-2",
"description": "Close-up of a single LEGO brick on a clean white table. Bright studio lighting. A hand gently places it down, and the camera slowly tracks in."
},
"scene_2": {
"seconds": "2-5",
"description": "Fast time-lapse begins: colorful LEGO bricks fly in from off-screen, clicking together to form a futuristic city skyline. Smooth camera movements circle around the build as it grows."
},
"scene_3": {
"seconds": "5-7",
"description": "The nearly finished city lights up with tiny glowing LED windows and moving LEGO vehicles on miniature streets. Cinematic lighting with realistic reflections."
},
"scene_4": {
"seconds": "7-8",
"description": "Camera pulls back to reveal the completed massive LEGO city in full glory. The LEGO logo fades in over the scene with the tagline: 'Build the world in your hands.'"
}
}
Vygeneruje takovéto pěkné video (to vaše bude vypadat mírně jinak, ale ve stejném duchu):
A takhle to dělají mistři
Nemusíte to psát ve formátu, který vám nevyhovuje, měl by být hlavně strukturovaný, aby si umělá inteligence mohla bod po bodu projít, co má vlastně udělat, a nenabízela vám návrhy, které nechcete.
Například tento delší kód nemá charakter žádného programovacího jazyka:
metadata:
prompt_name: "IKEA Empty Room Assembly"
base_style: "cinematic, photorealistic, 4K"
aspect_ratio: "16:9"
room_description: "An empty, large, sunlit Scandinavian room with white walls and light wood floors."
camera_setup: "A single, fixed, wide-angle shot. The camera does not move for the entire 8-second duration."
key_elements:
- "A sealed IKEA box with logo visible"
assembled_elements:
- "bed with white duvet"
- "yellow IKEA throw blanket"
- "bedside tables"
- "lamps"
- "wardrobe"
- "shelves"
- "mirror"
- "art"
- "rug"
- "curtains"
- "potted plants"
negative_prompts: ["no people", "no text overlays", "no distracting music"]
timeline:
- sequence: 1
timestamp: "00:00-00:01"
action: "In the center of the otherwise empty room, a sealed IKEA box sits on the floor and begins to tremble gently."
audio: "Low, subtle rumbling sound. The echo of a large, empty room."
- sequence: 2
timestamp: "00:01-00:02"
action: "The box seams burst open with a puff of cardboard dust."
audio: "A sharp 'POP' sound, followed by tearing cardboard."
- sequence: 3
timestamp: "00:02-00:06"
action: "Hyper-lapse: From the fixed wide perspective, furniture pieces fly out of the box and assemble themselves, creating all the items from the 'assembled_elements' list."
audio: "A cascade of satisfying, fast-paced ASMR sounds: whirring, clicking, wood snapping into place."
- sequence: 4
timestamp: "00:06-00:08"
action: "The final piece—the yellow throw blanket—gracefully lands on the newly formed bed. The room is now perfectly furnished and serene. All motion ceases."
audio: "All chaotic sounds stop. A single, soft 'fwoomp' as the blanket lands. The sound of a furnished, quiet room.”
Přesto podle zadání vygeneruje explodující krabici z Ikey, která se výbuchem promění v pečlivě zařízený pokoj. Jako tečka na závěr na postel padne žlutá deka.
Veo je nástroj, fantazii musí mít člověk
U vytváření videa ale víc než kde jinde platí pravidlo „dvakrát měř, jednou řež“. Denně totiž u účtů Gemini Pro můžete vygenerovat jen tři videa, takže na pokusy moc prostoru nedostanete. O důvod víc se pečlivě věnovat promptu a podrobně popsat, co očekáváte. A ta dobrá vygenerovaná videa si raději hned uložte, později se k nim už nemusíte dostat, Gemini je nějak dlouho neschovává.
Z uvedených delších promptů je také jasné, že AI nenahrazuje kreativitu. Někdo to prostě musí vymyslet, detailně popsat, a AI „jen“ vše vygeneruje. Pokud tedy uvidíte podobné působivé AI video, rozhodně neplatí, že někdo jen tak vhodil pár slov do promptu a obratem dostal ten jediný výsledek, který obdivujete. Na druhou strnu je pro vás hranicí jen vaše fantazie a schopnost ji přesně formulovat do strukturovaného zadání.