Google I/O

Google ukázal AI, která vidí a slyší jako člověk. A také generátor videa a procesor Trillium

  • Google ukázal „lidskou“ AI Project Astra
  • A také nový generátor obrázků Imagen 3 a videa Veo
  • Vše budou pohánět nové AI procesory Trillium

Google dnes odstartoval svoji výroční konferenci I/O 2024 a aby náhodou nikdo nezůstal na pochybách, o čem to letos celé bude, Logan Kilpatrick z týmu Gemini už v pondělí podvečer vypustil na síť X malou ochutnávku:

Jeho mobil pomocí kamery snímá dění okolo a AI robot v reálném čase odpovídá, co všechno vidí. Podstatné je ale to, že Kilpatrick svůj tweet zveřejnil zhruba dvacet minut před tím, než s podobnou technologií GPT-4o vyrukovalo OpenAI a ve své demonstraci z Londýna ukazovalo vlastně úplně to stejné.

Úvodní přednášku I/O 2024 najdete na YouTube

Tak že by to byl tentokrát Google, kdo ostatním vypálil rybník a po dvou letech zase převezme štafetu lídra na poli AI? Anebo jsme jen v zajetí líbivých a na míru připravených klipů, které s reálným výkonem AI chatbotů pro koncové uživatele nemají zase až tak moc společného?

Project Astra a AI agenti

Teď už víme, že jsme v pondělí večer viděli první ukázku Project Astra – multimodální AI postavené nad technologií Gemini. Některé její prvky by měly proniknout do reálných produktů od Googlu v průběhu letošního roku.

Multimodální Astra v akci:

Astra je součástí vize pokročilých AI agentů, které na keynote představil šéf Googlu Sundar Pichai. Takový agent by neměl být jen jednoduchý chatbot, jak jsme na ně zvyklí, ale Pichai ukázal demo, ve kterém AI agent rovnou vyřešil problém. Třeba koupil tenisky.

482e3cf6-dbef-4e49-871c-2997ae0245f33ccc66d8-31b5-4962-b7dc-f3b428575766
Vize komplexních AI agentů, které problém rovnou vyřeší. Třeba koupí boty

Rýchlý motor Gemini 1.5 Flash

Aby mohla generativní AI v reálném čase analyzovat video, musí být rychlá, Google proto na I/O představil také nový model Gemini 1.5 Flash. Je určený pro aplikace, které potřebují velmi nízkou latenci, ale zároveň velké kontextové okno (paměť na to, čemu se právě teď AI věnuje) a opět multimodalitu.

2331c1ce-230e-4c58-a55d-3d7aaadbf01926921c1c-3e8e-4997-a4c7-1974797b249c
Rychlý Gemini 1.5 Flash pro aplikace s nízkou latencí

Flash proto pracuje s pamětí o velikosti 1 milion tokenů (pro vybrané partnery až 2 miliony) a vedle textu rozumí také obrazu a zvuku. Gemini 1.5 Flash bude k dispozici pro vývojáře podobných aplikací jako je Astra.

AI generátor obrázků Imagen 3

Zatímco obrázkové generátory Midjourney a DALL-E si už dnes vyzkoušel skoro každý, málokdo tuší, že stejnou technologii má už roky také Google. Jmenuje se Imagen, ale zatím není veřejně dostupná pro širokou globální veřejnost.

6ca60c33-b912-4221-9452-137736b8ff942bcd38cf-3635-42a1-8048-e9c3aa572f1ecba875fd-d72d-48c5-bd4f-be5c543f51f8
Takhle kreslí Google Imagen 3

K dispozici je sice třeba ve webové aplikaci Google Labs ImageFX, ta však opět nefunguje v zemích EU, čili na starém kontinentu máme povětšinou opět smůlu.

Google v každém případě na I/O představil její další generaci Imagen 3, která slibuje vyšší fotorealističnost, a chápání složitějšího popisu scény a detailů, které má kreslit. Nakonec by si měl Imagen 3 velmi slušně poradit také s textem, na kterém si dodnes většina AI generátorů láme zuby.

ImageFX doplňují ještě aplikace MusicFX a VideoFX pro tvorbu zvuku a videa, ale ani ty nejsou k dispozici v Česku.

AI generátor videa Veo

Zmíněný VideoFX pohání nový AI generátor videa Veo, který by mohl být protiváhou Sory od OpenAI. Veo umí vytvářet krátké šoty na základě textového povelu nebo jiného videa. V takovém případě Veo dokáže navázat na předchozí část a dokreslí dalších pár sekund.

Google Veo:

Google slibuje konsistentní záběry bez deformací přesně tak, jak jsme to viděli v Soře. V ukázce výše se chlubí, jak na vývoji spolupracuje s filmaři a není to nic nového – natož rychlá reakce na Soru – na technologii prý pracoval dlouhé roky.

cba15b14-1c2b-492d-aa15-4be6b9c96e5a64a4b431-1c60-4b2c-904e-46f0d81629fb
Tvorba videa podle textových povelů ve webové aplikaci VideoFX

AI procesor Trillium

Google trénoval dosavadní verze Gemini na svých vlastních serverových AI akcelerátorech TPU (Tensor Processing Unit) 4. a 5. generace. Poptávka po výkonu ale neustále roste, a tak na I/O vyrukoval s 6. generací s kódovým označením Trillium. Nesporně pomůže všem představeným novinkám.

3102edc9-6826-42bc-844b-e7516054029f05498a10-6c82-4e1f-9b2e-8af3fe3f15996137b34d-0b74-4271-afd9-699949915ecc
Google ve svých datacentrech letos nasadí 6. generaci TPU a zkraje příštího roku pak také nejnovější akcelerátory od Nvidie s architekturou Blackwell 

Trillium je 4,7× rychlejší než předchůdci a bude k dispozici v infrastruktuře Google Cloud i pro ostatní. V souvislosti s tím se Pichai pochlubil, že už zkraje příštího roku v datacentrech Cloud nasadí také nové GPU akcelerátory Blackwell, se kterými Nvidia vyrukovala letos v březnu na konferenci GTC.

Diskuze (12) Další článek: OpenAI se pochlubilo všemodální AI GPT-4o. Už se to chová skoro jako člověk, protože to vidí a slyší

Témata článku: , ,