To fantastické video s ukázkou AI Gemini je lež. Neumí pracovat s videem, ani mluvit, natož v reálném čase

  • Google představil dlouho očekávanou AI Gemini
  • Ukázka její nejpokročilejší verze připomíná sci-fi
  • Běžný smrtelník se ale zatím dostane jen k její slabší verzi

Oživeno v sobotu 9. prosince 2023:

To video (viz původní článek níže) uhranulo celý svět. Google v jeho úvodu píše: „Toto video ukazuje některé z našich oblíbených interakcí s Gemini.“ Hned o kousek dále: „Sekvence byly zkráceny“. Všem bylo jasné, že video bylo editované, ale nabyli jsme dojem, že AI Gemini je opravdu schopná real-time hlasové komunikace a interakce se streamem z kamery. Také jsme přijali zprávu, že si to sami ještě nevyzkoušíme, že je to něco z budoucnosti, že technologie ještě není připravená na ostrý provoz.

Jenže pak se Parmy Olson z Bloombergu zeptala na podrobnosti a odpověď z Googlu celou věc posunula do zcela jiného světla: „Ve skutečnosti interakce neprobíhala v reálném čase, ani hlasem. Google potvrdil, že jako vstup pro Gemini posloužily statické snímky (byť vyjmuté z videa) a komunikace probíhala prostřednictvím textových promptů.“

…až pak někdo textové příkazy namluvil a vše zeditoval do působivého videa. Pravdivé nejsou ani bleskurychlé reakce neuronky.

Výsledek? Google tvrdil, že má něco o level lepšího než OpenAI, ale ve skutečnosti pořád jen dohání. A navíc si teď uříz ostudu.


Původní článek ze 7. prosince 2023 vyšel s následujícím titulkem:

Nejlepší video, které tento týden uvidíte. Google představil úžasnou AI Gemini

Google po dlouhém očekávání konečně představil svůj nový AI model Gemini a chlubí se, že to je v tuto chvíli ta nejpokročilejší umělá inteligence na světě. Ostatně, podívejte se na video výše, ze kterého vám spadne brada.

Maličký, základní a brutální Gemini 

Gemini je multimodální model AI, což znamená, že vedle schopnosti vést dialog jako všichni ostatní chatboti zvládne pracovat také s obrazem a zvukem. A podle ukázek z původního videa to umí sakra dobře!

Umělá inteligence Gemini bude k dispozici ve třech velikostech:

  • Gemini Nano: Nejjednodušší, pro mobilní telefony aj.
  • Gemini Pro: Zlatá střední cesta
  • Gemini Ultra: Nejpokročilejší verze, v testech překonává GPT-4

V úvodním videu vidíme právě schopnosti Gemini Ultra

cbf1d9c2-9840-4095-b2d7-351cfb3932a1
Srovnání výkonu různých verzí Gemini vztaženého ke Gemini Pro. Nano bude ve dvou verzích pro nejslabší počítače (1) a výkonnější telefony (2)

Gemini Nano nejprve dorazí na telefony Pixel 8 Pro, kde pomůže se sumarizací textu, chytrými odpověďmi a dalšími vychytávkami generativní AI. 

Gemini Pro v Google Bard, ale ne v zemích EU

Google už v tuto chvíli nasadil Gemini Pro do chatbota Bard, ale zatím jen v angličtině a v zemích mimo EU. Do unijní Evropy dorazí opět o něco později, jakmile se vyřídí všechny formality okolo naší tradiční byrokratické brzdy jménem GDPR.

V příštím roce pak na řadu přijdou vedle angličtiny i další jazyky. Opakuje se tedy situace z letošního jara a relativně pomalého spouštění prvního Barda. Snad to bude tentokrát svižnější.

560dcad7-a212-46a1-9f5c-8a655ed907bd
Toto teď prý bude pro Google Bard brnkačka

Podle interních testů (PDF) by měl být Gemini Pro lepší než GPT-3.5, který je zdarma dostupný v základní verzi ChatGPT. Jak na tom bude jím poháněný Bard ale ukážou až reálné každodenní zkušenosti běžných uživatelů.

Gemini Ultra v testech překonává ostatní

Google nás úvodním videem navnadil na schopnosti Gemini Ultra, a tak teď bude celý internet zajímat, kdy se právě tento nejpokročilejší model dostane k běžným smrtelníkům. V drtivé většině standardních benchmarků AI překonává GPT-4 od OpenAI, k běžným koncovým uživatelům se ale dostane až někdy příští rok.

56001bec-33cd-4e1d-b212-24be9a76aabd
Gemini Ultra, Gemini Pro, GPT-4, GPT-3.5, PaLM 2 ,Claude 2, Grok 1 a Llama-2 v několika respektovaných AI benchmarcích

Google Bard Advanced dorazí příští rok

Google totiž chystá speciální verzi chatbota Bard Advanced, kterou nabídne nejprve jen v uzavřené betaverzi vybraným šťastlivcům. Vzhledem k jasnému oddělení základního a pokročilého chatbota se nabízí otázka, jestli půjde po vzoru ChatGPT Plus o placenou službu.

Pro širší masy se Bard Advanced otevře později v roce 2024 a nic bližšího o tom nevíme. Jen to, že má nabídnout cutting-edge AI experience. Jestli to bude něco podobného jako to, co je v úvodu videa, zůstává otázkou.

Gemini Pro skrze API pro vývojáře

Už za pár dnů, 13. prosince, nicméně Google zveřejní model Gemini Pro také skrze své API v ekosystému Google Cloud. Vývojáři je najdou v AI Studiu a balíku neuronek Vertex AI.  

Aby toto všechno firma utáhla, spouští také novou nabídku svých AI koprocesorů TPU – TPU v5p, který by měl být 2-3× rychlejší než předchozí generace. Ironií osudu firma demonstruje zrychlení na době potřebné k učení modelu GPT-3, z čehož se stala v podstatě norma. Kdo ví, třeba se příště stane benchmarkem i samotný Gemini.

Šéf Googlu a další představují éru Gemini:

Určitě si přečtěte

Články odjinud