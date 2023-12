V těchto článcích se snažíme ukazovat především práci s bezplatnými nástroji postavenými na AI. Uděláme ale výjimku, protože analýzy nad nahranými soubory zatím Bing Copilot nebo Bard nenabízejí.

Je to jedna z výhod placené verze ChatGPT Plus. Chatbotu nahrajete soubor s daty, on ho načte a vy se potom jen ptáte na věci související s obsahem.

Dříve se tato funkce jmenovala Code Interpreter, dnes Advanced Data Analysis. Hodí se právě například na rychlou analýzu dat. Nahrajete tabulku a různé transformace, analýzy a výpočty necháte strojům. Jen pokládáte otázky a povely.

Pojďme prozkoumat Netflix

Netflix tento týden vydal zprávu o sledovanosti filmů a seriálů v první polovině roku 2023. Je to tabulka pro Excel s 18 tisíci řádky, na které bude možné pěkně ukázat, co z ní ChatGPT dokáže vyčíst.

V článku ukážu jednotlivé fáze práce s tabulkou na obrázcích. Můžete se ale také podívat přímo na celou nasdílenou diskuzi, kterou jsem s ChatemGPT vedl.

Soubor nahrajete kliknutím na sponku na začátku pole.

Po nahrání se rovnou mohu začít ptát. ChatGPT jsem uvedl do kontextu a požádal ho, aby se mnou pro účely této prezentace mluvil česky. Přišlo mi vhodné, abych upozornil, že samotná data začínají až na šestém řádku za velkou hlavičkou. Potom jsem ale zkusil, že by načtení takového Excelu zvládl i bez této pomoci.

ChatGPT odpověděl, že se mu tabulku podařilo načíst a rovnou popsal její strukturu.

Když kliknete na modrý znak na konci odpovědi, ukáže se okno s kódem Pythonu, který ChatGPT pro aktuální operaci použil. Můžete si ho zkopírovat pro lokální použití.

Abych ověřil, že načtení opravdu proběhlo v pořádku, nechávám si vždycky vypsat první řádky.

Nelíbilo se mi, jak jsou tisíce v milionových číslech oddělené čárkou, požádal jsem tedy o změnu a oddělování mezerou.

Při dotazu na celkový počet filmů a seriálů ChatGPT samozřejmě nezaváhal.

Napadlo mě, že by se seriály daly od filmů odlišit podle textů Season nebo Series v názvu. Požádal jsem tedy o nový sloupec, ve kterém budou řádky tímto způsobem popsané. Nebylo by to vlastně ani nutné. Stačilo by ChatuGPT říct, jakým způsobem má s odlišením pracovat. Ale přijde mi přehlednější, když tuto informaci přidá do sloupce a mohu potom zkontrolovat, že to udělal správně.

Nechal jsem přidat ještě další sloupec s názvem očištěným o čísla sezón.

Nový očištěný sloupec jsem použil pro zjištění skutečného pořadí sledovanosti, kdy seriály už neměly nevýhodu v rozdělení na jednotlivé sezóny. V následujícím obrázku si všimněte zmínek Error analyzing. ChatuGPT se občas nepodaří sestavit kód na první pokus. Když vidí chybu, sám se ji hned snaží opravit. Tady se to napotřetí podařilo.

Napadlo mě podívat se stejným způsobem jen na tituly, které jsou dostupné globálně.

Sledují se na Netflixu víc filmy, nebo seriály? Stačí se zeptat.

Jak tato analýza dopadne, když se podíváme pouze na filmy a seriály, které vznikly letos nebo loni?

Nyní mě budou zajímat počty filmů a seriálů podle roků vzniku. Tady se to ChatuGPT podařilo až napočtvrté, ale ani potom se mi výsledek nějak nezdál…

Požádal jsem tedy znovu o stejnou analýzu s menšími úpravami, napadlo mě navíc přidat ještě sloupec s podílem seriálů. A upozornil jsem na podivné nuly v jednom řádku. ChatGPT našel chybu a opravil ji – všimněte si, že třeba i údaje u roku 2023 jsou jiné.

Tohle je samozřejmě nevýhoda. Pokud nebudete analyzovat kód, který chatbot při výpočtu použil, můžete se dostat k nesprávným údajům. Anebo se může stát, že použijete nejednoznačné zadání, které AI pochopí jinak než vy. Když se vám něco nebude zdát, nechte udělat třeba nějakou křížovou kontrolu.

U takových výsledků si ChatuGPT většinou říkám o grafické znázornění dat. V tomto případě jsem to nedělal, obrázky se totiž v nasdílené konverzaci neukážou. Tak jen ukázka, jak to vypadalo, když jsem si se stejnou tabulkou hrál před tím, než jsem se rozhodl připravit tento článek.

Nyní jsem požádal o stejnou analýzu, ale na úrovní sledovanosti, ne počtu počtu titulů. Trochu přeskakuji, při prvním pokusu ChatGPT zase začal oddělovat tisíce čárkou a poté jsem ještě požádal o zaokrouhlení procent.

Během této konverzace jsem zapomněl na možnost požádat ChatGPT, aby tabulku po úpravách a případně s nějakým dalším filtrem připravil ke stažení. Obrázek proto přidávám dodatečně. Musel jsem už také znovu nahrát soubor, na včerejší verzi už ChatGPT nedokázal navázat. A dokonce zkoušel protestovat, že si mám filtry a export připravit sám…

Tuto funkci ChatGPT tak můžete použít třeba jen pro požadovanou transformaci dat. Nemusíte se vůbec vyptávat na výsledky analýz, jen zadávat povely, co má AI s tabulkami udělat. A na závěr si výsledek stáhnout.

Kontext neudrží věčně

S ChatemGPT jsem si během přípravy tohoto článku povídal docela dlouho a přišlo mi, že začíná víc a víc zmatkovat. Se stále novými informacemi se totiž může začít blížit hranice, kdy ve své paměti už nedokáže udržet kontext. V této diskuzi začal dělat velké chyby a už ani nepomohlo, když jsem se ho snažil vrátit zpět na začátek k importu původního souboru.

S tímto omezením jazykových modelů je potřeba počítat. Jakmile se začnou objevovat chyby, je často lepší zahájit novou diskuzi. Znovu vložit tabulku, požádat o úvodní transformace a pokračovat novými dotazy.

Join? Bez problémů

Operace, které jsem v tomto článku nad tabulkou Netflixu ukazoval, by bylo celkem snadné provést i přímo v Excelu. Ale mnohem pomalejší a méně pohodlné, než když jsem takhle nechal práci na ChatuGPT.

Analýza dat v ChatuGPT je velmi silný nástroj. Nemusíte ani zůstat u jedné tabulky. Nahrajte jich víc a nechte si je spojit (join) podle zadaného klíče.



Ukázka výsledku spojování dvou tabulek. K datům z meteostanice jsem podle hodiny měření přidal z druhého CSV slovní označení období dne

Nezapomeňte ani na možnost zkopírovat si kód v Pythonu, který ChatGPT při analýze použil. Můžete ho posléze po drobné úpravě pouštět lokálně a třeba opakovaně nad daty se stejnou strukturou.