Experiment MIT na lidech: Ti, kteří psali odborné texty s ChatGPT, byli o 37 % rychlejší. A stejně kvalitní | Zdroj: Midjourney

Zdroj: Midjourney

Experiment MIT na lidech: Ti, kteří psali odborné texty s ChatGPT, byli o 37 % rychlejší. A stejně kvalitní

Experiment na americké univerzitě MIT zkoumal, jak mohou nástroje AI pro práci s textem – konktrétně ChatGPT – reálně pomoci při odborné práci. Zjistil, že pro vypracování úkolů s nimi stačilo o 37 % méně času a kvalita výstupů přitom byla vyšší.

U účastníků experimentu, kteří měli možnost při vypracování úkolů používat ChatGPT, hodně narostlo znepokojení, že je AI v jejich profesi může nahradit. Současně jsou ale optimističtější v otázce možnosti zvýšení produktivity pomocí AI a víc optimisticky se dívají na budoucí pokrok v oblasti umělé inteligence.

Část s AI, část bez něj

Výzkum provedli doktorand Shakked Noy a doktorantka Whitney Zhang z ekonomické fakulty MIT. Výsledky publikovali ve stavu working paper, který zatím neprošel odbornými recenzemi. Otevřete si PDF se zprávou, případně ještě toto doplňkové PDF s dalšími výstupy a materiály k průběhu experimentu.

Autoři se věnovali zkoumání dopadů nástrojů umělé inteligence pro generování textů na produktivitu při řešení odborných úkolů střední úrovně. 

Při experimentu zadali 444 vysokoškolsky vzdělaným odborníkům reálné úkoly specifické pro jejich profesi. Byli finančně motivováni, aby se snažili dosáhnout co nejlepších výsledků. Za hodinu své práce mohli očekávat 18 dolarů, což je u online služby Prolific, kde autoři experimentu respondenty získávali, víc než její průměr 12 dolarů za hodinu.

Lidé z marketingu měli napsat tiskovou zprávu o hypotetickém produktu, jiní průvodní dopis k žádosti o grant, manažeři a personalisté připravovali dlouhý e-mail zaměstnancům na zadané citlivé téma. Datoví analytici vypracovali plán analýzy a konzultanti e-mailovou zprávu k tomuto projektu. Každý úkol měl zabrat 20–30 minut a zahrnoval napsání přibližně 400 slov. Pro představu článek, který čtete, má něco přes 1100 slov.

Z účastníků byla náhodně vybrána polovina, která při vypracování používala ChatGPT. K této službě dostali přístup mezi prvním a druhým úkolem, aby bylo možné porovnat vývoj. Kontrolní skupině místo toho nabídli online editor LaTeX Overleaf.

Výsledky posuzovali tři hodnotitelé, kteří měli zkušenosti v dané profesi a byli také motivováni k pečlivému hodnocení. Každému výstupu byla přidělena celková známka a k ní ještě hodnocení kvality psaní, obsahu a originality.

Jak používali ChatGPT?

Účastníci po skončení experimentu popsali, jakým způsobem použili ChatGPT při práci. Mohli zaškrtnout více možností.

image.png 

Možnosti uvedené v grafu (shora):

  • Používám AI pro úpravu a zjednodušení vlastního textu
  • Nechám ho napsat koncept a potom požádám ještě o úpravu
  • Nechám ho napsat koncept, který upravím sám
  • Nechám ho napsat koncept, který bez úprav odešlu
  • Pro shrnutí textu
  • Pro brainstorming

Rychlejší splnění úkolu a lepší hodnocení

V experimentální skupině se do ChatGPT úspěšně přihlásilo 92 % účastníků a 81 % z nich si ho vybralo pro pomoc s druhým úkolem. Když měli posléze vyhodnotit užitečnost tohoto nástroje, dostal 4,4 bodu z 5.

Produktivita práce se měřila výdělkem za minutu. Na obrázku (a) je vidět, že čas nutný pro vypracování úkolu s použitím ChatGPT byl v experimentální skupině (zelená, Treated) výrazně nižší – její účastníci byli produktivnější. Čas se snížil o 10 minut (37 %) v porovnání s kontrolní skupinou, které úkol trval průměrně 27 minut.

Neznamenalo to přitom snížení kvality, viz obrázek (b). Standardní ochylka průměrného hodnocení výstupů s použitím ChatGPT byla o 0,45 vyšší. Tento rozdíl byl přibližně stejný jak u celkového hodnocení, tak u dílčích hodnocení kvality psaní, kvality obsahu a originality.

image.png Zelená skupina používala ChatGPT. Na prvním grafu je vidět výrazné snížení času nutného pro vypracování druhého úkolu. Na druhém je mírnější zvýšení kvality výstupu oproti kontrolní skupině, která neměla přístup k AI

Následující grafy ukazují distribuci času (c) a hodnocení (d) u druhého úkolu. Zelená je experimentální skupina s ChatemGPT a šedé sloupce patří kontrolní skupině, která na to byla sama. Celá distribuce času se s AI posouvá doleva – je vidět, jak byla práce s využitím ChatGPT rychlejší. Distribuce hodnocení se zase posouvá doprava k vyšší kvalitě výstupů.

image.pngDistribuce času stráveného vypracováním úkolu a distribuce hodnocení (čím je známka vyšší, tím je lepší)

U lidí, kteří za svůj první úkol, který zpracovávali ještě bez AI, získali nižší hodnocení, znamenalo zapojení ChatGPT zvýšení hodnocení a snížení stráveného času. U těch, kteří byli dobří i bez umělé inteligence, vysoké hodnocení zůstalo, ale opět se výrazně snížil čas, který potřebovali k vypracování úkolu.

AI ušetří hlavně psaní

Dva doplňkové experimenty zkoumaly účinky AI na vědeckou práci jiným způsobem. V jedné části, která zahrnovala 20 % účastníků, výzkumníci požadovali, aby účastníci v obou skupinách strávili na úkolu přesně 15 minut. Toto nastavení umožnilo interpretovat jakoukoli odlišnost v hodnocení jako čistý efekt ChatGPT. Hodnocení se zde zvedlo o podobných 0,39 standardních odchylek, i když výsledky nebyly statisticky tak jisté.

V dalším doplňkovém experimentu, který zahrnoval 30 % experimentální skupiny, byli respondenti po dokončení druhého úkolu konfrontováni se svým výstupem z prvního úkolu. Měli možnost ho upravit pomocí ChatGPT, pokud si to přejí. Z nich 23 % zvolilo náhradu své odpovědi výstupem z ChatGPT a 25 % se jí inspirovalo při úpravě. To naznačuje, že účastníci vnímali ChatGPT jako užitečný nástroj pro zlepšení kvality výstupu a také jako cestu k úspoře času.

Výzkumníci pozorovali, že ChatGPT zvyšuje produktivitu hlavně tím, že nahrazuje práci: 68 % účastníků experimentu uvedlo, že odevzdali výstupy bez dalších úprav. V průměru odesílali respondenti výsledek jen 3 minuty po vložení velkého množství textu, který pravděpodobně pocházel z ChatGPT.

Neexistuje žádná korelace mezi dobou, po kterou účastníci na úkolu pracují po získání textu z ChatGPT a hodnocením, které nakonec získají. Účastníci používající AI nezískali vyšší průměrná hodnocení než surový výstup z ChatGPT. To znamená, že neexistuje důkaz o tom, že lidská úprava výstup z ChatGPT vylepšuje. To platí i tehdy, když jsou účastníkům poskytnuty silné finanční stimuly (část z nich navíc byla tímto způsobem kvůli porovnání motivována víc než ostatní).

ChatGPT podstatně změnil způsob práce na úkolech tohoto typu. Následující graf ukazuje, že účastníci v kontrolní skupině bez API strávili přibližně
25 % času brainstormingem, 50 % psaním hrubého návrhu a 25 % úpravami. S využitím ChatGPT klesl podíl času stráveného vlastním psaním o polovinu, účastníci místo toho věnovali víc času finální úpravě textu.

image.png

Někdo přijde o práci, ale celkově to bude bezva

Účastníci experimentu dostali po dokončení druhého úkolu tři otázky, na které měli odpovědět na desetibodové škále:

  • Jak jsou ve své profesi znepokojeni rizikem nahrazováním pracovníků umělou inteligencí.
  • Jak jsou optimističtí ohledně toho, že umělá inteligence v jejich profesi zvýší produktivitu práce.
  • Jak jsou optimističtí nebo pesimističtí ohledně budoucích pokroků v oblasti umělé inteligence.

Výsledky jsou v posledním grafu, opět rozdělené na zelenou skupinu, která využívala ChatGPT, a šedou kontrolní skupinu bez nástrojů AI. Obava o nahrazení automatizací se u těch s novou zkušeností s AI zvýšila. Nejde ale o dvojnásobek, tento graf ze zprávy nezačíná na nule. Současně vzrostlo přesvědčení ohledně produktivity práce a o trochu také celkový optimismus, že budoucnost s AI bude zajímavá.

image.png

Také s tímto článkem mi pomohla AI. Využil jsem ChatGPT a Chat v Bingu pro shrnutí některých dlouhých odstavců ve vědecké zprávě a Deepl pro ověření několika překladů. Stejně jako u experimentu popisovaném v článku mi AI ušetřila čas s hrubým textem, věnoval jsem se potom hlavně editaci, ladění.

Určitě si přečtěte

Články odjinud