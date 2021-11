Čas od času se v našem redakčním chatu objeví výtka od některého z kolegů a tip, jak určité slovní obraty používat lépe, některá slova nahradit za vhodnější a některých se raději už navždy vyvarovat.

Ne vždy se shodneme, každý z autorů má totiž svůj vlastní rukopis, vlastní stylistický cit a záměr, který může být ostatním zcela cizí. A tak se nabízí otázka, co je to vlastně ta správná čeština – tedy pokud pomineme základní pravidla pravopisu.

Není korpus jako korpus

Určitou odpovědí může být analýza korpusů. Myslíš jako korpus na dort? Ne, ten určitě ne. Vypůjčím si s dovolením citaci z nápovědy projektu Český národní korpus:

Jazykový korpus (z lat. corpus „tělo, těleso“) je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení (kolokace). Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný.

4,5 miliard slov

A přesně tímto dříve nemyslitelným lingvistickým výzkumem se dnes s posvěcením MŠMT věnuje Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy a jeho partneři z Ústavu teoretické a komputační lingvistiky a Ústavu formální a aplikované lingvistiky.



Struktura korpusu SYN 8 a složení publicistické části

Český národní korpus spravuje desítky větších i menších souborů, přičemž obecný korpus SYN 8 z roku 2019 obsahuje jen pro hrubou představu 4,5 miliard slov!

SYN2020

V praxi se ale setkáte spíše s korpusem SYN2020, který je sice menší, ale dostatečně statisticky reprezentativní. Obsahuje 100 milionů slov a představuje jakousi sondu do češtiny od roku 1989.



Základní lingvistická statistika korpusu SYN2020

Jelikož jej vědci pravidelně aktualizují vždy po pěti letech, k dispozici máme i starší korpusy SYN2015, SYN2010, SYN2005 a SYN2000, takže už dnes můžeme provádět nejrůznější komparativní analýzy a sledovat, jak (a jestli vůbec) se změnila čeština v posledních více než dvaceti letech.

No dobrá, ale kde se ty texty vlastně berou? V případě SYN2020 jej po třetinách tvoří beletrie, oborová literatura a konečně také publicistika. Tedy profesionální texty včetně mediální branže. Na stranu druhou ale tento korpus neobsahuje třeba vaše veřejné tweety, hádky na Facebooku a obecně obsah, který se vyskytuje výhradně na webu.

Trolíte na Twitteru? Možná budete v korpusu

Ne že by to lingvisty nezajímalo – vždyť je to úžasný zdroj ke studiu dynamiky vývoje zvláště hovorové češtiny –, ale věnují se mu specializované korpusy.

Zvláště NET, který analyzuje webová fóra na platformě phpBB, a obrovský soubor ONLINE. Ten už mapuje podstatnou část veřejného českého internetu od žurnalistiky po sociální sítě včetně Twitteru, Instagramu a Facebooku.

Vyhledávač Kontext

Takže korpusy bychom měli a teď ještě nějaký nástroj, pomocí něhož v nich budeme moci hledat. Široké veřejnosti k tomu slouží vyhledávač Kontext, který ve výchozím stavu pracuje se souborem SYN2020, nicméně můžete zvolit i jiný.



Hledám lemma „Brno“

Vyhledávání v korpusu se na první pohled neliší od běžného webového vyhledávače. Stačí napsat slovní útvar a zobrazí se seznam výsledků s krátkými úryvky textu, ve kterém se daný výraz nachází.

Ve výchozím stavu je ale vyhledávač velmi pružný a hledá i tzv. lemmata – souhrny všech tvarů lexikální jednotky, čili kdybychom hledali „město,“ vypíšou se nám výsledky s tímto slovem nehledě na použitý pád a tak podobně.



A toto jsou výsledky

Lingvista má proto k dispozici ohromné množství dalších vyhledávacích parametrů, kterými může dotaz prakticky dokonale zpřesnit a vyhledat opravdu jen nějaké velmi specifické použití napříč texty.

Kontext Alpha: Hledáme v přirozené češtině

Nedávno polétla sociálními sítěmi zprávička o nové a zatím ještě experimentální podobě Kontextu, kterému můžete sdělit, co po něm vlastně chcete, v přirozené češtině. Jmenuje se Kontext Alpha a jako výchozí korpus používá opět dostatečně reprezentativní SYN2020.



Vyhledávání v korpusu a v přirozené češtině

Pokud bychom chtěli vyhledat texty, ve kterých se vyskytuje slovo „koza“ právě a jedině v této podobě, stačí napsat:

najdi slovo "koza"

Sémantický překladač převede dotaz do strojové formy:

[lc="koza"]

A přesměruje vás na klasický Kontext se seznamem výsledků:



Koza s malým i velkým

Kontext vypíše všechny výskyty slova koza nehledě na velikost písma. Kdybychom chtěli jen kozu z velkým K, musíme dotaz upravit:

najdi slovo "Koza" (záleží na velikosti písmen)



Koza s velkým

Dejme tomu, že bychom nyní chtěli najit všechny výskyty lemmatu „koza.“ Tedy všechny pády apod. V tom případě to Kontextu opět sdělíme v přirozené češtině:

najdi lemma "koza"



Koza ve všech podobách

Výsledky se nám nyní zaplní textovými úryvky s kozou ve všech myslitelných podobách.

Naštěstí nechybí nápověda s příklady

Dotazování v přirozené češtině velmi usnadňuje zadávání především komplexních dotazů, i to má ale samozřejmě svá pravidla, která najdete v nápovědě přímo na webu experimentální verze vyhledávače.

Takže když zadáme:

najdi všechny tvary množného čísla lemmatu "hrad"

Dostaneme toto:



Všechny podoby hradu v množném čísle

A můžeme jít ještě mnohém dál:

najdi všechny výskyty slov "žízeň", "hlad" nebo "chuť" ve čtvrtém pádě

A tady máme výsledek:



Žízeň, hlad a chuť ve 4. pádě

Stejně tak můžeme vyhledat slova, která začínají určitým sledem znaků:

slova začínající na "vy"



Začíná to na „vy“

slovesa, která začínají na "vy" nebo končí na "í"



Začíná to na „vy“ nebo to končí na „i“

Nebo třeba:

lemma, které má v prostředku "vin" ale nekončí na "t"



Má to uprostřed „vin“ a nekončí to na „t“

Nechybí zdroj

Chcete-li si ověřit, jestli slovní obrat, který tak milujete (nebo naopak do morku kostí nenávidíte) používá i někdo jiný a v jaké míře, ať už základní Kontext, nebo Kontext Alpha jsou skvělými nástroji každého fanouška češtiny a skvělá výzbroj pro nekonečné debatní války.



Už vím, kdo ten zatracený obrat použil

Ve výsledcích zároveň samozřejmě nechybějí kompletní citace zdroje, takže i když najdete i ten sebepitomější obrat, budete hned vědět, kdo a kdy jej vlastně použil.