Korpusový vyhledávač Kontext Alpha je tajná zbraň každého milovníka češtiny

Jakub Čížek 16. listopadu 2021

Další
článek Na rozložení QWERTY se nejlépe píše česky. Ale pro češtinu je QWERTZ výhodnější. Tady to spočítali SDÍLET NA FACEBOOKU TWEETNOUT

Český národní korpus analyzuje tisíce textů ze všech oblastí života
Vyhledávač Kontext v něm umí dokonale vyhledávat
Je to skvělý nástroj pro milovníky češtiny a zbraň grammar nazis

Čas od času se v našem redakčním chatu objeví výtka od některého z kolegů a tip, jak určité slovní obraty používat lépe, některá slova nahradit za vhodnější a některých se raději už navždy vyvarovat.

Textový editor MS Word dostane v desktopové verzi chytřejší kontrolu pravopisu a gramatiky

Ne vždy se shodneme, každý z autorů má totiž svůj vlastní rukopis, vlastní stylistický cit a záměr, který může být ostatním zcela cizí. A tak se nabízí otázka, co je to vlastně ta správná čeština – tedy pokud pomineme základní pravidla pravopisu.

Není korpus jako korpus

Určitou odpovědí může být analýza korpusů. Myslíš jako korpus na dort? Ne, ten určitě ne. Vypůjčím si s dovolením citaci z nápovědy projektu Český národní korpus:

Jazykový korpus (z lat. corpus „tělo, těleso“) je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení (kolokace). Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný.

4,5 miliard slov

A přesně tímto dříve nemyslitelným lingvistickým výzkumem se dnes s posvěcením MŠMT věnuje Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy a jeho partneři z Ústavu teoretické a komputační lingvistiky a Ústavu formální a aplikované lingvistiky.

Struktura korpusu SYN 8 a složení publicistické části

Český národní korpus spravuje desítky větších i menších souborů, přičemž obecný korpus SYN 8 z roku 2019 obsahuje jen pro hrubou představu 4,5 miliard slov!

SYN2020

V praxi se ale setkáte spíše s korpusem SYN2020, který je sice menší, ale dostatečně statisticky reprezentativní. Obsahuje 100 milionů slov a představuje jakousi sondu do češtiny od roku 1989.

Základní lingvistická statistika korpusu SYN2020

Jelikož jej vědci pravidelně aktualizují vždy po pěti letech, k dispozici máme i starší korpusy SYN2015, SYN2010, SYN2005 a SYN2000, takže už dnes můžeme provádět nejrůznější komparativní analýzy a sledovat, jak (a jestli vůbec) se změnila čeština v posledních více než dvaceti letech.

No dobrá, ale kde se ty texty vlastně berou? V případě SYN2020 jej po třetinách tvoří beletrie, oborová literatura a konečně také publicistika. Tedy profesionální texty včetně mediální branže. Na stranu druhou ale tento korpus neobsahuje třeba vaše veřejné tweety, hádky na Facebooku a obecně obsah, který se vyskytuje výhradně na webu.

Trolíte na Twitteru? Možná budete v korpusu

Ne že by to lingvisty nezajímalo – vždyť je to úžasný zdroj ke studiu dynamiky vývoje zvláště hovorové češtiny –, ale věnují se mu specializované korpusy.

Zvláště NET, který analyzuje webová fóra na platformě phpBB, a obrovský soubor ONLINE. Ten už mapuje podstatnou část veřejného českého internetu od žurnalistiky po sociální sítě včetně Twitteru, Instagramu a Facebooku.

Vyhledávač Kontext

Takže korpusy bychom měli a teď ještě nějaký nástroj, pomocí něhož v nich budeme moci hledat. Široké veřejnosti k tomu slouží vyhledávač Kontext, který ve výchozím stavu pracuje se souborem SYN2020, nicméně můžete zvolit i jiný.

Hledám lemma „Brno“

Vyhledávání v korpusu se na první pohled neliší od běžného webového vyhledávače. Stačí napsat slovní útvar a zobrazí se seznam výsledků s krátkými úryvky textu, ve kterém se daný výraz nachází.

Ve výchozím stavu je ale vyhledávač velmi pružný a hledá i tzv. lemmata – souhrny všech tvarů lexikální jednotky, čili kdybychom hledali „město,“ vypíšou se nám výsledky s tímto slovem nehledě na použitý pád a tak podobně.

A toto jsou výsledky

Lingvista má proto k dispozici ohromné množství dalších vyhledávacích parametrů, kterými může dotaz prakticky dokonale zpřesnit a vyhledat opravdu jen nějaké velmi specifické použití napříč texty.

Kontext Alpha: Hledáme v přirozené češtině

Nedávno polétla sociálními sítěmi zprávička o nové a zatím ještě experimentální podobě Kontextu, kterému můžete sdělit, co po něm vlastně chcete, v přirozené češtině. Jmenuje se Kontext Alpha a jako výchozí korpus používá opět dostatečně reprezentativní SYN2020.

Vyhledávání v korpusu a v přirozené češtině

Pokud bychom chtěli vyhledat texty, ve kterých se vyskytuje slovo „koza“ právě a jedině v této podobě, stačí napsat:

najdi slovo "koza"

Sémantický překladač převede dotaz do strojové formy:

[lc="koza"]

A přesměruje vás na klasický Kontext se seznamem výsledků:

Koza s malým i velkým

Kontext vypíše všechny výskyty slova koza nehledě na velikost písma. Kdybychom chtěli jen kozu z velkým K, musíme dotaz upravit:

najdi slovo "Koza" (záleží na velikosti písmen)

Koza s velkým

Dejme tomu, že bychom nyní chtěli najit všechny výskyty lemmatu „koza.“ Tedy všechny pády apod. V tom případě to Kontextu opět sdělíme v přirozené češtině:

najdi lemma "koza"

Koza ve všech podobách

Výsledky se nám nyní zaplní textovými úryvky s kozou ve všech myslitelných podobách.

Naštěstí nechybí nápověda s příklady

Dotazování v přirozené češtině velmi usnadňuje zadávání především komplexních dotazů, i to má ale samozřejmě svá pravidla, která najdete v nápovědě přímo na webu experimentální verze vyhledávače.

Takže když zadáme:

najdi všechny tvary množného čísla lemmatu "hrad"

Dostaneme toto:

Všechny podoby hradu v množném čísle

A můžeme jít ještě mnohém dál:

najdi všechny výskyty slov "žízeň", "hlad" nebo "chuť" ve čtvrtém pádě

A tady máme výsledek:

Žízeň, hlad a chuť ve 4. pádě

Stejně tak můžeme vyhledat slova, která začínají určitým sledem znaků:

slova začínající na "vy"

Začíná to na „vy“

slovesa, která začínají na "vy" nebo končí na "í"

Začíná to na „vy“ nebo to končí na „i“

Nebo třeba:

lemma, které má v prostředku "vin" ale nekončí na "t"

Má to uprostřed „vin“ a nekončí to na „t“

Nechybí zdroj

Chcete-li si ověřit, jestli slovní obrat, který tak milujete (nebo naopak do morku kostí nenávidíte) používá i někdo jiný a v jaké míře, ať už základní Kontext, nebo Kontext Alpha jsou skvělými nástroji každého fanouška češtiny a skvělá výzbroj pro nekonečné debatní války.

Už vím, kdo ten zatracený obrat použil

Ve výsledcích zároveň samozřejmě nechybějí kompletní citace zdroje, takže i když najdete i ten sebepitomější obrat, budete hned vědět, kdo a kdy jej vlastně použil.

Diskuze (4) › Další článek: Na rozložení QWERTY se nejlépe píše česky. Ale pro češtinu je QWERTZ výhodnější. Tady to spočítali

Témata článku: Facebook, Internet, Web, Twitter, Instagram, Česko, Zbraně, Vyhledávače, Brno, Statistiky, Text, Čeština, Kontext, Syn, EDF, Korpus, Ministerstvo školství, Milovník, Vyhledávač, Koza