Česko | Vyhledávače

Korpusový vyhledávač Kontext Alpha je tajná zbraň každého milovníka češtiny

  • Český národní korpus analyzuje tisíce textů ze všech oblastí života
  • Vyhledávač Kontext v něm umí dokonale vyhledávat
  • Je to skvělý nástroj pro milovníky češtiny a zbraň grammar nazis

Čas od času se v našem redakčním chatu objeví výtka od některého z kolegů a tip, jak určité slovní obraty používat lépe, některá slova nahradit za vhodnější a některých se raději už navždy vyvarovat.

Ne vždy se shodneme, každý z autorů má totiž svůj vlastní rukopis, vlastní stylistický cit a záměr, který může být ostatním zcela cizí. A tak se nabízí otázka, co je to vlastně ta správná čeština – tedy pokud pomineme základní pravidla pravopisu.

Není korpus jako korpus

Určitou odpovědí může být analýza korpusů. Myslíš jako korpus na dort? Ne, ten určitě ne. Vypůjčím si s dovolením citaci z nápovědy projektu Český národní korpus:

Jazykový korpus (z lat. corpus „tělo, těleso“) je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení (kolokace). Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný.

4,5 miliard slov

A přesně tímto dříve nemyslitelným lingvistickým výzkumem se dnes s posvěcením MŠMT věnuje Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy a jeho partneři z Ústavu teoretické a komputační lingvistiky a Ústavu formální a aplikované lingvistiky.

9b0755bd-cf8b-4e08-b9d9-6ecf39d94e908f8ee1d6-f5d6-4203-9bc4-821094bb176c
Struktura korpusu SYN 8 a složení publicistické části

Český národní korpus spravuje desítky větších i menších souborů, přičemž obecný korpus SYN 8 z roku 2019 obsahuje jen pro hrubou představu 4,5 miliard slov!

SYN2020

V praxi se ale setkáte spíše s korpusem SYN2020, který je sice menší, ale dostatečně statisticky reprezentativní. Obsahuje 100 milionů slov a představuje jakousi sondu do češtiny od roku 1989. 

4b1c03e4-588d-474b-b990-8b47d3c100a4
Základní lingvistická statistika korpusu SYN2020

Jelikož jej vědci pravidelně aktualizují vždy po pěti letech, k dispozici máme i starší korpusy SYN2015, SYN2010, SYN2005 a SYN2000, takže už dnes můžeme provádět nejrůznější komparativní analýzy a sledovat, jak (a jestli vůbec) se změnila čeština v posledních více než dvaceti letech.

No dobrá, ale kde se ty texty vlastně berou? V případě SYN2020 jej po třetinách tvoří beletrie, oborová literatura a konečně také publicistika. Tedy profesionální texty včetně mediální branže. Na stranu druhou ale tento korpus neobsahuje třeba vaše veřejné tweety, hádky na Facebooku a obecně obsah, který se vyskytuje výhradně na webu.

Trolíte na Twitteru? Možná budete v korpusu

Ne že by to lingvisty nezajímalo – vždyť je to úžasný zdroj ke studiu dynamiky vývoje zvláště hovorové češtiny –, ale věnují se mu specializované korpusy.

Zvláště NET, který analyzuje  webová fóra na platformě phpBB, a obrovský soubor ONLINE. Ten už mapuje podstatnou část veřejného českého internetu od žurnalistiky po sociální sítě včetně Twitteru, Instagramu a Facebooku.

Vyhledávač Kontext

Takže korpusy bychom měli a teď ještě nějaký nástroj, pomocí něhož v nich budeme moci hledat. Široké veřejnosti k tomu slouží vyhledávač Kontext, který ve výchozím stavu pracuje se souborem SYN2020, nicméně můžete zvolit i jiný.

edf34da8-c841-44b4-9b06-8806147419aa
Hledám lemma „Brno“

Vyhledávání v korpusu se na první pohled neliší od běžného webového vyhledávače. Stačí napsat slovní útvar a zobrazí se seznam výsledků s krátkými úryvky textu, ve kterém se daný výraz nachází.

Ve výchozím stavu je ale vyhledávač velmi pružný a hledá i tzv. lemmata – souhrny všech tvarů lexikální jednotky, čili kdybychom hledali „město,“ vypíšou se nám výsledky s tímto slovem nehledě na použitý pád a tak podobně.

2cadbc41-4b20-45bc-b2ee-5f4a749ce5ee
A toto jsou výsledky

Lingvista má proto k dispozici ohromné množství dalších vyhledávacích parametrů, kterými může dotaz prakticky dokonale zpřesnit a vyhledat opravdu jen nějaké velmi specifické použití napříč texty.

Kontext Alpha: Hledáme v přirozené češtině

Nedávno polétla sociálními sítěmi zprávička o nové a zatím ještě experimentální podobě Kontextu, kterému můžete sdělit, co po něm vlastně chcete, v přirozené češtině. Jmenuje se Kontext Alpha a jako výchozí korpus používá opět dostatečně reprezentativní SYN2020.

74821f43-be31-401e-80f1-eb05a78a91d0
Vyhledávání v korpusu a v přirozené češtině

Pokud bychom chtěli vyhledat texty, ve kterých se vyskytuje slovo „koza“ právě a jedině v této podobě, stačí napsat:

najdi slovo "koza"

Sémantický překladač převede dotaz do strojové formy:

[lc="koza"]

A přesměruje vás na klasický Kontext se seznamem výsledků:

f06baaea-7806-4e83-b082-92aa90d1f3b6
Koza s malým i velkým

Kontext vypíše všechny výskyty slova koza nehledě na velikost písma. Kdybychom chtěli jen kozu z velkým K, musíme dotaz upravit:

najdi slovo "Koza" (záleží na velikosti písmen)
acbd6302-ea59-4ee8-b581-2f39ddfbabe8
Koza s velkým

Dejme tomu, že bychom nyní chtěli najit všechny výskyty lemmatu „koza.“ Tedy všechny pády apod. V tom případě to Kontextu opět sdělíme v přirozené češtině:

najdi lemma "koza"
d3a4030f-34d7-428d-b2c4-d30444f0700f
Koza ve všech podobách

Výsledky se nám nyní zaplní textovými úryvky s kozou ve všech myslitelných podobách.

Naštěstí nechybí nápověda s příklady

Dotazování v přirozené češtině velmi usnadňuje zadávání především komplexních dotazů, i to má ale samozřejmě svá pravidla, která najdete v nápovědě přímo na webu experimentální verze vyhledávače.

Takže když zadáme:

najdi všechny tvary množného čísla lemmatu "hrad"

Dostaneme toto:

37b4afa7-709b-4f13-8605-a62d1d6906e7
Všechny podoby hradu v množném čísle

A můžeme jít ještě mnohém dál:

najdi všechny výskyty slov "žízeň", "hlad" nebo "chuť" ve čtvrtém pádě

A tady máme výsledek:

dbb778a3-85ce-4410-a12a-43aae2e89d93
Žízeň, hlad a chuť ve 4. pádě

Stejně tak můžeme vyhledat slova, která začínají určitým sledem znaků:

slova začínající na "vy"
56480c23-ac45-4db6-950f-928844aca54a
Začíná to na „vy“
slovesa, která začínají na "vy" nebo končí na "í"
5e4c9f18-1244-4a86-8d0d-d2c459018dac
Začíná  to na „vy“ nebo to končí na „i“

Nebo třeba:

lemma, které má v prostředku "vin" ale nekončí na "t"
d44ae524-8518-42d3-93e1-233917db4267
Má to uprostřed „vin“ a nekončí to na „t“

Nechybí zdroj

Chcete-li si ověřit, jestli slovní obrat, který tak milujete (nebo naopak do morku kostí nenávidíte) používá i někdo jiný a v jaké míře, ať už základní Kontext, nebo Kontext Alpha jsou skvělými nástroji každého fanouška češtiny a skvělá výzbroj pro nekonečné debatní války.

eff67929-4223-4fd0-b70c-e4871a531c3f
Už vím, kdo ten zatracený obrat použil

Ve výsledcích zároveň samozřejmě nechybějí kompletní citace zdroje, takže i když najdete i ten sebepitomější obrat, budete hned vědět, kdo a kdy jej vlastně použil.

Diskuze (4) Další článek: Na rozložení QWERTY se nejlépe píše česky. Ale pro češtinu je QWERTZ výhodnější. Tady to spočítali

Témata článku: , , , , , , , , , , , , , , , , , , ,