Česko | Vyhledávače

Korpusový vyhledávač Kontext Alpha je tajná zbraň každého milovníka češtiny

  • Český národní korpus analyzuje tisíce textů ze všech oblastí života
  • Vyhledávač Kontext v něm umí dokonale vyhledávat
  • Je to skvělý nástroj pro milovníky češtiny a zbraň grammar nazis

Čas od času se v našem redakčním chatu objeví výtka od některého z kolegů a tip, jak určité slovní obraty používat lépe, některá slova nahradit za vhodnější a některých se raději už navždy vyvarovat.

Ne vždy se shodneme, každý z autorů má totiž svůj vlastní rukopis, vlastní stylistický cit a záměr, který může být ostatním zcela cizí. A tak se nabízí otázka, co je to vlastně ta správná čeština – tedy pokud pomineme základní pravidla pravopisu.

Není korpus jako korpus

Určitou odpovědí může být analýza korpusů. Myslíš jako korpus na dort? Ne, ten určitě ne. Vypůjčím si s dovolením citaci z nápovědy projektu Český národní korpus:

Jazykový korpus (z lat. corpus „tělo, těleso“) je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení (kolokace). Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný.

4,5 miliard slov

A přesně tímto dříve nemyslitelným lingvistickým výzkumem se dnes s posvěcením MŠMT věnuje Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy a jeho partneři z Ústavu teoretické a komputační lingvistiky a Ústavu formální a aplikované lingvistiky.

Klepněte pro větší obrázekKlepněte pro větší obrázek
Struktura korpusu SYN 8 a složení publicistické části

Český národní korpus spravuje desítky větších i menších souborů, přičemž obecný korpus SYN 8 z roku 2019 obsahuje jen pro hrubou představu 4,5 miliard slov!

SYN2020

V praxi se ale setkáte spíše s korpusem SYN2020, který je sice menší, ale dostatečně statisticky reprezentativní. Obsahuje 100 milionů slov a představuje jakousi sondu do češtiny od roku 1989. 

Klepněte pro větší obrázek
Základní lingvistická statistika korpusu SYN2020

Jelikož jej vědci pravidelně aktualizují vždy po pěti letech, k dispozici máme i starší korpusy SYN2015, SYN2010, SYN2005 a SYN2000, takže už dnes můžeme provádět nejrůznější komparativní analýzy a sledovat, jak (a jestli vůbec) se změnila čeština v posledních více než dvaceti letech.

No dobrá, ale kde se ty texty vlastně berou? V případě SYN2020 jej po třetinách tvoří beletrie, oborová literatura a konečně také publicistika. Tedy profesionální texty včetně mediální branže. Na stranu druhou ale tento korpus neobsahuje třeba vaše veřejné tweety, hádky na Facebooku a obecně obsah, který se vyskytuje výhradně na webu.

Trolíte na Twitteru? Možná budete v korpusu

Ne že by to lingvisty nezajímalo – vždyť je to úžasný zdroj ke studiu dynamiky vývoje zvláště hovorové češtiny –, ale věnují se mu specializované korpusy.

Zvláště NET, který analyzuje  webová fóra na platformě phpBB, a obrovský soubor ONLINE. Ten už mapuje podstatnou část veřejného českého internetu od žurnalistiky po sociální sítě včetně Twitteru, Instagramu a Facebooku.

Vyhledávač Kontext

Takže korpusy bychom měli a teď ještě nějaký nástroj, pomocí něhož v nich budeme moci hledat. Široké veřejnosti k tomu slouží vyhledávač Kontext, který ve výchozím stavu pracuje se souborem SYN2020, nicméně můžete zvolit i jiný.

Klepněte pro větší obrázek
Hledám lemma „Brno“

Vyhledávání v korpusu se na první pohled neliší od běžného webového vyhledávače. Stačí napsat slovní útvar a zobrazí se seznam výsledků s krátkými úryvky textu, ve kterém se daný výraz nachází.

Ve výchozím stavu je ale vyhledávač velmi pružný a hledá i tzv. lemmata – souhrny všech tvarů lexikální jednotky, čili kdybychom hledali „město,“ vypíšou se nám výsledky s tímto slovem nehledě na použitý pád a tak podobně.

Klepněte pro větší obrázek
A toto jsou výsledky

Lingvista má proto k dispozici ohromné množství dalších vyhledávacích parametrů, kterými může dotaz prakticky dokonale zpřesnit a vyhledat opravdu jen nějaké velmi specifické použití napříč texty.

Kontext Alpha: Hledáme v přirozené češtině

Nedávno polétla sociálními sítěmi zprávička o nové a zatím ještě experimentální podobě Kontextu, kterému můžete sdělit, co po něm vlastně chcete, v přirozené češtině. Jmenuje se Kontext Alpha a jako výchozí korpus používá opět dostatečně reprezentativní SYN2020.

Klepněte pro větší obrázek
Vyhledávání v korpusu a v přirozené češtině

Pokud bychom chtěli vyhledat texty, ve kterých se vyskytuje slovo „koza“ právě a jedině v této podobě, stačí napsat:

najdi slovo "koza"

Sémantický překladač převede dotaz do strojové formy:

[lc="koza"]

A přesměruje vás na klasický Kontext se seznamem výsledků:

Klepněte pro větší obrázek
Koza s malým i velkým

Kontext vypíše všechny výskyty slova koza nehledě na velikost písma. Kdybychom chtěli jen kozu z velkým K, musíme dotaz upravit:

najdi slovo "Koza" (záleží na velikosti písmen)
Klepněte pro větší obrázek
Koza s velkým

Dejme tomu, že bychom nyní chtěli najit všechny výskyty lemmatu „koza.“ Tedy všechny pády apod. V tom případě to Kontextu opět sdělíme v přirozené češtině:

najdi lemma "koza"
Klepněte pro větší obrázek
Koza ve všech podobách

Výsledky se nám nyní zaplní textovými úryvky s kozou ve všech myslitelných podobách.

Naštěstí nechybí nápověda s příklady

Dotazování v přirozené češtině velmi usnadňuje zadávání především komplexních dotazů, i to má ale samozřejmě svá pravidla, která najdete v nápovědě přímo na webu experimentální verze vyhledávače.

Takže když zadáme:

najdi všechny tvary množného čísla lemmatu "hrad"

Dostaneme toto:

Klepněte pro větší obrázek
Všechny podoby hradu v množném čísle

A můžeme jít ještě mnohém dál:

najdi všechny výskyty slov "žízeň", "hlad" nebo "chuť" ve čtvrtém pádě

A tady máme výsledek:

Klepněte pro větší obrázek
Žízeň, hlad a chuť ve 4. pádě

Stejně tak můžeme vyhledat slova, která začínají určitým sledem znaků:

slova začínající na "vy"
Klepněte pro větší obrázek
Začíná to na „vy“
slovesa, která začínají na "vy" nebo končí na "í"
Klepněte pro větší obrázek
Začíná  to na „vy“ nebo to končí na „i“

Nebo třeba:

lemma, které má v prostředku "vin" ale nekončí na "t"
Klepněte pro větší obrázek
Má to uprostřed „vin“ a nekončí to na „t“

Nechybí zdroj

Chcete-li si ověřit, jestli slovní obrat, který tak milujete (nebo naopak do morku kostí nenávidíte) používá i někdo jiný a v jaké míře, ať už základní Kontext, nebo Kontext Alpha jsou skvělými nástroji každého fanouška češtiny a skvělá výzbroj pro nekonečné debatní války.

Klepněte pro větší obrázek
Už vím, kdo ten zatracený obrat použil

Ve výsledcích zároveň samozřejmě nechybějí kompletní citace zdroje, takže i když najdete i ten sebepitomější obrat, budete hned vědět, kdo a kdy jej vlastně použil.

Diskuze (4) Další článek: Na rozložení QWERTY se nejlépe píše česky. Ale pro češtinu je QWERTZ výhodnější. Tady to spočítali

Témata článku: Facebook, Internet, Web, Twitter, Česko, Brno, Instagram, Vyhledávače, Statistiky, Zbraně, Text, Milovník, Korpus, Čeština, Koza, Ministerstvo školství, Kontext, Vyhledávač, Syn



Programujeme ZX Spectrum: Ten nejhloupější možný program v Basicu
Jakub Čížek
Pojďme programovat elektronikuHistorieProgramování
Jak rozmazat dům, aby vás sousedi nemohli šmírovat. Jde to v Mapách Google i na Mapy.cz

Jak rozmazat dům, aby vás sousedi nemohli šmírovat. Jde to v Mapách Google i na Mapy.cz

** Nelibí se vám, když cizí lidé okukují váš dům? ** Všechny mapové aplikace nabízejí možnost rozmazání snímku ** Máme návod pro Apple Maps, Bing Maps, Mapy Google a Mapy.cz

Karel Kilián
SoukromíNávodyMapy
40 ženských erotických symbolů osmdesátých let

40 ženských erotických symbolů osmdesátých let

Vyzývavá krása, rafinovanost, nevinnost i perverzní voyeurské fantazie. Filmaři už se sexu ve filmu nebáli, a tak dala 80. léta vzniknout řadě kultovních ženských erotických symbolů.

Marek Čech
Filmy a seriály
Nová volitelná aktualizace systému Windows 10 opravuje 38 problémů
Karel Kilián
Windows UpdateAktualizaceWindows 10
Tohle nejsou Jedenáctky, ale Linux. Windowsfx 11 opisuje opravdu důkladně
Lukáš Václavík
Windows 11Operační systémyLinux