To musíte vidět: přidávání diakritiky do ASCII textů

To, o čem jsem dlouhé měsíce přemýšlel, jak by se dalo nejlépe udělat, se stalo skutečností. Každý nyní může zdarma do českých textů psaných bez diakritiky přidávat chybějící háčky a čárky.
To, o čem jsem dlouhé měsíce přemýšlel, jak by se dalo nejlépe udělat, se stalo skutečností. Každý nyní může zdarma do českých textů psaných bez diakritiky přidávat chybějící háčky a čárky.

Za celým projektem CSDIAK nestojí žádná firma, ale jedná se o diplomovou práci studenta fakulty Informatiky MU Toni Zrůstka. Ten využil na této fakultě budovanou databázi českých textů (také se na ní podílíme) a vytvořil program, který je schopen inteligentně přidat chybějící diakritiku do cesky psaného textu. Celý projekt je k dispozici zdarma na webu. Do okna vložíte požadovaný text a obratem (chvíli to trvá, ale ne dlouho) dostanete očeštěnou podobu textu. Vzhledem k tomu, že v textech není umístění háčků a čárek jednoznačné, musí se celý text vhodně analyzovat. Výsledkem je neobyčejná přesnost programu blížící se 100 %. Chyby se týkají většinou cizích slov, popřípadě slov s více významy. Opravdu ale smekám, něco takového jsem potřeboval. Opravdu je třeba po převodu doladit jen pár znaků a je to hotové.

Bohužel program je k dispozici pouze na webu, využívá totiž mimořádně rozsáhlou databázi, která by se nevešla na cédéčko a zřejmě ani na DVD. Navíc je naprogramován pro Linux, na kterém běží jeho webové rozhraní. Jedinou nevýhodu spatřuji v HTML výstupu, který používá tag PRE a tak je celá stránka často neúměrně roztažena bez zalamování řádků, věřím ale, že to půjde rychle napravit. Doufám také, že stránky CSDIAK budou k dispozici stále a nebude to závislé na délce studia jejich autora.

Diskuze (19) Další článek: Dreadling - doomovka pro Palma

Témata článku: , , , , ,