To musíte vidět: přidávání diakritiky do ASCII textů

Diskuze čtenářů k článku

Martin Kralicek  |  20. 04. 2001 19:02

Zdravim,

konverzi se mi spustit nepodarilo, ale trochu mi vyrazilo dech ze pry by se ten program nevesel na CD ci DVD. Jak to vlastne funguje?

Odhaduju, ze nejaky 'vyhledavac' projel ony korpusy a sestavil si vlastni slovnik a frekvenci vyskytu u slov, ktere je mozne nahradit vice zpusoby. Pri nahrazovani se pak projizdi verze tohoto slovniku bez diakritiky a hleda se match. V pripade vice moznosti se tam soupne pouzivanejsi vyraz.

At premyslim, jak premyslim tak k distribuci by prece mela stacit jedna disketa, ne? Jestlize v cestine se pouziva cca 100 000 slov pri prumerne delce (odhadem) 6 znaku + neco na ty indexy, tak se to musi vejit pohodlne do 1 MB, ne?

Tenhle slovnik by se taky mohl volne sirit, protoze na samostatna abecedne razena slova se zadny autorsky zakon nevztahuje.

Jeste dotaz - je v tom zabudovana nejaka 'inteligence', ktera provadi logickou analyzu vety?

S pozdravem a blahopranim autorovi


M.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Corin  |  20. 04. 2001 19:02

Výše popsaným způsobem by převodník opravdu fungovat nemohl. Doporučuji přečíst si text diplomové práce, který na stránce také najdete. Vyberu jen jeden námět k zamyšlení:
hezky cesky
hezký český
hezky česky
hezký česky
hezký češky
hezký čéšky
atd...
Tohle frekvenční slovník opravdu nezvládne.

Souhlasím  |  Nesouhlasím  |  Odpovědět
TiMok  |  20. 04. 2001 19:02

To je sice hezky namet k zamysleni, ale vec to nijak neresi, protoze stejne je VZDY vybrana jenom jedna z techto moznosti bez ohledu na kontext. BTW slovnik vubec nezna "češky" a udělá z nich "čéšky". Takze souhlasim s resenim frekvence slov, nacerpanou z textu (ktere se asi na CD nevlezou, ale na DVD nejspise jo). Na diplomku se mi to zda celkem mizerne ...

Souhlasím  |  Nesouhlasím  |  Odpovědět
Toni Zrustek  |  20. 04. 2001 19:02

Zdravim,

samozrejme, ze csdiak vybira ruzne moznosti podle kontextu.

Jinak co se tyce korpusu, tak kdyz jsem
se na nej naposled dival, tak mel 550 MB. Ale uznavam, ze by se to asi dalo nejak zakomprimovat, texty jsou celkem redundantni...

Toni

Souhlasím  |  Nesouhlasím  |  Odpovědět
Zbyněk Šplýchal  |  20. 04. 2001 19:02

Musím blahopřát autorovi za zmíněnou aplikaci. Zkusil jsem si převést několik mailu a úspěšnost byla téměř 100%. Opravdu perfektní práce.

Souhlasím  |  Nesouhlasím  |  Odpovědět
St. Sam  |  20. 04. 2001 19:02

Po zavalení žádostmi o zaslání makra pro World jsem zapátral v archivech a byl jsem úspěšný. Stránky autora jsou http://www.ms.mff.cuni.cz/~vrana/utility/index.html
Přji hodně úspěchů. Sam

Souhlasím  |  Nesouhlasím  |  Odpovědět
Tomáš Holčík  |  20. 04. 2001 19:02

díky to sem potřeboval

Souhlasím  |  Nesouhlasím  |  Odpovědět
Petr Souček  |  20. 04. 2001 19:02

Nevím, jak autor nebo i jeden z předcházejících přispěvatelů dospěl k číslu 97%.

Zkuste si to ostatně sami - 97% znamená maximálně jednu chybu na 29 správných náhrad - a takového poměru se mi rozhodně nepodařilo dosáhnout.

Nebo je ta úspěšnost definována jinak?

Určitě je to zajímavý projekt, jenom ho ještě dotánout do dobré použitelnosti.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Toni Zrustek  |  20. 04. 2001 19:02

Zdravim,

jako autor programu musim nesouhlasit.
Zkousel jsem program na VELMI dlouhych
textech a celkovy vysledek byl 97,6 %
spravne prevedenych slov. Pokud se vlozi nejaky podivny text, muze byt uspesnost mnohem nizsi, ale ve vetsine pripadu to
bude spis naopak.

Toni

Souhlasím  |  Nesouhlasím  |  Odpovědět
Tomas Blesa  |  20. 04. 2001 19:02

Říkal jsem si, že by to bylo super na zlepšení čitelnosti "ceskych" mailů z konferencí, ale mám pocit, že pár slangových výrazů způsobuje větší výskyt chyb. (otázka na autora: jak to vypadá, když jsou v textu hojně špatné koncovky: svy místo svý přeložil jako švy; a co chybějící čárky ve větách?)

Souhlasím  |  Nesouhlasím  |  Odpovědět
Petr Strnad  |  20. 04. 2001 19:02

Je vidět, že když někdo umí tak se věci daří. Jen si přeji, aby stránky zůstaly i když autor již nebude studentem. Skvělá práce.

Souhlasím  |  Nesouhlasím  |  Odpovědět
R.Kusý  |  20. 04. 2001 19:02

Výborná aplikace. Funguje opravdu na 97%. Přeji autorovi "dlouhý život" pro další vývoj.

Souhlasím  |  Nesouhlasím  |  Odpovědět
St. Sam  |  20. 04. 2001 19:02

S možností opravy textu do podoby s čárkama a háčkama jsem se setkal již dávno (asi před rokem), kdy jsem si stáhl makro pro Word s názvem ZACESTI a ODCESTI. Myslím, že vzhledem k nutnosti návštěvy webu je to přinejmenším rovnocenné řešení, a to i přesto, že nepřesnost je asi větší. Zájemcům rád pošlu. (Omlouvám se autorovi, nevím už odkud jsem toto makro získal, ale je to free). Sam

Souhlasím  |  Nesouhlasím  |  Odpovědět
Tomáš Holčík  |  20. 04. 2001 19:02

Díky, pošlete mi to makro. Chtěl jsem to dříve dělat ve Wordu, ale jeho korektor zvládá jen jednu max dvě chyby ve slově a navíc není optimalizovaný na přidávání háčků a čárek. Rád se na to podívám, jak to makro vypadá.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Jakub Vrána  |  20. 04. 2001 19:02

Autorem makra Začešti jsem já, podívat se na něj můžete na adrese www.vrana.cz/zacesti.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Tomáš Kapler  |  20. 04. 2001 19:02

skvélé, je užasné, jak makro na 30 řádek dokáže být lepší než software, který se ani nevejde na DVD.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Tomas Hruby  |  20. 04. 2001 19:02

Vazeny pane Vrano,
davate odkaz na makro pravdepodobne napadene makrovirem W97M/Word.Variant. Doporucuji vam urychlenou kontrolu, virus je totiz pouze v souboru zacesti.zip na adrese http://www.vrana.cz/zacesti/, soubor stazeny z druheho odkazu, ktery se zde objevil (http://www.ms.mff.cuni.cz/~vrana/utility/index.html) je v poradku, je ale starsiho data, tak nevim jde-li o aktualni verzi. Samozrejme nelze na 100% vyloucit, ze jde o falesny poplach antiviru (InoculateIT 4.53, aktualizace vcerejsi}, ale bohuzel ted nemam cas na dukladny pruzkum daneho souboru.

S pozdravem
Tomas Hruby

Souhlasím  |  Nesouhlasím  |  Odpovědět
Bagher  |  20. 04. 2001 19:02

Autor clanku evidentne nikdy zadny korpus nevidel, ani se nesnazil si informace vyhledat. Protoze jinak by jiste vedel, ze na CD se vejde i ten nejrozsahlejsi, a o DVD nemluve...

Souhlasím  |  Nesouhlasím  |  Odpovědět
MAňo F.  |  20. 04. 2001 19:02

To je nič, ale mne tá aplikácia absolútne nefunguje. A to som tam najskôr dal text zo Živě zbavený diakritiky a potom som skopíroval reťazec bez diakritiky uvedený na samotnej stránke.

Souhlasím  |  Nesouhlasím  |  Odpovědět
Zasílat názory e-mailem: Zasílat názory Můj názor