České znaky v URL? Čtenáři Živě.cz říkají jasné NE

Sdružení CZ.NIC spustilo veřejnou debatu o zavedení českých domén s diakritikou. Široká veřejnost spíše nesouhlasí a projevilo se to i v naší diskuzi s Martinem Peterkou z CZ.NIC.

Když v květnu sdružení CZ.NIC spustilo web na adrese www.háčkyčárky.cz, diskuze se zaplnily dohady, zdali má čeština v URL smysl. Zatímco některým se tato představa zalíbila, diakritika jednoduše patří k českému jazyku a proč jej tedy v 21. století jakkoliv omezovat, drtivá většina ostatních s možností zavedení IDN na českých doménách hrubě nesouhlasila.

IDN? To ani zdaleka není pouze čeština, ale i miliardová Čína

Ačkoliv by se na první pohled mohlo zdát, že jsou národní znaky v adresách módou posledních let, skutečnost je poněkud odlišná. Princip IDN (Internationalized Domain Name) je starý už dvanáct let, v pozdějších letech se stal součástí webových standardů a byl vytvořen schůdnější systém IDNA (IDN in Applications), který je dnes implementován velkým množstvím programů počínaje webovým prohlížečem a konče třeba poštovním klientem.

IDN má své výhody i zřejmá rizika. V zemích, které používají latinku, není efekt tak výrazný. Během let vývoje českého internetu jsme si webové adresy automaticky zvykli psát bez háčků a čárek, ačkoliv o doménách mluvíme česky. Pokud tedy kolegovi řeknete, že na Živě.cz vyšel pěkný článek, jistě do prohlížeče nezadá skutečně českou adresu, ale použije „ceský“ ekvivalent. V zemích, které latinku nepoužívají, však má IDN mnohem větší význam. S takovým internetem si pak poradí i obyvatel čínského venkova, který počítač v životě neviděl a latinské písmo neovládá. Pokud si uvědomíme, kolik má dnes nacionálně hrdá Čína a další země jihovýchodní Asie obyvatel, nelze se jejich kladnému vztahu k IDN divit. Dnes je sice internet a web doménou technologicky vyspělého euroatlantického kulturního okruhu, za dvacet let se však může situace dramaticky změnit.

Podporu IDN dnes nabízí desítky národních domén, ale i některé organické domény. IDN používá znakovou sadu Unicode, poradí si tedy prakticky se všemi národními znaky i celými abecedami od českého „č“ po ruskou azbuku, čínské a japonské znaky i vietnamštinu.

IDN adresa se už v programu přeloží na jednoduchý ASCII Punycode

Původní internetová struktura nebyla na IDN samozřejmě připravená a platí to ostatně dodnes, ve skutečnosti se tedy používá překladu z Unicodu do speciálního ASCII kódu, který se pak už šíří skrze internet. Pokud tedy zadáte nějakou pěknou adresu, třeba www.živě.cz, do novějšího prohlížeče, program ji přeloží do www.xn--iv-mna70b.cz a v této formě pak již putuje dotaz skrze celosvětovou síť. Háčky a čárky se tedy používají pouze na uživatelské vrstvě, pouze ve vašem prohlížeči, poštovním klientu, komunikačním programu aj.

Speciální kód, který přeloží národní znaky do prosté latinky se jmenuje Punycode a dostanete se skrze něj na jakoukoliv IDN stránku, i kdyby byla registrovaná dejme tomu v arabštině, která bude asi pro drtivou většinu čtenářů zcela nečitelná. Na druhou stranu, účelem IDN je především vytvoření snadnějšího rozhraní pro národní uživatele – na www.živě.cz tedy přirozeně nebudeme lákat zahraniční čtenáře.

IDN má jeden velký problém a tímto problémem je poměrně vysoká inteligence lidského druhu, který záhy po uvedení této technologie přišel na několik zajímavých postupů, jak zmást běžného návštěvníka. Pokud budete chtít zvýšit návštěvnost svého webu, v prostředí ASCII webových adres bez národních znaků si můžete zaregistrovat nějakou známou českou adresu s často používaným překlepem. Pokud si zaregistrujete co nejvíce alternativ, jistě se vám drasticky zvýší návštěvnost. Příkladem budiž třeba seznma.cz, seznaam.cz, aj.

Pozor na IDN phishing aneb www.pаypal.com

IDN oproti prostým překlepům nabízí mnohem silnější zbraň. Písmena v různých abecedách totiž vypadají poměrně podobně. Na Wikipedii tak například citují případ cyrilického písmena „а“, které je na první pohled velmi podobné jako běžné „a“. Autoři jedné bezpečnostní konference pak toto písmeno zaměnili za první „a“ v adrese www.paypal.com , vznikla tedy adresa www.pаypal.com, která v adresním řádku vypadá zcela stejně jako adresa známého platebního systému, vede však na stránku, která na vás „mňoukne“. Více asi netřeba dodávat, lepší nástroj si autoři phishingových stránek nemohli přát.

idnie7.png paypal.png
Internet Explorer 7 zobrazí u IDN adresy informační ikonu s popisem

IDN, resp. podporu pro Punycode, dnes nabízí všechny nejnovější webové prohlížeče. Zatímco některé v adresním řádku ponechají adresu s národními znaky, jiné adresu přeloží na Punycode. To ovšem není chyba, naopak se jedná o celkem transparentní informaci, že surfujete na IDN webu a je třeba si dávat pozor na případný phishing – viz příklad s PayPalem.

Ptali jste se provozního ředitele sdružení CZ.NIC

Minulý týden jste mohli na Živě.cz položit dotaz tomu nejpovolanějšímu, živé diskuze se čtenáři se totiž účastnil provozní ředitel sdružení CZ.NIC, Martin Peterka. Vybrali jsme nejdůležitější informace a přinášíme je ve stručnější a přehlednější formě samostatného článku ve stylu jednoduchého rozhovoru. Tento článek jste vytvořili vy, čtenáři Živě.cz.

Co pro vás bude při rozhodování o zavedení IDN do praxe nejdůležitější a není to pouze skrytá forma, jak ještě více roztočit trh s českými doménami? Každý subjekt, kterého se to bude týkat, si přeci bude chtít pořídit českou alternativu své adresy.

Jedním z nejdůležitějších faktorů je zájem ze strany veřejnosti – uživatelů internetu a držitelů domén. Právě proto, že nás názor těchto lidí zajímá, otevíráme na téma IDN diskusi. V této chvíli žádné rozhodnutí o zavedení, resp. nezavedení IDN do domény .cz nepadlo a názory veřejnosti, stejně jako výsledky průzkumu veřejného mínění, nás rozhodně ovlivní. Osobně nevidím v IDN žádný extrémně velký prostor pro zisky, ať už naše nebo registrátorů. Počet IDN domén v okolních státech se pohybuje v řádu procent v poměru k „normálním“ doménám (např. 1,5% v Polsku, v Německu je to cca 3,5% atd.). Navíc – naše vystoupení na téma IDN podle mne nejsou v duchu nějakého výrazného doporučování IDN nebo jeho vychvalování. Naopak, sami otevíráme problémy a upozorňujeme na ně, ať už jde o záležitosti technické, nebo organizační.

Budou adresy s diakritikou přednostně blokovány pro majitele verzí bez háčků a čárek? Například aby se nestalo, že někdo zaregistruje živě.cz dříve, než jeho majitel?

Obvyklý postup při zavádění nových domén v posledních letech je použití tzv. sunrise period. Jde o jakési přechodné období, kdy platí jiné než normální pravidla registrací a upřednostňují se v něm určité skupiny uživatelů. Tato sunrise může být nastavena různě – umím si představit přednostní právo pro držitele ochranných známek, názvů společností, státních úřadů a organizací atd., tedy přednost ve smyslu, v jakém byla použita například v sunrise pro doménu .eu. Druhým pohledem je potom právo na přednostní registrace pro držitele „ne-IDN“ tvarů příslušných domén, případně kombinace obojího. Ale znovu podotýkám, ještě nevíme, zda vůbec diakritiku zavedeme. Teprve v případě, že bychom se rozhodli, že ano, bychom řešili konkrétní postupy a pravidla.

Jak je to s podporou IDN ze strany softwaru? Dokážu třeba odeslat e-mail na adresu pepa@maňas.cz?

Podpora u jednotlivých SW aplikací se liší, ať už jde o prohlížeče, nebo například o mailové klienty. Odeslání mailu si můžete vyzkoušet – stačí poslat elektronickou zprávu na adresu testmail@háčkyčárky.cz . Pokud do předmětu uvedete slovo IDN, vše bude fungovat a mail dorazí do cíle, dostanete na vaši zprávu odpověď. Tyto odpovědi zasíláme jednou denně.

A jak bude českou IDN adresu zadávat třeba uživatel ve Francii bez české klávesnice a naopak? Bude muset mít firma na vizitkách dvě webové adresy? Jednu českou a druhou „ceskou“?

Ano, zadávání webové adresy s diakritikou bude v jiné zemi zřejmě docela problém. Vidím to tak, že by se každý provozovatel musel rozhodnout, jakou má cílovou skupinu zákazníků a podle toho buďto registrovat jak diakritický, tak nediakritický tvar nebo třeba jen jednu z těchto variant.

Přestože zavedení české diakritiky jistě potěší společnosti mající diakritiku v názvu, pro ostatní uživatele se otevře řada pastí jako typosquatting. Provozovatel serverů již dnes musí (pokud chce toto riziko omezit) zaregistrovat více doménových jmen, nemluvě o národních koncovkách.

Typosquatting je tu již dnes. Řada držitelů domén si registruje různé tvary adres – s pomlčkou, bez pomlčky, s překlepy typu y/z atd. aby těmto problémům zamezila. Další řada držitelů problém typosquattingu za důležitý nepovažuje a registruje si jen tu doménu, kterou skutečně chce. Nemyslím si, že by se v případě zavedení IDN situace změnila, máte ale pravdu v tom, že počet variant pro registraci by vzrostl.

V diskuzi jste položili několik desítek dotazů. Většina z nich si byla víceméně velmi podobná. Čtenáři Živě.cz v drtivé většině IDN na českých doménách odmítají především pro chaos, který by prý nastal a nebezpečí typosquattingu, čili registrování nejrůznějších obměn a překlepů původního výrazu třeba konkurencí nebo autory podvodných phishingových stránek. 

Nechme se tedy překvapit, jak bude veřejná diskuze nadále pokračovat. Dočkáme se českých znaků v národních doménách? Podělte se se svým názorem v diskuzi pod článkem.

Celou diskuzi najdete zde

Povinná četba:

Internationalized domain name na anglické Wikipedii
Český zdroj informací na háčkyčárky.cz

Diskuze (38) Další článek: Leonardo DiCaprio ztvární filmovou roli zakladatele Atari

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , ,