Technologie | Budoucnost | GitHub

Jak uložit dokument z Wordu, aby vydržel celé roky? Je to těžší než cesta na Mars

  • Jak uložit soubory, aby vydržely vnoučatům?
  • A co kdyby měly přečkat celá staletí?
  • Teď se o to pokouší GitHub a je to oříšek i pro lingvisty

Představte si, že se píše rok 1995 a vy chcete zálohovat svoje textové dokumenty na počítači. Dohromady zabírají pár set kilobajtů, a tak koupíte tu nejkvalitnější 3½" disketu, na její papírový štítek napíšete „Soukromé dokumenty, 1995“ a spokojeně se protáhnete s vědomím, že se ke všem souborům dostanete i v roce 2045.

Jenže ouha! Disketová mechanika se namísto padesáti let stane archeologickou vykopávkou už na přelomu století, a tak budete muset archiv brzy uložit na optický disk, jehož vypalovací technologie tou dobou zlevní natolik, aby byla dostupná naprosto všem majitelům počítače.

2970564e-d173-4f63-afe8-0dd54d6cf523
Ahoj, jmenuji se disketa a před 30 lety jsem byla technologickým vrcholem 

Má to ale ještě jeden háček. Sice jste zachránili samotné soubory, ale program, ve kterém jste je v roce 1995 vytvořili, už dávno nepoužíváte. Byl to přece jakýsi předpotopní textový procesor pro MS-DOS, zatímco na vašich moderních Windows XP běží Microsoft Word 2000!

Technologie zastarávají stále rychleji

Než se konečně rozhoupete, do jakého nadčasového a dostatečně univerzálního formátu svoje dokumenty vlastně uložíte, na propadliště dějin se odporoučí i ony nebohé optické disky, případně je po dalších pěti letech už ani nepřečtete, neboť jste archiv dokumentů vypalovali na první generaci laciných mechanik a kotouče z akce.

cb5737b4-b387-4596-974f-318617753270
Ahoj, jmenuji se optický disk a před 20 lety jsem byl technologickým vrcholem

A tak koupíte externí plotnový disk, o pár let později USB flešku, pak externí SSD, no a nakonec, až vám domů zavedou solidní internetovou přípojku, vše konečně nahrajete kamsi do abstraktního cloudu.

Abstraktní cloud jako zachránce?

Internetové úložiště vyřeší oba klíčové problémy:

  1. Je abstraktní z hlediska samotného fyzického nosiče – nevíte tedy a nemusíte se ani starat o to, jestli jsou vaše dokumenty uložené na plotnovém disku, SSD, magnetické pásce nebo technologii, která spatří světlo světa třeba až za pár let. O to vše včetně životnosti nosiče se postará poskytovatel služby.
  2. A může být abstraktní i z hlediska kódování samotných dat. Když tedy nahrajete třeba na službu Google Photos tisíce fotek vašich dětí, prohlédnou si je i za dalších třicet let a nehledě na to, jestli tou dobou budeme k ukládání obrázků ještě stále používat jakýsi prehistorický formát JPEG z konce 20. století.

Jednu věc ale abstraktní cloud nezvládne.

Na rozdíl od našich disket, optických disků, externích jednotek, USB flešek a jiného harampádí nemáme vůbec žádnou jistotu, že tu bude provozovatel služby i za dalších 10-15 let.

Jistě, některé evropské banky mají za sebou mnohasetletou historii – přežily všechny dějinné zvraty i hrůzy obou světových válek, čili bychom mohli předpokládat, že stejný osud potká i Google, Microsoft a možná i Facebook, ovšem v neuvěřitelně turbulentním a efemérním světě informačních technologií je to skutečně jen přání.

9daa5835-1fd3-4284-9c41-ffc3dc6f07dc
Netuším, v jakém vnitřním formátu a na jakém nosiči tuto fotografii Google drží, ale vím, že dokud bude existovat služba Photos, bude (bohužel) existovat i tato fotografie z roku 1997, byť její papírový originál se už dávno ztratil.

Ostatně, většina internetových úložišť, která se v posledních dvaceti letech objevila na scéně s tím, že vám vaše data za nemalý peníz archivuje po dobu 100 let, už dávno zkrachovala.

Takže jaká je pointa? Digitální informace může v původním stavu přežít navěky, ale jen v případě, že ji nesmažeme a budeme ji neustále replikovat podle aktuálního stavu technologie. Fotografie po babičce ledabyle pohozená v krabici na půdě naopak může vydržet i celé století, aniž byste na ni kdy sáhli. Tento přístup je v digitálním světě a při reálné životnosti běžně dostupných nosičů naprosto bláhový.

GitHub Archive Program

Dlouhodobé uskladnění našich dokumentů v digitální podobě je tedy opravdu oříšek a poměrně výstižně to ilustruje i projekt GitHubu Archive Program, který se pokouší najít cestu, jak uchovat svůj klíčový obsah ne roky, ale stovky a možná i tisíce let. Jak už jsme si vysvětlili, je to ohromně složité.

Arktický trezor na zdrojové kódy podle GitHubu:

GitHub je dnes největší skladiště open-source kódu, takže na něm najdete jak zdrojové kódy Linuxu, tak prakticky všech svobodných knihoven, programů a dalších dat. Všechno to jsou informace, které by se za pár set let mohly hodit budoucím historikům, sociologům a inženýrům, aby společnost třeba v 25. století lépe pochopila svoji vzdálenou minulost kdysi na přelomu milénia.

Zrcadla

Jenže jak toho docílit? První cestou je zajištění budoucnosti skrze to, co s digitálními daty umíme velmi dobře: kopírovat, kopírovat a ještě jednou kopírovat. GitHub sám kopíruje uložené projekty napříč datacentry, takže i když shoří jeden pevný disk, záloha stejných dat je na dalším.

Jistě si dokážete představit, že v datacentrech Googlu a Microsoftu takto kolabují pevné disky prakticky denně a v ohromném množství, takže je zaměstnanci musejí neustále měnit a ty rozbité nebo na konci životnosti bezpečně likvidují roboti.

44a10117-8911-444e-a66d-8f5fb08221c5
Robotická linka na likvidaci starých plotnových disků v datacentru Googlu běží dnem i nocí

Tento systém zálohování funguje v rámci jedné firmy, co když ale GitHub skončí? Tady už na řadu konečně přicházejí partneři z řad akademické sféry, kteří budou držet zrcadla (kopie) těch nejvýznamnějších projektů na GitHubu.

I když by se tedy jednou slavný web skutečně odporoučel, stále tu je Internet Archive, Software Heritage, Oxfordská univerzita a její Bodleian Libraries, Stanford Libraries, GHTorrent, GH Archive a další.

4350c389-06d5-4a19-9a75-351c46cc3053
Bodleyova knihovna při Oxfordské univerzitě schraňuje 11 milionů knih. Nyní se postará i o archivaci těch nejikoničtějších kódů na GitHubu. Třeba MS-DOS.

Takže GitHub možná v příštích padesáti letech zavře krám, ale Oxford, jehož historie sahá do 11. století a přežil všechny útrapy středověku, novověku i moderní doby, má mnohem vyšší šance.

Jak archivovat data, aby je pochopili potomci 

No, dobrá, ale co kdybychom chtěli softwarové dědictví počátku 21. století uchovat ne pro příštích sto let, ale opravdu třeba tisíc? Anebo ještě déle? V takovém případě se dostáváme do šedé archivační zóny, kdy, ruku na srdce, vůbec nikdo netuší, co přesně dělat. Chybí spolehlivý precedent.

Jistě, možná si z hodin dějepisu pamatujete na nejrůznější hliněné, kamenné a jiné destičky, do kterých kdosi vyryl krátké zprávy tisíce let před naším letopočtem, ty však mají poněkud menší informační hustotu.

8f1e8ae4-4622-4107-bca1-1ad76d76fe64
Tato destička sice přečkala z dob 4. tisíciletí př.n.l., ale má příliš nízkou informační hustotu. Na celý GitHub bychom jich potřebovaly biliony, což není moc praktické.

Mezi vyrytím několika úvodních bajtů Linuxu do hliněné cihličky a uchováním jeho kompletního kódu je totiž opravdu dramatický rozdíl. Nehledě na to, že jak už jsme si řekli v úvodu, vedle média musíme zajistit také čitelný formát uchovaných dat. I kdybychom tedy vyrobili opravdu hodně velkou hliněnou destičku pro miliony řádků zdrojového kódu Linuxu, jak jej vlastně do té hlíny vyrýt?

Binárně? Nebo jako prostý text? Kde však berete jistotu, že budou počítače z 36. století pracovat na stejném principu jako dnes a latinka bude i tou dobou standard písma?

Skoro jako zpráva pro mimozemské civilizace

GitHub společně s vědci z řad archeologů, lingvistů a dalších profesí tedy nakonec přišel na to, že zpráva pro takto vzdálené generace bude muset být archivovaná v podstatě stejným způsobem, jako bychom chtěli spíše kontaktovat mimozemskou civilizaci, které musíme nějakým univerzálním způsobem vysvětlit, jak vůbec všechna ta data rozluštit a přečíst.

222d40ab-6a44-4b61-a25d-654117d36ee6
Zlatá deska s popisem našeho světa na sondě Voyager 1

Kdybychom to neudělali, potomkům přenecháme, přeneseně vzato, leda tak několik bilionů hliněných a nečitelných destiček.

Filmové kotouče v arktické kaverně

První generace dlouhověkého archivu od GitHubu nakonec používá speciální archivační film na bázi halogenidů stříbra a polyesterů od norské společnosti Piql. Při dobrém zacházení by měly 3 500stopé kotouče vydržet až 500 let, o což se postará podzemní Arctic World Archive na Špicberkách.

8b565134-2538-45c4-bc8b-1716811e6bad
Starý uhelný důl na Špicberkách proměněný v datový archiv

Archiv se nachází ve starém uhelném dole a více než 100 metrů pod zemí. Provozuje jej zmíněný Piql společně s norskou státní těžební společností, a byť by měl přežít i jaderný útok, jeho tvůrci spíše předpokládají, že tato situace nikdy nenastane, protože k ní není žádný objektivní důvod. Kdo by proboha velmi draze ničil jakousi díru v zemi, kde jsou jen stočené filmové pásky a žádná hrouda zlata či velení nepřítele.

dfb5742b-12e5-4df1-8a77-af8ab13bfaec
Portál špicberského archivu rostlinných semen

Na Špicberkách se z téhož důvodu nachází hned několik dalších dlouhodobých archivů – tím doposud nejznámějším je Svalbard Global Seed Vault, který sice funguje teprve 12 let, v hloubce 130 metrů by měl ale uchovávat semena plodin mnohem, mnohem déle.

Jeho útroby pojmou až 4,5 milionů vzorků, které zde mohou v mrazu přečkat stovky a možná i tisíce let, a přežít tak v podstatě téměř jakoukoliv přírodní nebo společenskou katastrofu.

TAR, QR kódování a Rosettská deska

Ale zpět k datům ve Světovém arktickém archivu. Máme tedy nosič (speciální filmová páska) a máme i sejf (kavernu hluboko pod zemí), ale ještě potřebujeme ten správný formát. Každý repozitář je zabalený do balíku ve formátu TAR a data jsou zakódovaná pomocí techniky, kterou známe z QR kódů. To by mělo pomoci se snazší obnovou poškozených dat.

d32cfda6-aad0-4501-afeb-3f59cc4771a8
Součástí archivu GitHubu bude i novodobá podoba Rosettské desky (na snímku), která umožnila rozluštit egyptské hieroglyfy. Foto: Hans Hillewaert, CC BY-SA 4.0

Součástí archivu je pak podrobný manuál, jak všechny tyto techniky fungují, jak číst takto uložená data, co je to QR a podobně. Pro co nejsnazší přečtení údajů civilizacemi, které přijdou třeba až za tisíce let, nechybí ani technika Rosettské desky, která nám pomohla v 19. století rozluštit egyptské hieroglyfy, protože na ní byla vytesaná zpráva hned v několika písmech, přičemž některá jsme už tehdy znali.

V případě GitHubu, který se v těchto dnech pochlubil, že na Špicberky uložil v podstatě svoji celou únorovou veřejnou verzi čítající 21 TB zdrojových kódů, bude jeho Rosettská deska obsahovat zápisy různými způsoby s předpokladem, že alespoň jednu z variant naši potomci nakonec opravdu přečtou.

Laserem do skla

Použité filmové pásky jsou však pouze prvním krokem. Jak už jsme si řekli v úvodu, nosné médium je třeba stále dokola měnit, a tak se výhledově počítá s tím, že je postupně nahradí křemenné sklo a femtosekundový laser, který do něj vypálí původní archiv.  

Project Silica:

Tady na řadu konečně přichází Microsoft, který dnes GitHub vlastní, a jeho roky vyvíjená technologie Project Silica, jenž by měla zajistit robustnější uchování než jakákoliv páska.

Nelze než doufat, že se budoucnosti nakonec dočká alespoň jedno sklíčko. A třeba to bude zrovna váš zdrojový kód.

Diskuze (118) Další článek: Game Pass na PS4 ani Switchi nebude, konkurenti to Microsoftu nedovolí

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , , ,