Proč dnes hrají v oboru A.I. prim především velké digitální korporace? Protože mají ohromné množství testovacích a studijních dat. Současné architektury strojového učení a neuronových sítí totiž potřebují kvalitní data ke svému učení.
Aby byl výzkum dostupný širšímu expertnímu publiku a aplikacím pro koncové smrtelníky, před lety se zrodily obří databáze pro strojové učení. K těm nejznámějším patří třeba ImageNet, který obsahuje 14,2 milionů popsaných obrázků. A.I. vývojář tato data může použít a naučit svoji neuronku rozpoznávat kočky, psy a tak podobně.
14 milionů vzorků zdrojového kódu
S jednou takovou obří databází pro A.I. se před pár dny pochlubilo také IBM. Jmenuje se CodeNet a jak už název napovídá, tentokrát se nejedná o obrázky, ale o programový kód.
CodeNet lze použít k nejrůznějším jazykovým analýzám, nejslibnější je ale překlad z jednoho programovacího jazyka do druhého pomocí neuronové sítě
Konkrétně se jedná o 14 milionů vzorků programového kódu ve více než padesátce různých programovacích jazyků, v čele s C, C++, Pythonem a Javou. Dohromady to dělá nějakých 500 milionů řádků.
A programátoři nebudou mít co jíst
K čemu je to dobré? Pokud obrazová neuronka umí detekovat předměty na snímcích z kamery, generovat umělé scény apod., pak by podobná textová neuronka, která se učila na CodeNetu, mohla zase překládat programový kód z jednoho jazyka do druhého. A jednou, až přijde ten správný čas, možná dokáže funkční, smysluplný a hlavně efektivní kód i sama generovat.
A programátoři s trochou nadsázky skončí na pracovním úřadě.
Přepis historického Cobolu
Ale nebojte se, jen tak k tomu nedojde, byť už dnes některé aplikace s CodeNetem skutečně nahrazují člověka. IBM jej použilo třeba k přepisování některých prastarých aplikací v neméně muzejních programovacích jazycích – třeba v Cobolu, Fortranu i ve starém dobrém Pascalu.
IBM navrhlo A.I. techniku, která přepsala staré kódy v jazyku COBOL do Javy
Automat od IBM tyto podnikové aplikace přepsal do Javy a udělal z nich mikroslužby, aniž by musel klient najímat armádu šedovlasých seniorních vývojářů, kteří tyto aplikace kdysi v 80. letech poprvé napsali, no a ty od té doby kdesi na backendu straší do dnešních dnů, aniž by je někdo dokázal spolehlivě a bezchybně přepsat do něčeho současného.
To není žádná nadsázka, s tímto problémem se totiž potýkají i ve slovutné americké NASA, jejíž skladiště zdrojového kódu připomínají spíše vysokoškolský předmět Historie programovacích jazyků I.