GitHub má A.I. technologii, která generuje smysluplný kód. Komu ten kód ale opravdu patří?

GitHub má A.I. technologii, která generuje smysluplný kód. Komu ten kód ale opravdu patří?

GitHub ve spolupráci s laboratoří OpenAI nedávno představil novou funkci Copilot. Zatím je k dispozici jen na pozvánky, už ale vzbudila určité kontroverze.

Oč se jedná? Copilot je na první pohled jen další autocomplete – doplňovač kódu. Dnes jej nabízí skoro každý pokročilejší vývojářský balík. Některé doplňovače našeptávají jen názvy funkcí a metod tříd, jiné jdou mnohem dál a pokoušejí se doplnit komplexnější útržky kódu i s pomocí A.I.

Do této kategorie patří i Copilot, jehož tvůrci prohnali neuronkami hromadu veřejně publikovaných projektů na GitHubu a Copilot na jejich základě nyní dokáže sám doplňovat kód. Je to velmi podobné jako s mnoha A.I. generátory obrázků, kterým dáte povel, co mají nakreslit, načež se před vámi zobrazí fiktivní fotorealistická kočka.

80e696c6-04f0-472c-b67b-535179af1927
Copilot je A.I. našeptávač kódu od GitHubu a OpenAI. Namísto doplnění názvu funkce aj., nabídne úryvek s řešením celého problému

Neuronka a autorská práva studijních dat

Problém spočívá v tom, že se na Twitteru začínají objevovat ukázky, co Copilot vytvořil, a kód není zdaleka vždy genericky-očištěný.  Úryvek níže tak ukazuje strojově vytvořený HTML kód části stránky „O mně,“ který nicméně obsahuje reálné kontakty, protože se jednoduše učil na skutečných stránkách „O mně“ publikovaných na GitHubu.

Stručně řečeno, Copilot by mohl doplnit kód, který může až příliš připomínat nějaký skutečný, což by mohl být teoreticky problém, protože by mohlo dojít přinejmenším k porušení autorských práv.

Veřejné kódy na GitHubu jsou sice povětšinou publikované pod některou ze svobodných licencí, to však neznamená, že se snad jedná o volné dílo, se kterým může každý zacházet, jako by jej našel kdesi v kopřivách za domem. I svobodné licence mají své podmínky – třeba z hlediska citace a formy dalšího používání.

Je to fair use, tvrdí šéf GitHubu

Šéf GitHubu Nat Friedman je ale v diskuzi na Hacker News přesvědčený, že strojové učení používá kódy z úložiště podle principu fair use, na který zpravidla pamatuje i legislativa. Nutno ale podotknout, že právní experti už tak jasno vždy nemají.

In general: (1) training ML systems on public data is fair use (2) the output belongs to the operator, just like with a compiler.

On the training question specifically, you can find OpenAI's position, as submitted to the USPTO here: https://www.uspto.gov/sites/default/files/documents/OpenAI_R...

We expect that IP and AI will be an interesting policy discussion around the world in the coming years, and we're eager to participate!

Nat Friedman, šéf GitHubu

Hypotetický soudní spor by mohl způsobit problémy pro celou oblast A.I.

Ostatně, už delší dobu vedou akademické debaty, jak na tom jsou i jiné neuronové sítě, které se učily na veřejně dostupných (ale zároveň licencovaných) datech – typicky třeba na fotografiích.

a4f50c5f-2aa7-4554-b124-b77e825bd0c6
Toto je moje meteorologická neuronová síť Boženka. Pohledem na fotografii z webkamer ČHMÚ pozná, jaké je na ní počasí

Díky velkým a dostupným projektům studijních dat – třeba ImageNet, který dnes čítá 14 milionů fotografií – vznikla většina fotodetektorů s prvky A.I. a základní akademický výzkum, jelikož ale databáze rostla živelně, zvláště v počátcích nikdo moc neřešil autorská práva samotných fotografií stahovaných z webu.

20 bozenka studijni data.jpg
Toto je první verze docela malé databáze fotografií, na kterých se Boženka učila, jak vypadá jasno, polojasno a zataženo (seřazeno od jasných po zatažené snímky). Jedná se ale o fotografie, které patří ČHMÚ. Nabízí se tedy otázka, komu patří výsledný A.I. model.

Pokud by tedy jednou došlo na nějaký hypotetický soudní spor, zdali je neuronka naučená na licencovaných fotografiích jen jejich odvozeným dílem, anebo něco zcela jiného, co i díky fair use nemá s původními daty nic společného, mohlo by to dopadnout všelijak.

Určitě si přečtěte

Články odjinud