OpenAI vyslalo do internetu GPTBota. Pokud navštíví i vaše stránky, najdete ho podle tohoto podpisu

OpenAI vyslalo do internetu GPTBota. Pokud navštíví i vaše stránky, najdete ho podle tohoto podpisu

OpenAI vyslalo do světa svého indexovacího robota GPTBot. Bude procházet internet, stahovat webové stránky a získané informace používat pro vývoj nových generací velkých jazykových modelů z rodiny GPT. 

V principu se tedy bude GPTBot chovat podobně, jako indexovací roboti běžných webových vyhledávačů. A protože chce být OpenAI hned na začátku maximálně transparentní, robot bude samozřejmě podporovat normu RFC 9309 a její soubor robots.txt, který je veřejně dostupný z kořenového adresáře webu. Třeba zive.cz/robots.txt.

Robote, vyhni se celému webu

Webmasteři v něm mohou robota požádat, aby navštěvoval třeba jen určité části webu a těm ostatním se zcela vyhnul. Robots.txt a jeho podpora ze strany tvůrců AI by tak mohla definitivně vyřešit přetrvávající otázku autorských práv při strojovém učení nad veřejně dostupnými daty.

Povel k tomu, aby se GPTBot webu zcela vyhnul, bude vypadat takto:

User-agent: GPTBot
Disallow: /

Robote, indexuj jen tento adresář webu

Povel k tomu, aby GPTBot indexoval výhradně stránky, jejichž URL obsahuje adresář /clanky-pana-cizka (třeba https://zive.cz/clanky-pana-cizka/jak-upect-babovku.html), ale zároveň ignoroval stránky, které obsahují adresář /hesla-ctenaru (třeba https://zive.cz/hesla-ctenaru/mirek-noha.html), by mohl vypadat třeba takto:

User-agent: GPTBot
Allow: /clanky-pana-cizka/
Disallow: /hesla-ctenaru/

GPTBot je naštěstí slušně vychovaný

GPTBot je naštěstí slušně vychovaný, transparentní a dává o sobě vědět. Webmasteři jej velmi jednoduše identifikují podle jeho podpisu v  HTTP hlavičce User-Agent:

User-Agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

OpenAI běží díky úzkému partnerství s Microsoftem na cloudové infrastruktuře Azure a GPTBot není výjimkou. Další možností detekce robota jsou tedy oficiálně zveřejněné rozsahy IP adres patřících právě Microsoftu, ze kterých se bude připojovat:

  • 20.15.240.64/28
  • 20.15.240.80/28
  • 20.15.240.96/28
  • 20.15.240.176/28
  • 20.15.241.0/28
  • 20.15.242.128/28
  • 20.15.242.144/28
  • 20.15.242.192/28
  • 40.83.2.64/28

Aktuální seznam používaných IP adres robotem najdete zde. V tuto chvíli se jedná o více než stovku možných adres.

A co ostatní?

Nelze než doufat, že principy normy RFC 9309 se rozšíří napříč AI scénou a robots.txt budou dodržovat i ostatní indexovací roboti. Do světa je často nevysílají přímo tvůrci koncových AI modelů, ale autoři mohutných databank pro strojové učení.

Dejme tomu, že by mělo vlastního robota i Midjourney a fotograf Luboš Květák by si nepřál, aby se generátor obrázků učil nad jeho veřejně dostupným portfoliem.

Květák by tak mohl do robots.txt zadat povel, aby se hypotetický AI robot vyhnul jakýmkoliv souborům s příponou JPG:

User-agent: MidjourneyBot
Disallow: /*.jpg$

Určitě si přečtěte

Články odjinud