Umělá inteligence | Google | YouTube | Strojové učení

Umělá inteligence YouTube dokáže nově popisovat zvuky

Dobrá zpráva pro všechny sluchově postižené uživatele YouTube – zdejší algoritmy dokáží videa obohatit o popis základních zvukových efektů.

Už to bude osm let, co YouTube pomocích svých algoritmů tvoří automatické titulky, které miliony videí zpřístupňují lidem se sluchovým postižením. I když funkce ze začátku fungovala dost špatně, postupem času se výrazně zlepšila až do dnešní podoby, kdy je podle Googlu celkem blízko lidské transkripci.

Jenže mluvené slovo je jednou ze složek celé zvukové stránky audiovizuálních děl, a tak YouTube zcela poprvé nabízí automatické titulky i pro zvukové efekty. Systém v tuto chvíli dokáže popsat tři základní druhy zvuků: aplaus, hudbu a smích. „To byly nejčastěji manuálně popisované zvuky. Celému dílu dokáží dát kontext,“ píše Googlu na svém blogu.

Podobně jako u automatických titulků pro mluvené slovo, Google k zobrazení a tvorbě textu ze zvuků používá strojové učení. Společnost nejprve vytvořila umělou neuronovou síť pro ambientní zvuk, kterou následně „vycvičila“ pomocí tisíců hodin videí k rozpoznávání těch správných efektů. Jak vypadá výsledek, můžete vidět například v následujícím videu.

YouTube tvrdí, že si uvědomuje, že titulky jsou hodně jednoduché, a proto na nich hodlá dále pracovat. Časem chce rozpoznávat i zvuky jako je klepání, štěkot psů, zvonění a další. To bude o něco těžší, protože umělá inteligence se bude muset naučit rozpoznávat odkud zvuky pocházejí.

Diskuze (5) Další článek: Samsung plánuje 22 nových zakřivených televizorů. Jako jediný velký výrobce

Témata článku: , , , , , , , , , , , , , , ,