Umělá inteligence YouTube dokáže nově popisovat zvuky

Umělá inteligence YouTube dokáže nově popisovat zvuky | Foto: USA-Reisenblogger, CC BY 2.0

Dobrá zpráva pro všechny sluchově postižené uživatele YouTube – zdejší algoritmy dokáží videa obohatit o popis základních zvukových efektů.

Už to bude osm let, co YouTube pomocích svých algoritmů tvoří automatické titulky, které miliony videí zpřístupňují lidem se sluchovým postižením. I když funkce ze začátku fungovala dost špatně, postupem času se výrazně zlepšila až do dnešní podoby, kdy je podle Googlu celkem blízko lidské transkripci.

Jenže mluvené slovo je jednou ze složek celé zvukové stránky audiovizuálních děl, a tak YouTube zcela poprvé nabízí automatické titulky i pro zvukové efekty. Systém v tuto chvíli dokáže popsat tři základní druhy zvuků: aplaus, hudbu a smích. „To byly nejčastěji manuálně popisované zvuky. Celému dílu dokáží dát kontext,“ píše Googlu na svém blogu.

Podobně jako u automatických titulků pro mluvené slovo, Google k zobrazení a tvorbě textu ze zvuků používá strojové učení. Společnost nejprve vytvořila umělou neuronovou síť pro ambientní zvuk, kterou následně „vycvičila“ pomocí tisíců hodin videí k rozpoznávání těch správných efektů. Jak vypadá výsledek, můžete vidět například v následujícím videu.

YouTube tvrdí, že si uvědomuje, že titulky jsou hodně jednoduché, a proto na nich hodlá dále pracovat. Časem chce rozpoznávat i zvuky jako je klepání, štěkot psů, zvonění a další. To bude o něco těžší, protože umělá inteligence se bude muset naučit rozpoznávat odkud zvuky pocházejí.

Témata článku: Google, YouTube, Umělá inteligence, Strojové učení, Zvuk, Zvukový efekt, POP, Základní efekt, Dobrá zpráva, Inteligence, Dok, Mluvené slovo

Určitě si přečtěte


Aktuální číslo časopisu Computer

26 procesorů v důkladném testu

Zhodnotili jsme 18 bezdrátových reproduktorů

Jak fungují cash back služby?

Pohlídejte své děti na internetu