Umělá inteligence YouTube dokáže nově popisovat zvuky

Umělá inteligence YouTube dokáže nově popisovat zvuky | Foto: USA-Reisenblogger, CC BY 2.0

Dobrá zpráva pro všechny sluchově postižené uživatele YouTube – zdejší algoritmy dokáží videa obohatit o popis základních zvukových efektů.

Už to bude osm let, co YouTube pomocích svých algoritmů tvoří automatické titulky, které miliony videí zpřístupňují lidem se sluchovým postižením. I když funkce ze začátku fungovala dost špatně, postupem času se výrazně zlepšila až do dnešní podoby, kdy je podle Googlu celkem blízko lidské transkripci.

Jenže mluvené slovo je jednou ze složek celé zvukové stránky audiovizuálních děl, a tak YouTube zcela poprvé nabízí automatické titulky i pro zvukové efekty. Systém v tuto chvíli dokáže popsat tři základní druhy zvuků: aplaus, hudbu a smích. „To byly nejčastěji manuálně popisované zvuky. Celému dílu dokáží dát kontext,“ píše Googlu na svém blogu.

Podobně jako u automatických titulků pro mluvené slovo, Google k zobrazení a tvorbě textu ze zvuků používá strojové učení. Společnost nejprve vytvořila umělou neuronovou síť pro ambientní zvuk, kterou následně „vycvičila“ pomocí tisíců hodin videí k rozpoznávání těch správných efektů. Jak vypadá výsledek, můžete vidět například v následujícím videu.

YouTube tvrdí, že si uvědomuje, že titulky jsou hodně jednoduché, a proto na nich hodlá dále pracovat. Časem chce rozpoznávat i zvuky jako je klepání, štěkot psů, zvonění a další. To bude o něco těžší, protože umělá inteligence se bude muset naučit rozpoznávat odkud zvuky pocházejí.

Témata článku: Google, YouTube, Umělá inteligence, Strojové učení, Zvuk, Základní efekt, Dok, Inteligence, Mluvené slovo, Dobrá zpráva

Určitě si přečtěte

Velká podzimní aktualizace Windows 10 je tady: Co přináší Fall Creators Update

Velká podzimní aktualizace Windows 10 je tady: Co přináší Fall Creators Update

** Po půl roce je tu další aktualizace Windows ** A opět přináší hlavně hromadu drobných kosmetických vylepšení ** Podívali jsme se na ty nejzajímavější

17.  10.  2017 | Jakub Čížek | 183

Budoucností Windows 10 je Fluent Design. Takto bude jednou vypadat celý systém

Budoucností Windows 10 je Fluent Design. Takto bude jednou vypadat celý systém

** Fluent Design je vzhled, do kterého postupně Microsoft převleče celý systém ** Staví na průhlednosti a velkých plochách ** Do Windows 10 se z části dostane už zítra při vydání podzimní aktualizace

16.  10.  2017 | Stanislav Janů | 155

Nejlepší optické iluze: Z toho vám půjde hlava kolem

Nejlepší optické iluze: Z toho vám půjde hlava kolem

** Mozek se nechá snadno ošálit, a to mnoha způsoby ** Podívejte se na několik nejlepších optických iluzí ** Iluze dokazují, že vnímání reality může být značně zkreslené

16.  10.  2017 | Vojtěch Malý

Tesla nestíhá, přesto propustila stovky zaměstnanců

Tesla nestíhá, přesto propustila stovky zaměstnanců

15.  10.  2017 | Markéta Mikešová | 30


Aktuální číslo časopisu Computer

Nový seriál o programování elektroniky

Otestovali jsme 17 bezdrátových sluchátek

Jak na nákup vánočních dárků ze zahraničí

4 tankové tiskárny v přímém souboji