Umělá inteligence YouTube dokáže nově popisovat zvuky

Umělá inteligence YouTube dokáže nově popisovat zvuky | Foto: USA-Reisenblogger, CC BY 2.0

Dobrá zpráva pro všechny sluchově postižené uživatele YouTube – zdejší algoritmy dokáží videa obohatit o popis základních zvukových efektů.

Už to bude osm let, co YouTube pomocích svých algoritmů tvoří automatické titulky, které miliony videí zpřístupňují lidem se sluchovým postižením. I když funkce ze začátku fungovala dost špatně, postupem času se výrazně zlepšila až do dnešní podoby, kdy je podle Googlu celkem blízko lidské transkripci.

Jenže mluvené slovo je jednou ze složek celé zvukové stránky audiovizuálních děl, a tak YouTube zcela poprvé nabízí automatické titulky i pro zvukové efekty. Systém v tuto chvíli dokáže popsat tři základní druhy zvuků: aplaus, hudbu a smích. „To byly nejčastěji manuálně popisované zvuky. Celému dílu dokáží dát kontext,“ píše Googlu na svém blogu.

Podobně jako u automatických titulků pro mluvené slovo, Google k zobrazení a tvorbě textu ze zvuků používá strojové učení. Společnost nejprve vytvořila umělou neuronovou síť pro ambientní zvuk, kterou následně „vycvičila“ pomocí tisíců hodin videí k rozpoznávání těch správných efektů. Jak vypadá výsledek, můžete vidět například v následujícím videu.

YouTube tvrdí, že si uvědomuje, že titulky jsou hodně jednoduché, a proto na nich hodlá dále pracovat. Časem chce rozpoznávat i zvuky jako je klepání, štěkot psů, zvonění a další. To bude o něco těžší, protože umělá inteligence se bude muset naučit rozpoznávat odkud zvuky pocházejí.

Diskuze (5) Další článek: Samsung plánuje 22 nových zakřivených televizorů. Jako jediný velký výrobce

Témata článku: Google, YouTube, Umělá inteligence, Strojové učení, Zvuk, POP, Inteligence, Zvukový efekt, Mluvené slovo, Popis, Základní efekt, Postižení, Dobrá zpráva, Dok


Určitě si přečtěte

Porno insider: Jak virtuální realita vstupuje do filmů pro dospělé

Porno insider: Jak virtuální realita vstupuje do filmů pro dospělé

** Pornografie údajně představuje třetinu internetové obsahu a je technologický tahounem ** Do erotického obsahu postupně zasahuje i virtuální realita ** Kromě vizuálního vjemu se pracuje také na virtuálním uspokojení toho hmatového

Jan Dudek | 29

Rozlučte se s Inboxem, Google ho v březnu „zařízne“

Rozlučte se s Inboxem, Google ho v březnu „zařízne“

** Google Inbox je alternativní aplikace pro práci s e-maily ** Nabízí řadu inovativních funkcí a novinek ** V březnu 2019 však Google tuto službu ukončí

Karel Kilián | 19

Windows 95 slaví 23 let. Vzpomínáte na ně? Jak dlouho jste je používali?

Windows 95 slaví 23 let. Vzpomínáte na ně? Jak dlouho jste je používali?

** 24. srpna 1995 zahájil Microsoft prodej Windows 95 ** Uvedení na trh doprovázela masivní reklamní kampaň ** I 23 let poté je určitě na co vzpomínat!

Karel Kilián | 118

Osudová havárie Concordu: Před 18 lety přišel konec nadzvukových dopravních letadel

Osudová havárie Concordu: Před 18 lety přišel konec nadzvukových dopravních letadel

** Concorde byl nejrychlejším dopravním letadlem ** Atlantik dokázal přeletět za cca 3 až 3,5 hodiny ** Před osmnácti lety tragická havárie provoz těchto letadel prakticky ukončila

David Polesný, Jiří Černý | 37


Aktuální číslo časopisu Computer

Megatest: 13 grafických karet

Srovnání 7 dokovacích stanic s USB-C

Jak na perfektní noční fotografie

Kvalitní zdroje informací pro sebevzdělávání