Umělá inteligence | OpenAI | Spotify

Spotify naklonuje podcasty do jiného jazyka. AI zvládne i barvu hlasu autora

Podcasty na Spotify brzy budou dostupné v široké škále jazyků, posluchači prý téměř nepoznají, že přeloženou verzi nenamluvili původní autoři, nýbrž počítač. Je to díky nové funkci Voice Translation založené na technologii od OpenAI, kterou streamovací služba oznámila na blogu

Přeložit kvalitně text pomocí AI už v dnešní době není problém, vygenerovat text z audio nahrávky také ne – ostatně nástroje typu Beey od Newton Technologies používá naše vydavatelství denně – spojit ale všechno dohromady a ještě pak syntetizovat zvuk tak, aby zněl příjemně, to zatím v mnoha velkých službách vídané není. 

Pro podcasty se ale podobná kombinace přímo nabízí. Spotify se rozhodlo využít model Whisper od OpenAI, který je vytrénovaný 680 tisících hodinách mluveného slova a který slouží k převodu mluveného slova na text. Pomocí něj vybrané podcasty přepíše, přeloží do jiného jazyka a pak je nechá pomocí generativního AI modelu znovu namluvit. 

Poslední fáze je z celého procesu nejzajímavější. Spotify se totiž nesnaží nabídnout jen tak nějaký hlas, ale tvrdí, že dokáže syntetizovat takový hlas, který bude de facto totožný hlasu původního autora. Výsledný podcast tedy bude klonem původního, jen v jiném jazyce.

Snímek obrazovky 2023-09-26 v 10.21.44.png
Audio překlady generované AI jsou dostupné na dedikované stránce Spotify

Jaký nástroj přesně k převodu textu na zvuk Spotify používá, neuvádí, nicméně pravděpodobně za tím opět stojí OpenAI. Ve stejný den, kdy Spotify svou novou funkci oznamovalo, přišlo s velkým oznámením i OpenAI, které naučilo placenou verzi Chat-GPT rozumět si se zvukem. Populární chatbot nově umí reagovat na zvukové prompty a generovat zvuk z textu, takže základ bude stejný.

Spotify zatím generované audio překlady nabízí jen u vybraných dílů anglických podcastů Lex Fridman Podcast, Armchair Expert, The Diary of a CEO with Steven Bartlett, kdy epizody jsou přeložené do španělštiny a hlas v nich skutečně zní velmi přirozeně a téměř stejně jako původní.

Následovat budou překlady do francouzštiny a němčiny, dál se uvidí, jak se nástroj osvědčí. Vše je dostupné na dedikované stránce Voice Translation Hub.

Diskuze (3) Další článek: 25 let Googlu: podívejte se, jak se vyhledávač i celá firma proměnily

Témata článku: , , ,