Umělá inteligence | Soukromí

Neuronová síť Speech2Face rekonstruuje tvář podle nahrávky hlasu

Když zavřete oči a začnete poslouchat neznámého člověka, podle hlasových charakteristik odhadnete jak jeho pohlaví, tak hrubý věk a dost možná i to, kde žije a do jaké socioekonomické skupiny patří. To vše díky naší zkušenosti, protože jsme za svůj život viděli a slyšeli tisíce lidí všech možných specifik.

Vědci z laboratoře pro umělou inteligenci MIT CSAIL na stejném principu vycvičili neuronovou síť Speech2Face. Potřebovali k tomu pár milionů videí z YouTube, přičemž algoritmus si v rámci strojového učení přiřazoval k tvářím jejich hlasový projev a hledal jednoznačné vzory pro statistický model.

a4cf2b53-736b-445e-ab6a-b5718543f6a9
Vpravo originální fotografie a vlevo její rekonstrukce podle hlasu osoby

Výsledek? Alespoň podle závěrů prezentovaných na GitHubu a ve studii na Arxivu (PDF) dechberoucí. Program podle charakteru hlasu určil nejen pohlaví a věk, ale opravdu i základní fyziologii tváře, neboť ta samozřejmě s drobnými nuancemi v hlasových rozdílech přímo souvisí.

c737ebff-cd74-4ebf-8452-4ee241af0fdc
A ještě jedno srovnání tentokrát s automaticky vygenerovaným avatarem osoby. Nabízí se tedy využití třeba ve hrách, na komunitních webech, VoIP aj., kde se obrázek uživatele vygeneruje podle jeho hlasu.

Autoři experimentu proto ujišťují, že při vývoji mysleli na etický rozměr a uklidňují čtenáře, že technologie rozpoznává opravdu jen základní rysy a nikoliv konkrétního člověka.

Diskuze (6) Další článek: Mapy Googlu začaly v Česku upozorňovat na rychlostní radary. Funkce přichází z Waze

Témata článku: , , , , , , , , , , , , , , , , , ,