Umělá inteligence

AI od Googlu skládá hudbu. Stačí popsat, jak má znít, zapískat ji nebo zabroukat. MusicLM ale není veřejné

Do galerie nástrojů postavených na uměle inteligentních neuronových sítích se přidává MusicLM. Je to systém, který po naposlouchání 280 tisíc hodin nahrávek dokáže skládat hudbu podle zadání.

Výsledky jsou hodně působivé. Nemá ale smysl příliš je popisovat, musíte je slyšet. Otevřete si proto rovnou stránku s ukázkami.

image.png 
Některé části na stránce jsou stránkované

Na stránce v jednotlivých sekcích najdete:

Generování hudby z textového zadání: Text v několika větách říká, jak má skladba vypadat. Například první ukázka: „Hlavní soundtrack arkádové hry. Je rychlý a optimistický, s chytlavým riffem elektrické kytary. Hudba je repetitivní a snadno zapamatovatelná, ale s nečekanými zvuky, jako jsou údery do činelů nebo vířivý zvuk malého bubnu.“

Dlouhé ukázky: Zde je jen stručně zadaný styl, AI připraví dlouhou skladbu.

Navazující styly: V zadání je definovány styly a jejich délky, hudba plynule navazuje.

Změny stylů: Zdrojem je zapískaná, zahraná nebo jiným způsobem prezentovaná hudba. AI ji změní na jiný styl. Na stránce jsou v matici ve sloupcích vzory, v řádcích styly a na průsečíku si můžete pustit výsledek.

Hudba k obrázku: AI vygenerovala hudbu na základě popisu obrazu z Wikipedie.

Nástroje, žánry, interpretační úrovně, místa, epochy…: Krátké ukázky, nepřehlédněte dole sólový akordeon v různých hudebních stylech.

Ukázky variant: Jak vypadají skladby při opakovaném generování stejného vstupu.

Hrozí ale problémy

Google svůj MusicLM v současné podobě neplánuje zveřejnit. Hlavně kvůli možnému poškozování cizích autorských práv. Autoři ve své studii (PDF) uvádějí:

„S naším modelem a případem použití, který řeší, je však spojeno několik rizik. V generovaných ukázkách se budou odrážet předsudky přítomné v trénovacích datech, což vyvolává otázku vhodnosti generování hudby pro kultury nedostatečně zastoupené v trénovacích datech a zároveň také obavy z kulturní apropriace. Uvědomujeme si riziko možného přivlastnění tvůrčího obsahu spojeného s případem užití.“

„Zjistili jsme, že pouze nepatrný zlomek příkladů byl zapamatován přesně, zatímco u 1 % příkladů jsme mohli určit přibližnou shodu. Důrazně zdůrazňujeme potřebu další budoucí práce při řešení těchto rizik spojených s generováním hudby – v tuto chvíli nemáme v plánu modely zveřejňovat.“

(Pro překlad jsme použili Deepl)

Diskuze (2) Další článek: 3D displeje vstávají z mrtvých. Do notebooků ale míří i další bizarnosti (Podcast Živě)

Témata článku: , , , , , , , , , , , , , , ,