Kytara znějící jako tekoucí voda? Nvidia umí vytvořit zvuk, který dosud neexistoval

Představte si nástroj, který dokáže vytvořit zvuk, jaký jste dosud neslyšeli. Například kytaru znějící jako tekoucí voda, nebo sirénu zpívající v harmonickém sboru. Nvidia se svým novým modelem Fugatto posouvá hranice toho, co je možné v syntéze zvuku.

Tento průlomový systém dokáže kombinovat hudbu, hlasy i efekty do podoby, která dává tvůrcům zcela nové možnosti. Ať už jde o umělce, vývojáře her nebo tvůrce reklam, Fugatto slibuje, že se stane nepostradatelným pomocníkem.

AI Fugatto: Trénink na základě syntetických dat

Vývoj Fugatto stál na překonání zásadních výzev v oblasti tréninku. Zatímco jazykové modely dokáží odvodit instrukce z textu, u zvuku je generalizace popisů mnohem komplikovanější. Výzkumníci Nvidia proto vytvořili syntetické anotace pomocí pokročilých modelů pro analýzu zvuku. Tyto anotace dokážou kvantifikovat charakteristiky jako pohlaví, emoce nebo kvalitu řeči, zatímco akustické nástroje popisují zvukové vlastnosti na frekvenční úrovni.

Díky této metodice a široké sadě otevřených audio datasetů vznikla databáze o 20 milionech vzorků, reprezentující více než 50 tisíc hodin zvuku. Trénink probíhal na výkonných Tensor Core procesorech, což umožnilo modelu s 2,5 miliardami parametrů dosáhnout vysoké kvality výstupů.

Trénink probíhá na základě syntetických dat

Unikátní systém ComposableART

Jádrem Fugatta je systém ComposableART (Audio Representation Transformation), který kombinuje různé instrukce a úkoly mimo standardní tréninkovou distribuci. Výsledkem jsou jedinečné zvuky, které nikdy předtím neexistovaly.

Například kombinace „hrající banjo v jemném dešti“ nebo „strojní zařízení křičící v kovové agónii“ ukazují, jak lze zcela nové zvuky generovat na základě popisů. Model zároveň umožňuje detailní ladění. Například při syntéze zvuku akustické kytary a tekoucí vody lze upravit poměr jednotlivých složek pro dosažení specifického výsledku.

Praktické aplikace a umělecké možnosti

Fugatto však není jen o generování nových zvuků. Dokáže také upravovat emoce v mluveném projevu, izolovat vokální stopy z hudby či měnit jednotlivé tóny v MIDI skladbě za různé vokální či instrumentální prvky. V praxi by tak Fugatto mohlo najít využití při prototypování písní, dynamické úpravě hudebních podkresů ve videohrách nebo v cílené reklamě napříč různými kulturami.

I když tento model představuje novou kapitolu ve tvorbě hudby a zvuku, Nvidia zdůrazňuje, že má jít spíše o nástroj než náhradu lidské kreativity. Jak poznamenal hudební producent Ido Zmishlany: „Historie hudby je zároveň historií technologie. AI nám dává nový nástroj, nové možnosti, a to je nesmírně vzrušující.“ Fugatto tak může být dalším milníkem, který otevře dveře k dosud neprobádaným hudebním i zvukovým možnostem.