Allegro
Allegro

OpenAI posouvá hranice. Sora z textového popisu vygeneruje realistické video

  • Nový model umělé inteligence ještě není hotový
  • Vytváří 60sekundová realistická videa
  • A umí toho opravdu mnoho
OpenAI

OpenAI, ilustrační | foto: Sopa Images

Generování obrázků pomocí umělé inteligence na základě textového popisu už se trochu okoukalo, teď je na řadě video. Společnost OpenAI, která stojí za virálním chatbotem ChatGPT, nyní představila nový model umělé inteligence nazvaný Sora, který přesně toto umí.

V blogovém příspěvku společnost uvedla, že Sora dokáže vytvářet realistická a imaginativní minutová videa, která obsahují více postav, konkrétní typy pohybu a pozadí s podrobnými detaily.

Co umí Sora od OpenAI?

Různé „multimodální modely“ již nejsou novinkou a existují již i modely text-to-video. Podle Reece Haydena, senior analytika pro výzkum trhu společnosti ABI Research, kterého cituje server CNN, je ale rozdíl v délce a přesnosti, kterou jako OpenAI tvrdí, Sora má. „Model rozumí nejen tomu, co uživatel požadoval ve výzvě, ale také tomu, jak tyto věci existují ve fyzickém světě,“ píše OpenAI v příspěvku na firemním blogu.

Podle Haydena by mohly tyto typy modelů umělé inteligence mohly mít velký dopad na trhy s digitální zábavou a mohly by přinést nový personalizovaný obsah streamovaný napříč kanály. „Jedním ze zjevných příkladů je použití v televizi k vytváření krátkých scén na podporu příběhů,“ řekl Hayden a dodal: „Model je stále omezený, ale ukazuje směr trhu.“

Obrázek z videa vygenerovaného Sorou, které má zachycovat ulice New Yorku jako Atlantidu s proplouvajícími rybami | foto: OpenAI

Obrázek z videa vygenerovaného Sorou | foto: OpenAI


Čtěte také: ChatGPT dostává paměť. Nově si zapamatuje, co jste si v minulosti psali


Sora ještě není hotová

Podle OpenAI ještě Sora není zcela dokončená a současný model má řadu slabin, které je potřeba vyřešit. „Současný model má slabiny. Může mít problémy s přesnou simulací fyziky složité scény a nemusí rozumět konkrétním případům příčiny a následku. Osoba si může například ukousnout sousto ze sušenky, ale poté na sušence nemusí být žádná stopa,“ uvádí.

Model může také zaměňovat různé prostorové detaily a může mít problémy s přesným popisem událostí, které se odehrávají v průběhu času, jako je sledování konkrétní trajektorie kamery.

Dezinformátoři budou mít smůlu

Vedle dalšího zlepšování kvality modelu se chce OpenAI aktuálně také zaměřit na bezpečnost. Společnost uvedla, že spolupracuje s bezpečnostními experty, kteří se specializují na dezinformace, nenávistný obsah a zaujatost, kteří mohou hodnotit produkt z hlediska škod nebo rizik. Vytváří také nástroje, které pomohou odhalit zavádějící obsah, jako je klasifikátor detekce, který dokáže zjistit, kdy bylo video vygenerováno Sorou.

Firma také poskytuje také přístup řadě vizuálních umělců, designérů a filmařů, aby získala zpětnou vazbu o tom, jak by ji mohli využít kreativní profesionálové. Kdy si bude moci Soru vyzkoušet široká veřejnost, však OpenAI neuvedla.

Nepřehlédněte

Diskuze

"Komentáře se nahrávají..."
Allegro

OpenAI posouvá hranice. Sora z textového popisu vygeneruje realistické video

  • Nový model umělé inteligence ještě není hotový
  • Vytváří 60sekundová realistická videa
  • A umí toho opravdu mnoho
OpenAI

OpenAI, ilustrační | foto: Sopa Images

Generování obrázků pomocí umělé inteligence na základě textového popisu už se trochu okoukalo, teď je na řadě video. Společnost OpenAI, která stojí za virálním chatbotem ChatGPT, nyní představila nový model umělé inteligence nazvaný Sora, který přesně toto umí.

V blogovém příspěvku společnost uvedla, že Sora dokáže vytvářet realistická a imaginativní minutová videa, která obsahují více postav, konkrétní typy pohybu a pozadí s podrobnými detaily.

Co umí Sora od OpenAI?

Různé „multimodální modely“ již nejsou novinkou a existují již i modely text-to-video. Podle Reece Haydena, senior analytika pro výzkum trhu společnosti ABI Research, kterého cituje server CNN, je ale rozdíl v délce a přesnosti, kterou jako OpenAI tvrdí, Sora má. „Model rozumí nejen tomu, co uživatel požadoval ve výzvě, ale také tomu, jak tyto věci existují ve fyzickém světě,“ píše OpenAI v příspěvku na firemním blogu.

Podle Haydena by mohly tyto typy modelů umělé inteligence mohly mít velký dopad na trhy s digitální zábavou a mohly by přinést nový personalizovaný obsah streamovaný napříč kanály. „Jedním ze zjevných příkladů je použití v televizi k vytváření krátkých scén na podporu příběhů,“ řekl Hayden a dodal: „Model je stále omezený, ale ukazuje směr trhu.“

Obrázek z videa vygenerovaného Sorou, které má zachycovat ulice New Yorku jako Atlantidu s proplouvajícími rybami | foto: OpenAI

Obrázek z videa vygenerovaného Sorou | foto: OpenAI


Čtěte také: ChatGPT dostává paměť. Nově si zapamatuje, co jste si v minulosti psali


Sora ještě není hotová

Podle OpenAI ještě Sora není zcela dokončená a současný model má řadu slabin, které je potřeba vyřešit. „Současný model má slabiny. Může mít problémy s přesnou simulací fyziky složité scény a nemusí rozumět konkrétním případům příčiny a následku. Osoba si může například ukousnout sousto ze sušenky, ale poté na sušence nemusí být žádná stopa,“ uvádí.

Model může také zaměňovat různé prostorové detaily a může mít problémy s přesným popisem událostí, které se odehrávají v průběhu času, jako je sledování konkrétní trajektorie kamery.

Dezinformátoři budou mít smůlu

Vedle dalšího zlepšování kvality modelu se chce OpenAI aktuálně také zaměřit na bezpečnost. Společnost uvedla, že spolupracuje s bezpečnostními experty, kteří se specializují na dezinformace, nenávistný obsah a zaujatost, kteří mohou hodnotit produkt z hlediska škod nebo rizik. Vytváří také nástroje, které pomohou odhalit zavádějící obsah, jako je klasifikátor detekce, který dokáže zjistit, kdy bylo video vygenerováno Sorou.

Firma také poskytuje také přístup řadě vizuálních umělců, designérů a filmařů, aby získala zpětnou vazbu o tom, jak by ji mohli využít kreativní profesionálové. Kdy si bude moci Soru vyzkoušet široká veřejnost, však OpenAI neuvedla.

Nepřehlédněte

Diskuze

"Komentáře se nahrávají..."