Generování obrázků pomocí umělé inteligence na základě textového popisu už se trochu okoukalo, teď je na řadě video. Společnost OpenAI, která stojí za virálním chatbotem ChatGPT, nyní představila nový model umělé inteligence nazvaný Sora, který přesně toto umí.
V blogovém příspěvku společnost uvedla, že Sora dokáže vytvářet realistická a imaginativní minutová videa, která obsahují více postav, konkrétní typy pohybu a pozadí s podrobnými detaily.
Různé „multimodální modely“ již nejsou novinkou a existují již i modely text-to-video. Podle Reece Haydena, senior analytika pro výzkum trhu společnosti ABI Research, kterého cituje server CNN, je ale rozdíl v délce a přesnosti, kterou jako OpenAI tvrdí, Sora má. „Model rozumí nejen tomu, co uživatel požadoval ve výzvě, ale také tomu, jak tyto věci existují ve fyzickém světě,“ píše OpenAI v příspěvku na firemním blogu.
Podle Haydena by mohly tyto typy modelů umělé inteligence mohly mít velký dopad na trhy s digitální zábavou a mohly by přinést nový personalizovaný obsah streamovaný napříč kanály. „Jedním ze zjevných příkladů je použití v televizi k vytváření krátkých scén na podporu příběhů,“ řekl Hayden a dodal: „Model je stále omezený, ale ukazuje směr trhu.“
Čtěte také: ChatGPT dostává paměť. Nově si zapamatuje, co jste si v minulosti psali
Podle OpenAI ještě Sora není zcela dokončená a současný model má řadu slabin, které je potřeba vyřešit. „Současný model má slabiny. Může mít problémy s přesnou simulací fyziky složité scény a nemusí rozumět konkrétním případům příčiny a následku. Osoba si může například ukousnout sousto ze sušenky, ale poté na sušence nemusí být žádná stopa,“ uvádí.
Model může také zaměňovat různé prostorové detaily a může mít problémy s přesným popisem událostí, které se odehrávají v průběhu času, jako je sledování konkrétní trajektorie kamery.
Vedle dalšího zlepšování kvality modelu se chce OpenAI aktuálně také zaměřit na bezpečnost. Společnost uvedla, že spolupracuje s bezpečnostními experty, kteří se specializují na dezinformace, nenávistný obsah a zaujatost, kteří mohou hodnotit produkt z hlediska škod nebo rizik. Vytváří také nástroje, které pomohou odhalit zavádějící obsah, jako je klasifikátor detekce, který dokáže zjistit, kdy bylo video vygenerováno Sorou.
Firma také poskytuje také přístup řadě vizuálních umělců, designérů a filmařů, aby získala zpětnou vazbu o tom, jak by ji mohli využít kreativní profesionálové. Kdy si bude moci Soru vyzkoušet široká veřejnost, však OpenAI neuvedla.
Generování obrázků pomocí umělé inteligence na základě textového popisu už se trochu okoukalo, teď je na řadě video. Společnost OpenAI, která stojí za virálním chatbotem ChatGPT, nyní představila nový model umělé inteligence nazvaný Sora, který přesně toto umí.
V blogovém příspěvku společnost uvedla, že Sora dokáže vytvářet realistická a imaginativní minutová videa, která obsahují více postav, konkrétní typy pohybu a pozadí s podrobnými detaily.
Různé „multimodální modely“ již nejsou novinkou a existují již i modely text-to-video. Podle Reece Haydena, senior analytika pro výzkum trhu společnosti ABI Research, kterého cituje server CNN, je ale rozdíl v délce a přesnosti, kterou jako OpenAI tvrdí, Sora má. „Model rozumí nejen tomu, co uživatel požadoval ve výzvě, ale také tomu, jak tyto věci existují ve fyzickém světě,“ píše OpenAI v příspěvku na firemním blogu.
Podle Haydena by mohly tyto typy modelů umělé inteligence mohly mít velký dopad na trhy s digitální zábavou a mohly by přinést nový personalizovaný obsah streamovaný napříč kanály. „Jedním ze zjevných příkladů je použití v televizi k vytváření krátkých scén na podporu příběhů,“ řekl Hayden a dodal: „Model je stále omezený, ale ukazuje směr trhu.“
Čtěte také: ChatGPT dostává paměť. Nově si zapamatuje, co jste si v minulosti psali
Podle OpenAI ještě Sora není zcela dokončená a současný model má řadu slabin, které je potřeba vyřešit. „Současný model má slabiny. Může mít problémy s přesnou simulací fyziky složité scény a nemusí rozumět konkrétním případům příčiny a následku. Osoba si může například ukousnout sousto ze sušenky, ale poté na sušence nemusí být žádná stopa,“ uvádí.
Model může také zaměňovat různé prostorové detaily a může mít problémy s přesným popisem událostí, které se odehrávají v průběhu času, jako je sledování konkrétní trajektorie kamery.
Vedle dalšího zlepšování kvality modelu se chce OpenAI aktuálně také zaměřit na bezpečnost. Společnost uvedla, že spolupracuje s bezpečnostními experty, kteří se specializují na dezinformace, nenávistný obsah a zaujatost, kteří mohou hodnotit produkt z hlediska škod nebo rizik. Vytváří také nástroje, které pomohou odhalit zavádějící obsah, jako je klasifikátor detekce, který dokáže zjistit, kdy bylo video vygenerováno Sorou.
Firma také poskytuje také přístup řadě vizuálních umělců, designérů a filmařů, aby získala zpětnou vazbu o tom, jak by ji mohli využít kreativní profesionálové. Kdy si bude moci Soru vyzkoušet široká veřejnost, však OpenAI neuvedla.