Asi se shodneme, že vývoj umělé inteligence a strojového učení jde vpřed skutečně mílovými kroky, a je až neuvěřitelné, co dnes vývojáři zvládnou naprogramovat. Umělou inteligenci dnes najdeme ve své podstatě téměř v jakékoliv trochu složitější elektronice. Ať už je to televize, lednička, nebo třeba vaše nová pračka. Umělá inteligence (zkráceně AI) zkrátka vstoupila již dávno do našich všedních životů, aniž si to třeba úplně uvědomujeme.
Jedním z horkých trendů v oblasti AI je převod textu na obrázek. Asi vám teď přijde, že jsme se zbláznili, ale skutečně je to tak. Existují generátory převodu textu na obrázek, a to téměř libovolného textu! A i když to možná bude znít jako klišé, limitem je v této chvíli jen vaše představivost. Až k dnešnímu dni byl lídrem v tomto oboru generátor DALL-E, vytvořený komerční laboratoří OpenAI. Google však vytvořil vlastní software Imagen a tím zřejmě sesadil DALL-E z pomyslného trůnu.
Generátory fungují na jednoduchém principu. Jednoduše napíšete text v anglickém jazyce a program pomocí algoritmů AI převede vámi zadaný text na obrázek. Celkem fantastické, že? I když jsou tyto obrázky nepopíratelně působivé, je třeba k nim přistupovat s trochou shovívavosti.
Každý vývojový tým má samozřejmě tendenci vybírat k veřejné prezentaci ty nejlepší výsledky. A i když tyto obrázky vypadají jako dokonalé, nemusí nutně představovat průměrný výstup převodu textu na obraz. Obrázky generované těmito systémy občas vypadají jako nedokončené, rozmazané apod. Nicméně, jako ukázka, kam už se umělá inteligence dokázala dostat, je to dechberoucí.
Čtěte také: 3 největší technologické kravinky z Lidlu – Aby vám nebylo horko ani zima (7. díl)
Google však tvrdí, že Imagen vytváří trvale lepší obrázky než DALL-E 2, na základě nového benchmarku, který vytvořil pro tento projekt s názvem DrawBench. DrawBench není nijak zvlášť složitá metrika, je to v podstatě seznam asi 200 krátkých textů, které tým Googlu vložil do Imagenu a dalších generátorů převodu textu na obrázek, přičemž výstupy z každého programu pak posuzují lidé, kteří hodnotí. Jak je znázorněno v grafech níže, Google zjistil, že lidé obecně preferovali výstup z Imagen před výstupem soupeřů.
Sami to však budeme těžko posuzovat, protože Google nezpřístupňuje model Imagen veřejnosti. Má to také dobrý důvod. Přestože modely převodu textu na obrázek mají jistě fantastický tvůrčí potenciál, mají také řadu znepokojivých atributů. Představte si systém, který generuje téměř jakýkoli obrázek, který se vám líbí, například pro falešné zprávy, hoaxy nebo obtěžování.
Jak poznamenává Google, tyto systémy také kódují sociální předsudky a jejich výstup je často rasistický, sexistický nebo toxický jiným vynalézavým způsobem. V každém případě je to ale ukázka, kam až dokázal dojít vývoj umělé inteligence a nastínění toho, co nás v budoucnu ještě čeká.
Asi se shodneme, že vývoj umělé inteligence a strojového učení jde vpřed skutečně mílovými kroky, a je až neuvěřitelné, co dnes vývojáři zvládnou naprogramovat. Umělou inteligenci dnes najdeme ve své podstatě téměř v jakékoliv trochu složitější elektronice. Ať už je to televize, lednička, nebo třeba vaše nová pračka. Umělá inteligence (zkráceně AI) zkrátka vstoupila již dávno do našich všedních životů, aniž si to třeba úplně uvědomujeme.
Jedním z horkých trendů v oblasti AI je převod textu na obrázek. Asi vám teď přijde, že jsme se zbláznili, ale skutečně je to tak. Existují generátory převodu textu na obrázek, a to téměř libovolného textu! A i když to možná bude znít jako klišé, limitem je v této chvíli jen vaše představivost. Až k dnešnímu dni byl lídrem v tomto oboru generátor DALL-E, vytvořený komerční laboratoří OpenAI. Google však vytvořil vlastní software Imagen a tím zřejmě sesadil DALL-E z pomyslného trůnu.
Generátory fungují na jednoduchém principu. Jednoduše napíšete text v anglickém jazyce a program pomocí algoritmů AI převede vámi zadaný text na obrázek. Celkem fantastické, že? I když jsou tyto obrázky nepopíratelně působivé, je třeba k nim přistupovat s trochou shovívavosti.
Každý vývojový tým má samozřejmě tendenci vybírat k veřejné prezentaci ty nejlepší výsledky. A i když tyto obrázky vypadají jako dokonalé, nemusí nutně představovat průměrný výstup převodu textu na obraz. Obrázky generované těmito systémy občas vypadají jako nedokončené, rozmazané apod. Nicméně, jako ukázka, kam už se umělá inteligence dokázala dostat, je to dechberoucí.
Čtěte také: 3 největší technologické kravinky z Lidlu – Aby vám nebylo horko ani zima (7. díl)
Google však tvrdí, že Imagen vytváří trvale lepší obrázky než DALL-E 2, na základě nového benchmarku, který vytvořil pro tento projekt s názvem DrawBench. DrawBench není nijak zvlášť složitá metrika, je to v podstatě seznam asi 200 krátkých textů, které tým Googlu vložil do Imagenu a dalších generátorů převodu textu na obrázek, přičemž výstupy z každého programu pak posuzují lidé, kteří hodnotí. Jak je znázorněno v grafech níže, Google zjistil, že lidé obecně preferovali výstup z Imagen před výstupem soupeřů.
Sami to však budeme těžko posuzovat, protože Google nezpřístupňuje model Imagen veřejnosti. Má to také dobrý důvod. Přestože modely převodu textu na obrázek mají jistě fantastický tvůrčí potenciál, mají také řadu znepokojivých atributů. Představte si systém, který generuje téměř jakýkoli obrázek, který se vám líbí, například pro falešné zprávy, hoaxy nebo obtěžování.
Jak poznamenává Google, tyto systémy také kódují sociální předsudky a jejich výstup je často rasistický, sexistický nebo toxický jiným vynalézavým způsobem. V každém případě je to ale ukázka, kam až dokázal dojít vývoj umělé inteligence a nastínění toho, co nás v budoucnu ještě čeká.