Co dokáže vytvořit umělá inteligence? Z fotek od Googlu jde mráz po zádech

Umělá inteligence (AI) je aktuálně v kurzu
Společnost Google drží krok se špičkou v oboru
Jak si technologie poradí s převodem textu na fotografie?

Asi se shodneme, že vývoj umělé inteligence a strojového učení jde vpřed skutečně mílovými kroky, a je až neuvěřitelné, co dnes vývojáři zvládnou naprogramovat. Umělou inteligenci dnes najdeme ve své podstatě téměř v jakékoliv trochu složitější elektronice. Ať už je to televize, lednička, nebo třeba vaše nová pračka. Umělá inteligence (zkráceně AI) zkrátka vstoupila již dávno do našich všedních životů, aniž si to třeba úplně uvědomujeme.

Nejnovější trend v oboru AI?

Jedním z horkých trendů v oblasti AI je převod textu na obrázek. Asi vám teď přijde, že jsme se zbláznili, ale skutečně je to tak. Existují generátory převodu textu na obrázek, a to téměř libovolného textu! A i když to možná bude znít jako klišé, limitem je v této chvíli jen vaše představivost. Až k dnešnímu dni byl lídrem v tomto oboru generátor DALL-E, vytvořený komerční laboratoří OpenAI. Google však vytvořil vlastní software Imagen a tím zřejmě sesadil DALL-E z pomyslného trůnu.

Jde to, i když…

Generátory fungují na jednoduchém principu. Jednoduše napíšete text v anglickém jazyce a program pomocí algoritmů AI převede vámi zadaný text na obrázek. Celkem fantastické, že? I když jsou tyto obrázky nepopíratelně působivé, je třeba k nim přistupovat s trochou shovívavosti.

Každý vývojový tým má samozřejmě tendenci vybírat k veřejné prezentaci ty nejlepší výsledky. A i když tyto obrázky vypadají jako dokonalé, nemusí nutně představovat průměrný výstup převodu textu na obraz. Obrázky generované těmito systémy občas vypadají jako nedokončené, rozmazané apod. Nicméně, jako ukázka, kam už se umělá inteligence dokázala dostat, je to dechberoucí.

Google Imagen ukázka

Google Imagen ukázka

Čtěte také: 3 největší technologické kravinky z Lidlu – Aby vám nebylo horko ani zima (7. díl)

Google má benchmark

Google však tvrdí, že Imagen vytváří trvale lepší obrázky než DALL-E 2, na základě nového benchmarku, který vytvořil pro tento projekt s názvem DrawBench. DrawBench není nijak zvlášť složitá metrika, je to v podstatě seznam asi 200 krátkých textů, které tým Googlu vložil do Imagenu a dalších generátorů převodu textu na obrázek, přičemž výstupy z každého programu pak posuzují lidé, kteří hodnotí. Jak je znázorněno v grafech níže, Google zjistil, že lidé obecně preferovali výstup z Imagen před výstupem soupeřů.

Technologie má ještě řadu znepokojivých atributů

Sami to však budeme těžko posuzovat, protože Google nezpřístupňuje model Imagen veřejnosti. Má to také dobrý důvod. Přestože modely převodu textu na obrázek mají jistě fantastický tvůrčí potenciál, mají také řadu znepokojivých atributů. Představte si systém, který generuje téměř jakýkoli obrázek, který se vám líbí, například pro falešné zprávy, hoaxy nebo obtěžování.

Jak poznamenává Google, tyto systémy také kódují sociální předsudky a jejich výstup je často rasistický, sexistický nebo toxický jiným vynalézavým způsobem. V každém případě je to ale ukázka, kam až dokázal dojít vývoj umělé inteligence a nastínění toho, co nás v budoucnu ještě čeká.