Google ukázal AI, která dokáže během pár sekund změnit fotku k nepoznání

Pavel Škopek
Gemini na mobilu | Zdroj: Matěj Srb
Gemini na mobilu | Zdroj: Matěj Srb

Google uvádí „nano banana“. Nový model Gemini 2.5 Flash Image zvládne editace fotek přes textové příkazy s konzistencí a bez deformací.

Nano banana mění pravidla hry

Geniální i zvláštní. Přesně tak působí „nano banana“, jak Google nazval nové jádro pro úpravu fotek pomocí umělé inteligence v aplikaci Gemini. Jeho kódové označení možná zní jako vtip z laboratoře, ale výsledky už vtipem nejsou. Nejnovější model od Google DeepMind dohnal konkurenci a rovnou obsadil špičku žebříčku LMArena. A to bez ztráty detailů, bez deformací a s výjimečnou přesností.

Gemini 2.5 Flash Image, jak zní oficiální název modelu, umožňuje uživatelům upravovat fotky pouze pomocí textových pokynů. Zatímco dřívější systémy často měnily nechtěně i obličeje nebo pozadí, nový model si pamatuje detaily a zvládne i vícestupňové úpravy bez ztráty konzistence.

Uživatel může pomocí přirozeně zadaného textu například rozostřit pozadí, odstranit skvrnu z trička, změnit pózu subjektu nebo kolorovat černobílou fotografii. Google ukazuje příklady, kdy si uživatelé mění oblečení na fotce, přidávají nové prvky nebo dokonce spojují více obrázků do jednoho. Typicky lze například zkombinovat fotku psa, ženy a nápad na scénu tak, aby výsledek vypadal jako autentická momentka.

Gemini 2.5 Flash Image umí spojit několik obrázků do jednoho | foto: Google
Gemini 2.5 Flash Image umí spojit několik obrázků do jednoho | foto: Google

Přesnost, kontrola a širší ambice

Za technologickým skokem stojí snaha Googlu vyrovnat se populární konkurenci v čele s OpenAI. Zatímco ChatGPT dosahuje 700 milionů týdenních uživatelů, Gemini má 450 milionů měsíčně. Vylepšené možnosti práce s obrazem mohou tento rozdíl částečně smazat. Gemini nyní zvládne i komplexní zadání s několika obrazovými podklady, například interiér, barevnou paletu a kus nábytku.

Vedle technické přesnosti zůstává důležitá otázka bezpečnosti. Obrázky generované Gemini jsou opatřené viditelným vodoznakem AI a zároveň neviditelnou značkou SynthID, která zůstává i po základních úpravách. Google tak reaguje na dřívější kontroverze i rostoucí problém deepfake obsahu na internetu.

Vylepšená verze editoru ukazuje, že AI v obrazech už není jen hračkou pro kreativce, ale i nástrojem pro běžné uživatele. A i když „nano banana“ zní jako narážka z animáku, v reálném světě jde o seriózní posun v tom, jak bude vizuální tvorba v digitální éře vypadat. V první fázi byl nový model spuštěn v mobilní aplikaci Gemini a postupně se rozšiřuje i do nástrojů pro vývojáře včetně Gemini API, AI Studia a Vertex AI.

Zdroj: Google blog


Autor článku

Pavel Škopek - Redaktor

Pavel se dlouhodobě zajímá o moderní technologie – od mobilů až po elektromobily. Ve volném čase rád fotí, sleduje dobré filmy, čte a jezdí na elektrokole.


Komentáře


Nejnovější články