Sju moduler om vad modellen klarar, vilka prompts som låser upp den, och var den fortfarande snubblar. Allt du behöver för att jobba med GPT-Image 2.0 på riktigt.
En modell som äntligen rivaliserar med Nano Banana, och slår den i text, infografik och täta layouter.
Den första instinkten är att skriva "realistic photo" eller "iPhone photo" eller "cinematic". Det funkar dåligt. Modellen har en specifik tendens, och du låser upp den med ett enda ord.
Lägg till ordet photorealism i prompten. Lämna allt annat oförändrat. Resultatet är ofta dramatiskt bättre, även när den första bilden såg helt okej ut.
När du vill ha foto-look, börja alltid prompten med eller ange photorealism som stilord. Spara "realistic", "cinematic" och "iPhone photo" till andra modeller, eller använd dem som komplement, inte ersättning.
Varje bildmodell är tränad med sin egen vokabulär. Vissa svarar starkt på vissa ord, andra på andra. GPT-Image 2.0 är specifikt känslig för photorealism som signal. Det är inte magi, det är vokabulär-mappning.
Vokabulär är inställning. Att hitta det ord modellen lyssnar på är värdefullare än att skriva en längre prompt. Två bra ord slår tio dåliga.
Modellen följer instruktioner ovanligt bra när det gäller redigering av befintliga bilder. Den klarar både objekttillägg, transformationer, vinkelbyten och multi-foto-kombinationer.
"Ge orken en stridsyxa." Modellen lägger till objektet utan att förstöra resten av bilden.
"Gör orken till en kvinna." Karaktärsdrag bibehålls, attributet ändras kirurgiskt.
"Rotera, zooma in och lägg till en röd glöd på hornet." Klarar tre instruktioner samtidigt.
"Byt vinkel till en helkroppsbild framifrån." Identiteten håller även när hela kameran flyttas.
Ett rutnät med åtta objekt och specifika placeringsregler i ett rum. Modellen klarar de allra flesta detaljerna.
Två riktiga personer i en gemensam scen, med ansiktstroheten intakt. Använd 4K-läget via API om ansiktena ska tåla zoom.
Vad är den största förändringen? Lägg den först i instruktionen, så orienterar modellen sig kring den.
Färgskift, ljus, vinkel. Skriv dem i den ordning du vill att modellen ska prioritera dem.
Små färgskift kan smyga sig in vid effekt-tillägg. Be om "behåll originalfärgerna i resten av bilden" om det är viktigt.
Om en redigering blir nästan rätt, gör en till pass på samma resultat. Du tappar mindre konsistens än om du börjar om.
Att starta om från första bilden vid varje liten justering. Karaktärs-konsistensen är bättre om du redigerar iterativt på samma ursprungsbild.
Karaktärs-konsistens över flera scener är där modellen verkligen kliver fram. Du kan ta samma person genom volcano boarding, surfing, fallskärmshopp och ett spökhus, och ansiktet bibehålls genom hela serien.
Kombinera actionverb + miljö i varje ny prompt och referera tillbaka till originalbilden. Stapla med photorealism om realismen tappar.
"Volcano boarding" eller "ridning av en barrel wave". Verbet bär scenen, miljön ger kontext.
Lägg till en andra person genom referensbild. Resultatet är ofta solidare än man tror, även för intima scener som "fallskärmshopp tillsammans".
"Vi går genom ett spökhus, nervöst." Modellen håller ansiktena, byter ljus och kroppsspråk efter beskrivningen.
När en scen ser ritad eller plastig ut, lägg till photorealism som modifierare. Skillnaden är ofta dramatisk.
Karaktärs-konsistens kräver inte långa prompts. Den kräver stabila referenser. En bra ursprungsbild + korta scen-instruktioner slår nästan alltid en megaprompt.
Det här är där GPT-Image 2.0 sticker iväg från konkurrensen. Modellen kan rendera långa texter, små krediter, formler, handskrift och flikar utan att förvränga tecknen. Det betyder nya användningsområden som tidigare var stängda.
Rubriker, krediter, ingredienslistor, korta meningar. I stort sett felfritt även i komplexa kompositioner.
Bokryggar, små bipersoner i bakgrunden, stylade typografi-element kan få enstaka feltryck. Granska innan publicering.
Be om specifik text i prompten istället för "lite text". Modellen följer nästan alltid bokstavlig text, men genererar fyll-text mer slarvigt när den får hitta på.
Falska gränssnitt, dashboards, kommentarsflöden och kompletta arbetsytor renderas så bra att de blir svåra att skilja från äkta skärmbilder. Det är en kraftfull kapacitet, och en med en etisk dimension.
Kommentarsflöden där varje rad har unikt namn, profilbild och plausibel ton. Texten håller, ansiktena håller.
Explore-sidor, gallerier, listvyer. Bilderna i miniatyr ser ut som om de hör hemma där.
Noder, prompts, motion lora-rader, fps-värden, negativa prompts. Inte 100 procent perfekt, men nära.
Dubbla monitorer med kod, mappstruktur, VS Code-känsla. Zooma in och texten är fortfarande rimlig.
Be om en mood-board med dagsfärska nyheter och konvertera till en dashboard. Modellen söker, hittar källor, genererar bilder per nyhet.
Hela uppslag med rubriker, artiklar, layout. Inga textfel ens i sidoartiklarna.
Kapaciteten innebär att du inte längre kan lita på en skärmbild du ser online. Det betyder också att du har ett ansvar när du själv genererar dem. Använd dem för mockups, prototyper och illustrationer, inte för att förfalska verkligheten.
När du sätter på tänk-läget går modellen ut, söker, planerar och granskar källor innan den ritar. Det kan ta minuter, men det är så du får riktigt täta, faktabaserade infografiker.
Skissar struktur, definierar avsnitt, sätter en hierarki. Detta är synligt om du öppnar tänk-panelen.
Företagsdokumentation, publika tekniska blogginlägg, officiella spec-sidor. Den undviker tredjepartspåståenden.
När en detalj inte är publikt avslöjad, säger den det istället för att gissa.
Resultatet är en infografik där text, struktur och fakta drar åt samma håll. En tänk-pass på 7 minuter är inte ovanligt.
"Skillnader mellan AI-videomodeller", "specs över 2026 minivans". Allt där fakta måste stämma.
När prompten i sig kräver att modellen tänker innan den ritar.
Den söker dagens nyheter, genererar bilder per artikel och kompilerar.
10-paneler scenografi där varje ruta måste hänga ihop med den föregående.
Tänk-läget minskar fel, det eliminerar dem inte. När bilen säger "sju säten" på en LE-trim, men tillverkarens sajt säger åtta, så är det modellen som har fel. Stora siffror, antal, prislappar och tillval, granska manuellt mot källan.
Det här är området där andra modeller fortfarande håller jämna steg eller går förbi. Stilreplikering är en blandad upplevelse, bildförhållanden är generösa, och de klassiska testprompterna avslöjar vad som fortfarande är svårt.
När du ger modellen en referensbild med en stark, unik stil och ber om ett nytt motiv i samma stil, kan resultatet variera kraftigt.
Modellen genererar i ovanliga aspect ratios som 3:1, brett-format för side-scrollers, och vertikala porträtt. Be om förhållandet i prompten, eller välj det i gränssnittet.
För 8-bit side-scroller-stil eller pixel art, aspect ratio + tydlig stilbeskrivning ger bra resultat direkt.
De här prompterna avslöjar vad som fortfarande är svårt för bildmodeller. GPT-Image 2.0 kommer närmare än någon tidigare modell, men inte alltid hela vägen.
I gränssnittet hamnar du på en standardupplösning som blir låg-upplöst på ansikten i komplexa kompositioner. Via API:t finns ett 4K-läge som höjer kvaliteten markant.
GPT-Image 2.0 vinner oftast. Men inte alltid. Behåll Nano Banana eller Midjourney i verktygslådan för stark stil-replikering och vissa estetiska val. Använd GPT-Image 2.0 för text, infografik, research, karaktärs-konsistens, UI och täta layouter.
Tre snabba frågor som testar att de viktigaste principerna sitter. Resultatet visas när du svarat på alla tre.
Bläddra tillbaka till modulerna och testa igen om du vill.
Du har nu en konkret bild av vad GPT-Image 2.0 gör bra, vilka prompts som låser upp den, och var den fortfarande snubblar. Det räcker långt.
Onsdagar, kort, lågmält, på svenska. Tre saker varje vecka, inget fyll.
Onsdagar. Under 5 minuters läsning. Inga skräpmejl. Du kan när som helst avregistrera dig.