Mini-kurs på svenska

GPT-Image 2.0, en handbok i praktiken.

Sju moduler om vad modellen klarar, vilka prompts som låser upp den, och var den fortfarande snubblar. Allt du behöver för att jobba med GPT-Image 2.0 på riktigt.

7 moduler· ~25 min läsning· FRI

01 Photorealism-tricket 02 Bildredigering 03 Karaktärs-konsistens 04 Text i bilder 05 UI och dashboards 06 Tänk-läge 07 Stil och format

En modell som äntligen rivaliserar med Nano Banana, och slår den i text, infografik och täta layouter.

7 MODULER · 25 MIN · SVENSKA

GPT-Image 2.0

MODUL 01

Photorealism, ett ord som ändrar allt.

Den första instinkten är att skriva "realistic photo" eller "iPhone photo" eller "cinematic". Det funkar dåligt. Modellen har en specifik tendens, och du låser upp den med ett enda ord.

Tricket

Lägg till ordet photorealism i prompten. Lämna allt annat oförändrat. Resultatet är ofta dramatiskt bättre, även när den första bilden såg helt okej ut.

Tumregel

När du vill ha foto-look, börja alltid prompten med eller ange photorealism som stilord. Spara "realistic", "cinematic" och "iPhone photo" till andra modeller, eller använd dem som komplement, inte ersättning.

Varför det fungerar

Varje bildmodell är tränad med sin egen vokabulär. Vissa svarar starkt på vissa ord, andra på andra. GPT-Image 2.0 är specifikt känslig för photorealism som signal. Det är inte magi, det är vokabulär-mappning.

Använd det som första modifierare i scen-prompts.
Stapla det med karaktärs-prompts (t.ex. surfing, skydiving) för att hålla ansiktena trovärdiga.
Om en första bild ser bra ut, generera den ändå med photorealism tillagt och jämför. Du blir överraskad.
Experimentera. Olika modeller har olika trigger-ord, och en kort lista per modell sparar tid över tid.

Nyckelinsikt

Vokabulär är inställning. Att hitta det ord modellen lyssnar på är värdefullare än att skriva en längre prompt. Två bra ord slår tio dåliga.

MODUL 02

Bildredigering med precision.

Modellen följer instruktioner ovanligt bra när det gäller redigering av befintliga bilder. Den klarar både objekttillägg, transformationer, vinkelbyten och multi-foto-kombinationer.

Sex redigeringar du kan lita på

Lägg till ett objekt

"Ge orken en stridsyxa." Modellen lägger till objektet utan att förstöra resten av bilden.

Förändra attribut

"Gör orken till en kvinna." Karaktärsdrag bibehålls, attributet ändras kirurgiskt.

Rotera, zooma, lys upp

"Rotera, zooma in och lägg till en röd glöd på hornet." Klarar tre instruktioner samtidigt.

Byt vinkel

"Byt vinkel till en helkroppsbild framifrån." Identiteten håller även när hela kameran flyttas.

Komplext placeringsraster

Ett rutnät med åtta objekt och specifika placeringsregler i ett rum. Modellen klarar de allra flesta detaljerna.

Kombinera två foton

Två riktiga personer i en gemensam scen, med ansiktstroheten intakt. Använd 4K-läget via API om ansiktena ska tåla zoom.

Steg-för-steg, en redigeringspass

Beskriv kärn-redigeringen först

Vad är den största förändringen? Lägg den först i instruktionen, så orienterar modellen sig kring den.

Lägg till sekundära modifieringar

Färgskift, ljus, vinkel. Skriv dem i den ordning du vill att modellen ska prioritera dem.

Granska för färgdrift

Små färgskift kan smyga sig in vid effekt-tillägg. Be om "behåll originalfärgerna i resten av bilden" om det är viktigt.

Iterera, byt inte modell

Om en redigering blir nästan rätt, gör en till pass på samma resultat. Du tappar mindre konsistens än om du börjar om.

Vanligt misstag

Att starta om från första bilden vid varje liten justering. Karaktärs-konsistensen är bättre om du redigerar iterativt på samma ursprungsbild.

MODUL 03

Samma person, helt nya scener.

Karaktärs-konsistens över flera scener är där modellen verkligen kliver fram. Du kan ta samma person genom volcano boarding, surfing, fallskärmshopp och ett spökhus, och ansiktet bibehålls genom hela serien.

Mönstret

Kombinera actionverb + miljö i varje ny prompt och referera tillbaka till originalbilden. Stapla med photorealism om realismen tappar.

Action i miljö

"Volcano boarding" eller "ridning av en barrel wave". Verbet bär scenen, miljön ger kontext.

Två personer i samma scen

Lägg till en andra person genom referensbild. Resultatet är ofta solidare än man tror, även för intima scener som "fallskärmshopp tillsammans".

Stämnings-byte

"Vi går genom ett spökhus, nervöst." Modellen håller ansiktena, byter ljus och kroppsspråk efter beskrivningen.

Photorealism-stacking

När en scen ser ritad eller plastig ut, lägg till photorealism som modifierare. Skillnaden är ofta dramatisk.

Princip

Karaktärs-konsistens kräver inte långa prompts. Den kräver stabila referenser. En bra ursprungsbild + korta scen-instruktioner slår nästan alltid en megaprompt.

MODUL 04

Text i bilder, utan fel.

Det här är där GPT-Image 2.0 sticker iväg från konkurrensen. Modellen kan rendera långa texter, små krediter, formler, handskrift och flikar utan att förvränga tecknen. Det betyder nya användningsområden som tidigare var stängda.

Vad du kan göra

Whiteboards med ekvationer. Varje tecken renderas korrekt. Handstilen blir lite för prydlig, men inga felstavningar.
Filmaffisch-krediter. Music by, edited by, production design by. Korrekt i de små detaljerna.
Recept-infografiker. Inte bara designen, även mängderna och stegen blir användbara.
Handskrivna anteckningssidor med klotter, små clip art och kaotiska element. Otroligt övertygande.
Alfabet-rutnät med 26 djur, ett per bokstav. Tidigare hoppade modellerna över bokstäver eller slog ihop celler. Nu klarar den hela sekvensen.
10×10 raster med 100 objekt som börjar på samma bokstav. Ett par enskilda misstag, men i stort sett perfekt.
Tidningsförstasidor med rubriker, brödtext och flera artiklar. Layout och text klaffar.

Var den fortfarande snubblar

Vad som funkar

Stora, tydliga ord

Rubriker, krediter, ingredienslistor, korta meningar. I stort sett felfritt även i komplexa kompositioner.

Var det glider

Mikro-text i kanten

Bokryggar, små bipersoner i bakgrunden, stylade typografi-element kan få enstaka feltryck. Granska innan publicering.

Tumregel

Be om specifik text i prompten istället för "lite text". Modellen följer nästan alltid bokstavlig text, men genererar fyll-text mer slarvigt när den får hitta på.

MODUL 05

UI-bilder och täta layouter.

Falska gränssnitt, dashboards, kommentarsflöden och kompletta arbetsytor renderas så bra att de blir svåra att skilja från äkta skärmbilder. Det är en kraftfull kapacitet, och en med en etisk dimension.

Vad modellen klarar

Sociala kommentarer

Kommentarsflöden där varje rad har unikt namn, profilbild och plausibel ton. Texten håller, ansiktena håller.

Webbsidor med innehåll

Explore-sidor, gallerier, listvyer. Bilderna i miniatyr ser ut som om de hör hemma där.

ComfyUI-workflows

Noder, prompts, motion lora-rader, fps-värden, negativa prompts. Inte 100 procent perfekt, men nära.

Engineer-skärmen

Dubbla monitorer med kod, mappstruktur, VS Code-känsla. Zooma in och texten är fortfarande rimlig.

Dashboards från research

Be om en mood-board med dagsfärska nyheter och konvertera till en dashboard. Modellen söker, hittar källor, genererar bilder per nyhet.

Tidningar och magasin

Hela uppslag med rubriker, artiklar, layout. Inga textfel ens i sidoartiklarna.

Etisk vakthund

Kapaciteten innebär att du inte längre kan lita på en skärmbild du ser online. Det betyder också att du har ett ansvar när du själv genererar dem. Använd dem för mockups, prototyper och illustrationer, inte för att förfalska verkligheten.

MODUL 06

Tänk-läge för research-tunga bilder.

När du sätter på tänk-läget går modellen ut, söker, planerar och granskar källor innan den ritar. Det kan ta minuter, men det är så du får riktigt täta, faktabaserade infografiker.

Hur tänk-läget jobbar

Den gör en plan

Skissar struktur, definierar avsnitt, sätter en hierarki. Detta är synligt om du öppnar tänk-panelen.

Söker källor

Företagsdokumentation, publika tekniska blogginlägg, officiella spec-sidor. Den undviker tredjepartspåståenden.

Markerar luckor

När en detalj inte är publikt avslöjad, säger den det istället för att gissa.

Genererar med planen som karta

Resultatet är en infografik där text, struktur och fakta drar åt samma håll. En tänk-pass på 7 minuter är inte ovanligt.

När du bör aktivera tänk-läget

Jämförande infografiker

"Skillnader mellan AI-videomodeller", "specs över 2026 minivans". Allt där fakta måste stämma.

Forskning + visualisering

När prompten i sig kräver att modellen tänker innan den ritar.

Nyhets-dashboards

Den söker dagens nyheter, genererar bilder per artikel och kompilerar.

Storyboard med narrativ

10-paneler scenografi där varje ruta måste hänga ihop med den föregående.

Faktagranska ändå

Tänk-läget minskar fel, det eliminerar dem inte. När bilen säger "sju säten" på en LE-trim, men tillverkarens sajt säger åtta, så är det modellen som har fel. Stora siffror, antal, prislappar och tillval, granska manuellt mot källan.

MODUL 07

Stil, format och svåra utmaningar.

Det här är området där andra modeller fortfarande håller jämna steg eller går förbi. Stilreplikering är en blandad upplevelse, bildförhållanden är generösa, och de klassiska testprompterna avslöjar vad som fortfarande är svårt.

Stilreplikering, en blandad bild +

När du ger modellen en referensbild med en stark, unik stil och ber om ett nytt motiv i samma stil, kan resultatet variera kraftigt.

Ibland fångar modellen stilen perfekt (ofta papercraft, illustration).
Andra gånger gör den en fin bild, men inte i den ursprungliga stilen.
Beskriv stilen explicit i prompten ("super-färgrik palett, illustrerad linje, organisk form"), så ökar träffsäkerheten.
Om stilen är kritisk, jämför med Nano Banana och välj per fall. De har olika styrkor.

Bildförhållanden, generös flexibilitet +

Modellen genererar i ovanliga aspect ratios som 3:1, brett-format för side-scrollers, och vertikala porträtt. Be om förhållandet i prompten, eller välj det i gränssnittet.

För 8-bit side-scroller-stil eller pixel art, aspect ratio + tydlig stilbeskrivning ger bra resultat direkt.

Klassiska testprompter +

De här prompterna avslöjar vad som fortfarande är svårt för bildmodeller. GPT-Image 2.0 kommer närmare än någon tidigare modell, men inte alltid hela vägen.

Hand med sju fingrar. Klarar antalet, vilket är en stor förbättring.
Klocka som visar 8:22. Minutvisaren rätt, timvisaren ofta lite av. Närmaste resultatet hittills.
Glas rödvin fyllt till brädden. Klarar det, vilket är ovanligt.
Konvertera illustration till foto. "Gör det här fotorealistiskt" på en illustration ger ofta riktigt övertygande resultat.
Dolda detaljer. "Ett risgryn med ett ord etsat på sig, mitt bland tusen andra." Modellen renderar faktiskt ordet på rätt korn. Andra modeller fuskar och placerar ordet utanför kornen.

4K via API, när du behöver skarpa ansikten +

I gränssnittet hamnar du på en standardupplösning som blir låg-upplöst på ansikten i komplexa kompositioner. Via API:t finns ett 4K-läge som höjer kvaliteten markant.

Använd 4K när bilden ska tåla zoom, t.ex. för thumbnails, postrar eller ansiktsporträtt.
Prompta först i gränssnittet för att verifiera kompositionen, sen kör om i 4K via API:t när du är nöjd.
4K är dyrare per generering. Använd det medvetet, inte default.

Slutsats

GPT-Image 2.0 vinner oftast. Men inte alltid. Behåll Nano Banana eller Midjourney i verktygslådan för stark stil-replikering och vissa estetiska val. Använd GPT-Image 2.0 för text, infografik, research, karaktärs-konsistens, UI och täta layouter.

QUIZ

Tre frågor på essensen.

Tre snabba frågor som testar att de viktigaste principerna sitter. Resultatet visas när du svarat på alla tre.

FRÅGA 01

Vilket enskilt ord brukar låsa upp realismen i en prompt?

Rätt svar: B, photorealism. Modellen är specifikt känslig för det ordet. Ord som "realistic" eller "cinematic" ger oftast svagare effekt.

FRÅGA 02

När är tänk-läget värt sin extra tid?

Rätt svar: B. Tänk-läget söker källor, planerar och undviker tredjepartspåståenden. Det är därför det lönar sig för jämförande infografiker, research-dashboards och allt som måste tåla en faktagranskning.

FRÅGA 03

Hur håller du en karaktär konsekvent över flera scener?

Rätt svar: C. Stabila referenser slår megaprompts. En ren ursprungsbild + korta scen-instruktioner ger den bästa konsistensen.

Resultat

Du fick 0 av 3 rätt.

Bläddra tillbaka till modulerna och testa igen om du vill.

Klar

Bra jobbat. Du tog dig igenom hela mini-kursen.

Du har nu en konkret bild av vad GPT-Image 2.0 gör bra, vilka prompts som låser upp den, och var den fortfarande snubblar. Det räcker långt.

Veckobrev

Vill du tänka mer kring AI-bilder, AI och Claude?

Onsdagar, kort, lågmält, på svenska. Tre saker varje vecka, inget fyll.

En personlig reflektion (om AI och om att vara människa samtidigt)
En konkret AI-insikt (något testat i veckan, ofta i Claude Code)
En 10-minuters mikroövning du kan göra direkt

Prenumerera på veckobrevet

Onsdagar. Under 5 minuters läsning. Inga skräpmejl. Du kan när som helst avregistrera dig.