ChatGPT GPT-4o-modellen genererar bilder med läsbara etiketter

Av: Nastya Bobkova | 28.03.2025, 07:29
Från text till konst: GPT-4o introducerar ett banbrytande förhållningssätt till bilder Med GPT-4o kan du skapa komplexa bilder med text på objekt. Källa: OpenAI

OpenAI har introducerat en viktig uppdatering till GPT-4o som gör det möjligt att generera bilder med otroligt exakt text. Denna nya funktion gör det möjligt för användare att skapa detaljerade, högkvalitativa bilder med talmeddelanden och justera dem under processen för att exakt återge deras avsedda betydelse.

Här är vad vi vet

Det ser ut som om vi nu kan glömma bort oläsliga inskriptioner eller bisarra symboler som ofta förekom i äldre AI-modeller.

Till skillnad från traditionella bildgenereringsmetoder, där du måste förbättra en enda fråga, använder GPT-4o ett dynamiskt tillvägagångssätt. Först ger du en grundläggande ledtråd, till exempel "katt", och sedan kan du föra en dialog med modellen för att lägga till önskade detaljer, till exempel en detektivhatt eller monokel.

En katt med monokel
Kattscen med olika föremål

Starttips för generation
OpenAI visade hur användare gradvis kan skapa scener genom att kombinera element från olika bilder. Modellen uppvisar hög precision i att återge text på skyltar eller föremål, vilket är ett betydande framsteg jämfört med tidigare modeller som inte kunde återge skrivna ord korrekt.

GPT-4o

Med GPT-4o kan du också arbeta med foton genom att göra ändringar i dem. Modellen kan hantera 10-20 objekt i en scen, där andra modeller ofta stannar vid 5-8.

Boba i bakgrunden

Allt är dock inte perfekt: det finns vissa nackdelar, till exempel beskärning nerifrån, missförstånd med icke-latinsk text och problem med fler än 20 objekt. Ändå ger den nya funktionen noggrannhet och flexibilitet som öppnar upp nya möjligheter för designers och kreatörer.

Källa: OpenAI, Gizmochina