ChatGPT GPT-4o-modellen genererar bilder med läsbara etiketter

OpenAI har introducerat en viktig uppdatering till GPT-4o som gör det möjligt att generera bilder med otroligt exakt text. Denna nya funktion gör det möjligt för användare att skapa detaljerade, högkvalitativa bilder med talmeddelanden och justera dem under processen för att exakt återge deras avsedda betydelse.
Här är vad vi vet
Det ser ut som om vi nu kan glömma bort oläsliga inskriptioner eller bisarra symboler som ofta förekom i äldre AI-modeller.
Till skillnad från traditionella bildgenereringsmetoder, där du måste förbättra en enda fråga, använder GPT-4o ett dynamiskt tillvägagångssätt. Först ger du en grundläggande ledtråd, till exempel "katt", och sedan kan du föra en dialog med modellen för att lägga till önskade detaljer, till exempel en detektivhatt eller monokel.








GPT-4o
Med GPT-4o kan du också arbeta med foton genom att göra ändringar i dem. Modellen kan hantera 10-20 objekt i en scen, där andra modeller ofta stannar vid 5-8.




Allt är dock inte perfekt: det finns vissa nackdelar, till exempel beskärning nerifrån, missförstånd med icke-latinsk text och problem med fler än 20 objekt. Ändå ger den nya funktionen noggrannhet och flexibilitet som öppnar upp nya möjligheter för designers och kreatörer.
Källa: OpenAI, Gizmochina