OpenAI lanserar nya o3- och o3-mini-resonemangsmodeller som kan tänka på mänsklig nivå
OpenAI:s VD Sam Altman tillkännagav nya o3- och o3-mini-modeller för artificiell intelligens på den sista dagen av evenemanget 12 Days of OpenAI, som bygger på de tidigare o1-modellerna. Dessa modeller använder en "privat tankekedja"-metod som gör att de kan planera sina svar i förväg, vilket kallas simulerat resonemang (SR).
Här är vad vi vet
O3-modellen uppnådde rekordresultat i ARC-AGI:s benchmark och fick 75,7% under låga beräkningsresurser och 87,5% under höga beräkningsresurser, vilket är jämförbart med mänsklig prestanda. o3 fick också 96,7% på American Invitational Maths 2024 och 87,7% på GPQA Diamond-testet, som innehåller frågor på grundutbildningsnivå inom biologi, fysik och kemi. I EpochAI:s Frontier Math benchmark löste o3 25,2 procent av problemen, medan ingen annan modell nådde över 2 procent.
Modellen o3-mini har en adaptiv tänkande tidsfunktion som erbjuder låga, medelhöga och höga bearbetningshastigheter. OpenAI hävdar att högre beräkningsinställningar ger bättre resultat. Dessa modeller kommer att vara tillgängliga för testning av säkerhetsforskare. o3-mini är planerad att lanseras i slutet av januari, och o3 kommer att lanseras kort därefter.
Källa: OpenAI