OpenAI O3: sulla soglia dell'AGI

OpenAI ha recentemente annunciato o3, il suo ultimo e avanguardistico modello di intelligenza artificiale con l'ambizioso obiettivo di allargare i confini delle capacità dell'AI. Quest'ultima innovazione rappresenta un salto qualitativo significativo rispetto ai suoi predecessori, avvicinandosi sempre più a ciò che gli esperti definiscono intelligenza artificiale generale (AGI). A quanto pare, il nuovo modello non solo supera i precedenti in tutti i campi, ma stabilisce nuovi standard in termini di capacità di ragionamento e problem-solving.

Il rilascio di o3 seguirà un approccio graduale e ponderato, con o3 Mini previsto per fine gennaio 2025 e la versione completa programmata per febbraio 2025.

Le prestazioni di o3

Le prestazioni di O3 nel campo della programmazione segnano un momento storico nello sviluppo dell'AI. Il modello ha raggiunto un'accuratezza del 71.7% su Bench Verified, (un benchmark di programmazione avanzata), ed un punteggio ELO di 2727 nella programmazione competitiva, che surclassa il precedente record di 1891, stabilito da o1.

Nel campo della matematica, o3 ha dimostrato capacità che sfiorano e talvolta superano quelle umane. Con l'impressionante punteggio del 96.7% ai prestigiosi AIME 2024 (American Invitational Mathematics Examinations, ai quali o1 ha ottenuto "soltanto" l'83.3%), e un'accuratezza dell'87.7% su GPQA Diamond per domande di livello PhD, il modello dimostra di poter gestire problemi matematici e scientifici di elevata complessità. Particolarmente notevole è la sua performance del 25.2% su EpochAI Frontier Math, un benchmark progettato per mettere a dura prova persino i migliori matematici.

Il benchmark ARC AGI

Tuttavia, la vera svolta di o3 si manifesta nelle sue prestazioni sul benchmark ARC AGI, considerato il gold standard attuale per valutare l'intelligenza generale dei sistemi AI. Sviluppato nel 2019 da François Chollet, ARC valuta la capacità di un'AI di apprendere e generalizzare nuove competenze da esempi minimi. O3 ha raggiunto l'88% in configurazione high-compute, superando per la prima volta la soglia del 85% considerata come prestazione umana. Questo risultato è particolarmente significativo perché ARC non testa la conoscenza proveniente dalla fase di pre-addestramento o il riconoscimento di pattern, ma la capacità "ragionamento" vera e propria.

François Chollet su X

o3 Mini

Insieme al modello principale, OpenAI ha presentato anche o3 Mini, una versione ottimizzata e più economica. Questa variante non è semplicemente una versione ridotta di o3, ma equivale ad un equilibrio intelligente di prestazioni e risorse. o3 Mini introduce un sistema innovativo di "adaptive thinking time", che permette di modulare l'impegno computazionale in base alla complessità del task. Questa caratteristica lo rende particolarmente interessante per sviluppatori e ricercatori che necessitano di prestazioni elevate mantenendo sotto controllo i costi operativi.

Sicurezza e responsabilità: Il deliberative alignment

Con in lancio di o3, OpenAI ha introdotto un approccio alla sicurezza chiamato "deliberative alignment". Questo sistema non si basa su regole statiche o dataset, ma utilizza le capacità di ragionamento del modello per valutare i prompt in tempo reale. Il processo include una generazione sofisticata di dati di training attraverso modelli di ragionamento e fornisce spiegazioni dettagliate per ogni decisione presa, garantendo un notevole livello di trasparenza.

OpenAI

AGI

Intelligenza Artificiale