Pixtral-Large, il nuovo modello di punta dell'AI francese
Mistral AI, la famosa start-up francese di intelligenza artificiale, ha lanciato Pixtral-Large, un nuovo modello multimodale di grandi dimensioni (LLM) con 124 miliardi di parametri. Questo modello si basa su Mistral Large 2 e mostra un enorme passo avanti nella comprensione delle immagini da parte dell'AI open source. Pixtral-Large si distingue per la sua capacità di integrare informazioni provenienti sia da immagini che da testo.
Cosa È Pixtral Large 124B?
Pixtral Large 124B è un modello di intelligenza artificiale multimodale dotato di 124 miliardi di parametri, progettato per elaborare simultaneamente input testuali, visivi e vocali. Questa caratteristica gli permette di:
- Comprendere contesti complessi combinando testo, immagini e audio.
- Generare contenuti in più modalità, ad esempio descrivere un’immagine o creare narrazioni audio.
- Eseguire compiti specializzati, come analisi di dati multimodali o traduzioni avanzate.Prestazioni di Pixtral-Large
Il nuovo modello di punta francese ha ottenuto risultati eccezionali nei benchmark multimodali standard, superando i modelli dei concorrenti diretti di Mistral, tra cui GPT-4o di OpenAI e Gemini 1.5 Pro di Google:
● MathVista: In questo test, che valuta il ragionamento matematico complesso, Pixtral-Large ha raggiunto un punteggio del 69,4%, superando tutti gli altri modelli, tra cui Llama-3.2 90B (49,1%), Gemini-1.5 Pro (67,8%), GPT-4o (65,4%) e Claude-3.5 Sonnet (67,1%).
● ChartQA e DocVQA: Pixtral-Large ha dimostrato capacità di ragionamento superiori su grafici e documenti complessi, superando ancora una volta GPT-4o e Gemini-1.5 Pro in questi test.
● MM-MT-Bench: In questo test open source progettato per riflettere i casi d'uso reali degli LLM, Pixtral-Large ha superato Claude-3.5 Sonnet, Gemini-1.5 Pro e GPT-4o.
Disponibilità e applicazioni
Pixtral-Large è disponibile con la licenza di ricerca Mistral (MRL) per scopi di ricerca e istruzione, nonché con una licenza commerciale per scopi commerciali. Il modello è accessibile tramite l'API di Mistral e su Hugging Face. Tuttavia, per l'esecuzione locale sono necessarie risorse computazionali significative.
Le applicazioni di Pixtral-Large sono numerose e includono:
● Riconoscimento delle immagini: Miglioramento della precisione nell'identificazione di oggetti, scene e azioni all'interno di fotografie o video.
● Creazione di contenuti: Generazione di testo descrittivo basato su input visivi, migliorando la narrazione in settori come i videogiochi, i film e la realtà virtuale.8
● Strumenti di accessibilità: Fornitura di descrizioni audio per immagini, rendendo i contenuti digitali più accessibili alle persone con disabilità visive.8
● Analisi dei dati: Miglioramento delle intuizioni e del processo decisionale in settori come la sanità o la scienza ambientale.8
Il lancio di Pixtral-Large ha suscitato grande interesse nella comunità dell'intelligenza artificiale. I primi utenti hanno elogiato la sua precisione nel riconoscimento delle immagini, ma hanno anche espresso il desiderio di miglioramenti nella velocità e nell'efficienza di elaborazione.
Mistral Large aggiornato
Oltre a Pixtral-Large, Mistral ha anche aggiornato il suo modello multilingue Mistral Large, rilasciato a febbraio. Questa versione aggiornata, denominata Mistral Large 24.11, offre una migliore comprensione del contesto, e l'aggiunta di un prompt di sistema.. È particolarmente adatto per flussi di lavoro basati su agenti, rendendolo una scelta adatta per casi d'uso aziendali.
L'interfaccia "Le Chat" compete con ChatGPT
Mistral ha anche aggiornato la sua interfaccia conversazionale "Le Chat" con nuove funzionalità, tra cui:
●Ricerca sul Web con citazioni.
●Canvas per l'ideazione, l'editing online e l'esportazione.
●Integrazione di Pixtral-Large per una migliore comprensione di documenti e immagini.
●Generazione di immagini, alimentata da Black Forest Labs Flux Pro.
Mistral offre un livello gratuito con queste funzionalità beta e sta lavorando allo sviluppo di versioni premium con garanzie di servizio più elevate. L'obiettivo di Mistral non è quello di perseguire l'AGI a tutti i costi, ma di rendere l'IA all'avanguardia accessibile a tutti.
Fonti:
Medium
L'Usine Digitale