Internet

OpenAI presenta il modello GPT-4o 'omni' ora alimentando ChatGPT

OpenAI ha annunciato lunedì un nuovo modello AI generativo di punta che chiamano GPT-4o - la 'o' significa 'omni', riferendosi alla capacità del modello di gestire testi, discorsi e video. GPT-4o verrà implementato 'iterativamente' nei prossimi giorni nei prodotti rivolti agli sviluppatori e ai consumatori dell'azienda.

Il CTO di OpenAI Mira Murati ha detto che GPT-4o fornisce un'intelligenza di livello 'GPT-4', ma migliora le capacità del GPT-4 su molteplici modalità e media.

'GPT-4o ragiona su voce, testo e visione', ha detto Murati durante una presentazione in streaming negli uffici di OpenAI a San Francisco lunedì. 'E questo è estremamente importante, perché stiamo guardando al futuro dell'interazione tra noi e le macchine'.

GPT-4o Turbo, il precedente modello 'principale' e 'più avanzato' di OpenAI, è stato addestrato su una combinazione di immagini e testi e poteva analizzare immagini e testi per svolgere compiti come estrarre testi dalle immagini o addirittura descrivere il contenuto di quelle immagini. Ma GPT-4o aggiunge il discorso al mix.

Cosa abilita questo? Una varietà di cose.

Crediti immagine: OpenAI

GPT-4o migliora notevolmente l'esperienza nel chatbot alimentato da AI di OpenAI, ChatGPT. La piattaforma ha da tempo offerto una modalità vocale che trascrive le risposte del chatbot utilizzando un modello di text-to-speech, ma GPT-4o potenzia tutto ciò, permettendo agli utenti di interagire con ChatGPT più come un assistente.

Ad esempio, gli utenti possono porre una domanda al ChatGPT alimentato da GPT-4o e interrompere il ChatGPT mentre sta rispondendo. Il modello offre una 'responsività in tempo reale', dice OpenAI, e può persino cogliere le sfumature della voce di un utente, generando voci in 'una serie di stili emotivi diversi' (incluso il canto).

GPT-4o migliora anche le capacità visive di ChatGPT. Dato una foto - o uno schermo desktop - ChatGPT può ora rispondere rapidamente a domande correlate, da argomenti che vanno da 'Che cosa sta succedendo in questo codice software?' a 'Che marca di maglietta indossa questa persona?'

App desktop di ChatGPT in uso in un compito di codifica.
Crediti immagine: OpenAI

Queste funzionalità evolveranno ulteriormente in futuro, dice Murati. Mentre oggi GPT-4o può guardare una foto di un menu in una lingua diversa e tradurlo, in futuro, il modello potrebbe permettere a ChatGPT di, per esempio, 'guardare' una partita sportiva dal vivo e spiegarti le regole.

Siamo consapevoli che questi modelli stanno diventando sempre più complessi, ma vogliamo che l'esperienza di interazione diventi effettivamente più naturale, facile e che tu non ti concentri affatto sull'interfaccia utente, ma solo sulla collaborazione con ChatGPT', ha detto Murati. 'Negli ultimi anni, ci siamo concentrati molto sull'incremento dell'intelligenza di questi modelli ... Ma questa è la prima volta che stiamo facendo davvero un grande passo avanti in termini di facilità d'uso'.

OpenAI sostiene che GPT-4o sia più multilingue, con prestazioni migliorate in circa 50 lingue. E nell'API di OpenAI e nel servizio OpenAI di Microsoft Azure, GPT-4o è due volte più veloce, la metà del prezzo e ha limiti di rate più alti rispetto a GPT-4 Turbo, afferma l'azienda.

Attualmente, la voce non fa parte dell'API di GPT-4o per tutti i clienti. OpenAI, citando il rischio di abusi, dice di avere intenzione di lanciare per prima la supporto per le nuove capacità audio di GPT-4o a 'un piccolo gruppo di partner fidati' nelle prossime settimane.

GPT-4o è disponibile nel livello gratuito di ChatGPT a partire da oggi e per gli abbonati ai piani premium ChatGPT Plus e Team di OpenAI con '5 volte più' limiti di messaggi. (OpenAI sottolinea che ChatGPT passerà automaticamente a GPT-3.5, un modello più vecchio e meno capace, quando gli utenti raggiungono il limite di velocità.) L'esperienza vocale migliorata di ChatGPT supportata da GPT-4o arriverà in versione alpha per gli utenti Plus nel prossimo mese o giù di lì, insieme a opzioni incentrate sulle imprese.

In notizie correlate, OpenAI ha annunciato di rilasciare un'interfaccia utente rinnovata di ChatGPT sul web con uno schermo iniziale nuovo e 'più conversazionale' e un layout dei messaggi, e una versione desktop di ChatGPT per macOS che consente agli utenti di fare domande tramite una scorciatoia da tastiera o scattare e discutere screenshots. Gli utenti Plus di ChatGPT avranno accesso all'app per primo, a partire da oggi, e una versione per Windows arriverà più avanti nell'anno.

Inoltre, il GPT Store, la libreria di OpenAI e gli strumenti di creazione per chatbot di terze parti costruiti sui suoi modelli AI, sono ora disponibili per gli utenti del livello gratuito di ChatGPT. E gli utenti gratuiti possono approfittare delle funzionalità di ChatGPT che in passato erano dietro un paywall, come una funzionalità di memoria che consente a ChatGPT di 'ricordare' le preferenze per interazioni future, caricare file e foto e cercare le risposte alla web a domande tempestive.

Stiamo lanciando una newsletter sull'IA! Iscriviti per iniziare a riceverla nelle tue caselle di posta il 5 giugno.

Related Articles

Back to top button Back to top button