OpenAI: "Dopo ChatGPT vi presentiamo Sora". Come funziona l’AI che crea video dai testi

Ci sono due galeoni dei pirati che combattono in un mare di caffè in tempesta, un gatto che si muove nel letto del suo padrone, una donna elegante che cammina lungo una strada di Tokyo piena di neon, un gruppo di mammut che corrono nella neve, un giovane che legge seduto tra le nuvole… Che cosa hanno in comune questi video (qui)?
Sono stati tutti creati dall’Intelligenza Artificiale, in particolare da Sora, nuovo modello di AI in grado di generare video con fedeltà sorprendente. A lanciarlo è OpenAI, la stessa società di ChatGPT. Una piattaforma, ancora in fase di sviluppo e al momento non disponibile al pubblico, che promette di aprire nuove frontiere nella creazione di contenuti multimediali, combinando la potenza dell’IA con una comprensione avanzata del tempo e della fisica.

Il contesto tecnologico in cui nasce Sora

Prima di capire come si è arrivati a Sora, facciamo un passo indietro per vedere la rapida evoluzione che la generazione di video tramite intelligenza artificiale ha conosciuto negli ultimi anni. Sia startup emergenti, come Runway, sia giganti della tecnologia, come Google e Meta, hanno fino a questo momento sperimentato modelli generativi in grado di trasformare testo e immagini in sequenze video coinvolgenti. Tuttavia, ciò che ora distingue Sora è la sua capacità di creare non solo video più coerenti, ma anche mondi 3D dettagliati, grazie alla sua comprensione avanzata della fisica e del contesto temporale.

Le caratteristiche di Sora: come funziona

Come funziona Sora? A partire da una descrizione, breve o dettagliata, oppure da un’immagine fissa, è in grado di generare scene complesse a 1080p con più personaggi, diversi tipi di movimento e dettagli di sfondo. La lunghezza massima è di un minuto, molto maggiore della maggior parte degli altri modelli testo-video.

Tra le diverse caratteristiche chiave per cui si distingue Sora, c’è innanzitutto la comprensione delle relazioni spazio-temporali tra gli elementi presenti nella descrizione fornita dall’utente per l’elaborazione del video, quindi questo nuovo sistema di AI non si limita a tradurre il testo in sequenze video, ma riesce a comprendere anche il contesto. “Sora ha una profonda conoscenza del linguaggio, che gli consente di interpretare accuratamente i suggerimenti e generare personaggi avvincenti che esprimono emozioni vibranti”, scrive OpenAI in un post sul blog. “Il modello è in grado di comprendere non solo ciò che l’utente ha chiesto nel prompt, ma anche come queste cose esistono nel mondo fisico”.

La piattaforma è inoltre in grado di generare video con una vasta gamma di stili, consentendo agli utenti di esprimere la propria creatività in modi diversi. Sora si impegna però a mantenere un certo realismo e una coerenza visiva e fisica all’interno dei video generati, evitando stranezze o incongruenze che possono compromettere l’esperienza dell’utente. Oltre alla creazione di video ex novo, infine, Sora è in grado di estendere clip video esistenti, riempiendo i dettagli mancanti e ampliando la narrazione.

Sora tra potenzialità e sfide

Nonostante le sue impressionanti capacità, la stessa OpenAI riconosce che la nuova piattaforma non è priva di limitazioni: potrebbe incontrare difficoltà nella simulazione accurata della fisica in scene complesse e potrebbe occasionalmente confondere dettagli spaziali o temporali, come dichiara l’azienda stessa in un comunicato. “[Sora] potrebbe non comprendere esempi specifici di causa ed effetto. Ad esempio, una persona potrebbe dare un morso a un biscotto, ma in seguito il biscotto potrebbe non avere il segno del morso. Il modello può anche confondere i dettagli spaziali di un suggerimento, ad esempio confondendo sinistra e destra, e può avere difficoltà con descrizioni precise di eventi che si verificano nel tempo”.

Tuttavia, OpenAI si impegna a lavorare con esperti del settore per affrontare tali sfide e migliorare costantemente il modello. Consapevole dei potenziali rischi legati all’abuso della tecnologia, la società si sta muovendo con cautela nel rendere disponibile Sora al pubblico ed ha annunciato che collaborerà con politici, educatori e artisti per valutare le preoccupazioni etiche e identificare utilizzi positivi per questa nuova tecnologia. Inoltre, sta esplorando soluzioni per garantire la tracciabilità e l’identificazione di video generati da Sora, al fine di prevenire il loro uso improprio o fraudolento.

“Nonostante ricerche e test approfonditi – scrive OpenAI – non possiamo prevedere tutti i modi positivi in cui le persone utilizzeranno la nostra tecnologia, né tutti i modi in cui ne abuseranno. Ecco perché crediamo che imparare dall’uso nel mondo reale sia una componente fondamentale per creare e rilasciare nel tempo sistemi di IA sempre più sicuri”.

OpenAi vale 80 mld, terza startup tech al mondo

Pur presentando sfide e questioni etiche da affrontare, il potenziale innovativo di questa piattaforma è evidente: Sora rappresenta un’ulteriore pietra miliare nell’avanzamento della generazione di contenuti multimediali tramite intelligenza artificiale.

Un altro colpo messo a segno da OpenAi, che – sotto la guida di Sam Altman – sta scalando la classifica delle start up tecnologiche di maggior valore al mondo: è terza, dopo ByteDance e SpaceX. Come scrive il New York Times la società di intelligenza artificiale di San Francisco, che recentemente ha ricevuto forti finanziamenti da Microsoft, ha appena concluso un accordo che la valuta 80 miliardi di dollari o più (la sua valutazione è quasi triplicata in meno di 10 mesi) e ora ha l’obiettivo di mettere azioni sul mercato, vendendole in un’offerta pubblica guidata dalla società di venture capital Thrive Capital.