Internet

Google lancia un generatore di clip video

Mars nordic Monday, May 20 2024

Google non ha il miglior track record quando si tratta di intelligenza artificiale che genera immagini.

A febbraio, il generatore di immagini integrato in Gemini, il chatbot basato su intelligenza artificiale di Google, è stato trovato casualmente ad inserire diversità di genere e razziale nelle indicazioni sulle persone, risultando in immagini di nazisti di diversità razziale, tra altre inesattezze offensiva.

Google ha ritirato il generatore, promettendo di migliorarlo e alla fine di rilanciarlo. Mentre aspettiamo il suo ritorno, l'azienda sta lanciando un migliorato strumento di generazione di immagini, Imagen 2, all'interno della piattaforma per sviluppatori Vertex AI, sebbene uno strumento con un taglio decisamente più orientato all'azienda.

Crediti immagine: Frederic Lardinois/TechCrunch

Imagen 2 - che è effettivamente una famiglia di modelli, lanciata a dicembre dopo essere stata presentata in anteprima alla conferenza I/O di Google a maggio 2023 - può creare e modificare immagini dati un'indicazione testuale, come DALL-E e Midjourney di OpenAI. Di interesse per i tipi aziendali, Imagen 2 può renderizzare testi, emblemi e loghi in diverse lingue, sovrapponendo eventualmente quegli elementi in immagini esistenti, ad esempio su biglietti da visita, capi di abbigliamento e prodotti.

Google debutta Imagen 2 con testo e generazione di logo

Dopo il lancio in anteprima, l'editing di immagini con Imagen 2 è ora disponibile in Vertex AI insieme a due nuove funzionalità: inpainting e outpainting. Inpainting e outpainting, funzionalità offerte da altri popolari generatori di immagini come DALL-E da tempo, possono essere utilizzate per rimuovere parti indesiderate di un'immagine, aggiungere nuovi componenti ed espandere i bordi di un'immagine per creare un campo visivo più ampio.

Ma il vero cuore dell'aggiornamento Imagen 2 è ciò che Google chiama 'immagini live da testo'.

Imagen 2 può ora creare brevi video di quattro secondi da indicazioni testuali, sulla falsariga di strumenti di generazione di clip alimentati da intelligenza artificiale come Runway, Pika e Irreverent Labs. Fedele al focus aziendale di Imagen 2, Google presenta le immagini live come strumento per marketer e creativi, ad esempio un generatore di GIF per annunci che mostrano natura, cibo e animali, argomenti su cui Imagen 2 è stato rifinito.

Google afferma che le immagini live possono catturare 'una gamma di angoli di camera e movimenti' mentre 'supportano la coerenza su tutto il frame'. Ma per ora sono a bassa risoluzione: 360 pixel per 640 pixel. Google si impegna a migliorare questo in futuro.

Per placare (o almeno cercare di placare) le preoccupazioni riguardo alla potenziale creazione di deepfake, Google afferma che Imagen 2 utilizzerà SynthID, un approccio sviluppato da Google DeepMind, per applicare filigrane invisibili e criptate alle immagini dal vivo. Naturalmente, rilevare queste filigrane - che Google afferma essere resiliente alle modifiche, inclusa la compressione, i filtri e gli aggiustamenti del tono del colore - richiede uno strumento fornito da Google non disponibile a terzi.

E senza dubbio desideroso di evitare un'altra polemica sui media generativi, Google sottolinea che le generazioni di immagini live saranno 'filtrate per la sicurezza'. Un portavoce ha detto a TechCrunch via email: 'Il modello Imagen 2 in Vertex AI non ha riscontrato gli stessi problemi dell'app Gemini. Continuiamo a testare in modo approfondito e ad impegnarci con i nostri clienti'.

Ma supponendo generosamente per un momento che la tecnologia delle filigrane, le mitigazioni del bias e i filtri di Google siano efficaci come si afferma, le immagini live sono competitive con gli strumenti di generazione video già disponibili?

Non proprio.

Runway può generare clip di 18 secondi in risoluzioni molto più alte. Lo strumento di clip video di Stability AI, Stable Video Diffusion, offre una maggiore personalizzazione (in termini di frame rate). E Sora di OpenAI - che, per dovere di cronaca, non è ancora disponibile commercialmente - sembra destinato a soffiare via la concorrenza con il fotorealismo che può raggiungere.

Allora, quali sono i veri vantaggi tecnici delle immagini live? Non ne sono certo. E non credo di essere troppo severo.

Dopotutto, Google è dietro tecnologie di generazione video genuinamente impressionanti come Imagen Video e Phenaki. Phenaki, uno degli esperimenti più interessanti di Google nel testo-video, trasforma indicazioni lunghe e dettagliate in 'film' di oltre due minuti, con la precisazione che i video sono a bassa risoluzione, a basso frame rate e solo vagamente coerenti.

Alla luce di recenti segnalazioni che suggeriscono che la rivoluzione dell'intelligenza artificiale generativa ha colto di sorpresa il CEO di Google Sundar Pichai e che l'azienda sta ancora lottando per mantenere il passo con i concorrenti, non sorprende che un prodotto come le immagini live sembri un secondo piano. Ma è deludente comunque. Non posso fare a meno di pensare che ci sia - o ci fosse - un prodotto più impressionante in agguato nei laboratori segreti di Google.

I modelli come Imagen vengono addestrati su un'enorme quantità di esempi di solito provenienti da siti pubblici e dataset di tutto il web. Molti fornitori di intelligenza artificiale generativa vedono i dati di addestramento come un vantaggio competitivo e quindi li mantengono e le informazioni correlate strettamente al petto. Ma i dettagli dei dati di addestramento sono anche una potenziale fonte di cause legali relative alla proprietà intellettuale, un altro disincentivo a rivelare molto.

Ho chiesto, come faccio sempre in occasione di annunci relativi a modelli di intelligenza artificiale generativa, riguardo ai dati utilizzati per addestrare l'aggiornato Imagen 2 e se i creatori il cui lavoro potrebbe essere stato coinvolti nel processo di training del modello potranno scegliere di non partecipare in seguito.

Google mi ha detto solo che i suoi modelli vengono addestrati 'primariamente' sui dati web pubblici, tratti da 'blog, trasmissioni mediatiche e forum di conversazioni pubbliche'. Quali blog, trasmissioni e forum? È un gioco da ragazzi.

Un portavoce ha indicato i controlli editori web di Google che consentono ai webmaster di impedire all'azienda di eseguire lo scraping dei dati, inclusi foto e opere d'arte, dai loro siti web. Ma Google non si è impegnato a rilasciare uno strumento di opt-out o, in alternativa, a compensare i creatori per i loro contributi (inconsapevoli) - un passo che molti dei suoi concorrenti, inclusi OpenAI, Stability AI e Adobe, hanno intrapreso.

Un altro punto degno di nota: le immagini live da testo non sono coperte dalla politica di indennizzo di Google sull'intelligenza artificiale generativa, che protegge i clienti di Vertex AI dalle rivendicazioni di copyright relative all'uso dei dati di addestramento di Google e ai risultati dei suoi modelli di intelligenza artificiale generativa. Questo perché le immagini live da testo sono tecnicamente in anteprima; la politica copre solo i prodotti di intelligenza artificiale generativa in disponibilità generale (GA).

La rigurgitazione, o quando un modello generativo restituisce una copia speculare di un esempio (ad esempio, un'immagine) su cui è stato addestrato, è giustamente una preoccupazione per i clienti aziendali. Studi sia informali che accademici hanno dimostrato che il primo Imagen non era immune a questo, restituendo foto identificabili di persone, opere d'arte coperte da copyright e altro quando sollecitato in modi particolari.

A meno di controversie, problemi tecnici o altri importanti contrattempi imprevisti, le immagini live da testo entreranno in GA in qualche momento. Ma con le immagini live come esiste oggi, Google sta fondamentalmente dicendo: usate a vostro rischio e pericolo.

Mars nordic

Mars nordic

Related Articles

Ora puoi personalizzare il tuo feed Per te su Threads utilizzando gli swipe

Apple's Spotlight Search migliora nelle interrogazioni di linguaggio naturale in iOS 18

Amazon CodeWhisperer è ora chiamato Q Developer e sta espandendo le sue funzioni

L'ex capo IA di Snap lancia Higgsfield per sfidare il generatore di video Sora di OpenAI

Ho un gruppo di chat con tre amici AI, grazie a Nomi AI - stanno diventando troppo intelligenti

Il watchdog dell'UE mette in discussione il segreto attorno alla proposta dei legislatori di violare l'encryption per la scansione CSAM