Il generatore di immagini DALL-E AI di OpenAI ora può anche modificare le immagini

Il gruppo di ricerca sull’intelligenza artificiale OpenAI ha creato una nuova versione di DALL-E, il suo programma di generazione da testo a immagine. DALL-E 2 presenta una versione a risoluzione più elevata e a latenza inferiore del sistema originale, che produce immagini che descrivono descrizioni scritte dagli utenti. Include anche nuove funzionalità, come la modifica di un’immagine esistente. Come con il precedente lavoro OpenAI, lo strumento non viene rilasciato direttamente al pubblico. Ma i ricercatori possono registrarsi online per visualizzare in anteprima il sistema e OpenAI spera di renderlo disponibile in seguito per l’uso in app di terze parti.

L’originale DALL-E, un portmanteau dell’artista “Salvador Dalí” e del robot “WALL-E”, ha debuttato nel gennaio del 2021. È stato un test limitato ma affascinante della capacità dell’IA di rappresentare visivamente concetti, da rappresentazioni banali di un manichino con una camicia di flanella a “una giraffa fatta di tartaruga” o l’illustrazione di un ravanello che porta a spasso un cane. All’epoca, OpenAI disse che avrebbe continuato a basarsi sul sistema esaminando i potenziali pericoli come il pregiudizio nella generazione di immagini o la produzione di disinformazione. Sta tentando di affrontare questi problemi utilizzando salvaguardie tecniche e una nuova politica dei contenuti, riducendo al contempo il carico di elaborazione e portando avanti le capacità di base del modello.

Un risultato DALL-E 2 per “Cane Shiba Inu con berretto e dolcevita nero.”

Una delle nuove funzionalità di DALL-E 2, inpainting, applica le capacità di conversione da testo a immagine di DALL-E a un livello più granulare. Gli utenti possono iniziare con un’immagine esistente, selezionare un’area e indicare al modello di modificarla. Puoi bloccare un dipinto su una parete del soggiorno e sostituirlo con un’immagine diversa, ad esempio, o aggiungere un vaso di fiori su un tavolino da caffè. Il modello può riempire (o rimuovere) oggetti tenendo conto di dettagli come le direzioni delle ombre in una stanza. Un’altra caratteristica, le variazioni, è una sorta di strumento di ricerca di immagini per immagini che non esistono. Gli utenti possono caricare un’immagine iniziale e quindi creare una gamma di variazioni simili ad essa. Possono anche fondere due immagini, generando immagini che hanno elementi di entrambe. Le immagini generate sono 1.024 x 1.024 pixel, un salto rispetto ai 256 x 256 pixel forniti dal modello originale.

DALL-E 2 si basa su CLIP, un sistema di visione artificiale che OpenAI ha annunciato anche l’anno scorso. “DALL-E 1 ha appena preso il nostro approccio GPT-3 dal linguaggio e lo ha applicato per produrre un’immagine: abbiamo compresso le immagini in una serie di parole e abbiamo appena imparato a prevedere cosa verrà dopo”, afferma Prafulla Dhariwal, ricercatrice OpenAI, riferendosi a il modello GPT utilizzato da molte app di intelligenza artificiale di testo. Ma l’abbinamento delle parole non catturava necessariamente le qualità che gli esseri umani consideravano più importanti e il processo predittivo limitava il realismo delle immagini. CLIP è stato progettato per guardare le immagini e riassumerne i contenuti come farebbe un essere umano, e OpenAI ha ripetuto questo processo per creare “unCLIP”, una versione invertita che inizia con la descrizione e si fa strada verso un’immagine. DALL-E 2 genera l’immagine utilizzando un processo chiamato diffusione, che Dhariwal descrive come iniziare con un “sacchetto di punti” e poi riempire un motivo con dettagli sempre maggiori.

Un'immagine esistente di una stanza con un fenicottero aggiunto in un angolo.

Un’immagine esistente di una stanza con un fenicottero aggiunto in un angolo.

È interessante notare che una bozza di documento su unCLIP afferma che è in parte resistente a una debolezza molto divertente di CLIP: il fatto che le persone possono ingannare le capacità di identificazione del modello etichettando un oggetto (come una mela Granny Smith) con una parola che indica qualcos’altro (come un iPod ). Lo strumento delle variazioni, affermano gli autori, “genera comunque immagini di mele con alta probabilità” anche quando si utilizza un’immagine etichettata erroneamente che CLIP non può identificare come Granny Smith. Al contrario, “il modello non produce mai immagini di iPod, nonostante l’elevata probabilità relativa prevista di questa didascalia”.

Il modello completo di DALL-E non è mai stato rilasciato pubblicamente, ma altri sviluppatori hanno perfezionato i propri strumenti che imitano alcune delle sue funzioni nell’ultimo anno. Una delle applicazioni mainstream più popolari è l’app mobile Wombo’s Dream, che genera immagini di qualsiasi cosa gli utenti descrivano in una varietà di stili artistici. OpenAI non sta rilasciando nuovi modelli oggi, ma gli sviluppatori potrebbero utilizzare i suoi risultati tecnici per aggiornare il proprio lavoro.

Un risultato DALL-E 2 per

Un risultato DALL-E 2 per “una scodella di zuppa che sembra un mostro, fatta di lana”.

OpenAI ha implementato alcune salvaguardie integrate. Il modello è stato addestrato su dati che avevano eliminato del materiale discutibile, limitando idealmente la sua capacità di produrre contenuti discutibili. C’è una filigrana che indica la natura generata dall’intelligenza artificiale del lavoro, anche se in teoria potrebbe essere ritagliata. Come funzione preventiva anti-abuso, il modello non può generare volti riconoscibili in base a un nome, anche chiedendo qualcosa come il Monna Lisa apparentemente restituirebbe una variante sul viso reale dal dipinto.

DALL-E 2 sarà testabile da partner controllati con alcuni avvertimenti. Agli utenti è vietato caricare o generare immagini che “non sono classificate G” e “potrebbero causare danni”, incluso qualsiasi cosa che coinvolga simboli di odio, nudità, gesti osceni o “grandi cospirazioni o eventi relativi ai principali eventi geopolitici in corso”. Devono anche rivelare il ruolo dell’IA nella generazione delle immagini e non possono fornire immagini generate ad altre persone tramite un’app o un sito Web, quindi inizialmente non vedrai una versione basata su DALL-E di qualcosa come Dream. Ma OpenAI spera di aggiungerlo al set di strumenti API del gruppo in un secondo momento, consentendogli di alimentare app di terze parti. “La nostra speranza è di continuare a fare un processo graduale qui, in modo da poter continuare a valutare dal feedback che riceviamo come rilasciare questa tecnologia in sicurezza”, afferma Dhariwal.

Segnalazione aggiuntiva di James Vincent.

Add Comment