DALL-E

DALL-E
Immagine generata con l'intelligenza artificiale di DALL-E, raffigurando il logo di Wikipedia.
Classe	Transformer

Sviluppo

A seguito della pubblicazione dei modelli NLP GPT e GPT-2,^[2] OpenAI decide di applicare l'architettura dei transformer alla generazione delle immagini. A tal proposito, nel giugno 2020 pubblica ImageGPT, il quale utilizzando lo stesso codice di GPT-2 produce immagini coerenti.^[3]

Il 5 gennaio 2021, OpenAI presenta sul suo blog il modello DALL-E, capace di generare immagini a partire da una didascalia che l'utente inserisce. DALL-E mostra di comprendere fedelmente le istruzioni della descrizione testuale rendendosi capace di apprendere concetti spaziali e temporali.

Malgrado le capacità di DALL-E siano state ampiamente mostrate nel blog di OpenAI e nelle relative pubblicazioni, il codice del modello non è mai stato pubblicato interamente, fatto che ha favorito la nascita di numerosi modelli testo-immagine: Cogview, DALL-E Mini, ruDALL-E.^[4]^[5]

Remove ads

Caratteristiche

DALL-E produce immagini in risoluzione massima di 1024 x 1024 pixel^[6] a partire da un testo in linguaggio naturale (è supportata la lingua inglese). DALL-E è capace di generare immagini e fotografie adeguandosi a vari stili come ad esempio la pixel art, lo stile cartoon, il rendering 3d. È anche capace di produrre immagini foto realistiche.

DALL-E, dopo un primo periodo di accesso solo tramite invito, è adesso aperto a tutti e offre 50 crediti all'iscrizione e 15 crediti al mese per la generazione delle immagini. Con ogni credito è possibile generare 4 immagini.

È anche possibile chiedere a DALL-E di produrre immagini, al posto che partendo da un testo, fornendo un'immagine. DALL-E in tal caso produrrà immagini visivamente simili ispirate all'immagine di partenza.

Nel settembre 2023 viene lanciata la versione 3.0 che è in grado di sviluppare dettagli molto complessi e si integra per la prima volta con ChatGPT (solo la versione Plus, ovvero a pagamento.), consentendo la generazione di immagini all'interno di una conversazione testuale, funzionalità già introdotta da Microsoft Bing Chat nel marzo dello stesso anno^[7] e poi da Bing Image Creator e Bing.com.^[8]

Remove ads

Immagini generate da DALL-E

DALL-E 3 è molto più avanzato di DALL-E 2, riuscendo a generare immagini di alta qualità e riuscendo a scrivere anche lettere, anche se ha difficoltà nello scrivere parole o frasi di senso compiuto.

Inoltre in DALL-E 3 su ChatGPT Plus non è presente la filigrana, cosa che su DALL-E 2 è presente. Anche se quest'ultima può essere tolta senza che i termini e condizioni vengano infranti.^[9]

Ulteriori informazioni PROMPT:, IMMAGINE GENERATA CON DALL-E 3 ...

PROMPT:	IMMAGINE GENERATA CON DALL-E 3	IMMAGINE GENERATA CON DALL-E 2
^[10]
^[11]
^[12]

Sviluppo

Caratteristiche

Immagini generate da DALL-E

Note

Voci correlate

Altri progetti

Collegamenti esterni

Wikiwand - on