Imagen, la ricerca delle immagini di Google che mette i brividi!

“Se puoi immaginarlo, puoi anche crearlo”: non diciamo spesso così? Beh, Google deve aver proprio preso l’aforisma alla lettera (e non è la sola) perché ora, attraverso Imagen, trasforma ciò che descriviamo a parole in immagini talmente realistiche e dettagliate da lasciare stupefatti. Ecco di cosa si tratta.

Modello Imagen Google ComputerMagazine.it 25 Maggio 2022
Alcune immagini prodotte da Imagen di Google – ComputerMagazine.it

Comprendere un testo con precisione estrema attraverso l’intelligenza artificiale ed il machine learning e trasformarlo in immagine: è la “magia” che può compiere il nuovo modello “Imagen” di Google, in grado di creare una rappresentazione visiva di ciò che scriviamo con un’accuratezza che davvero lascia sbalorditi.

Il modello è stato ideato dal “Brain Team” di Google e si basa su dati di immagini definiti “text-to-image diffusion model”, un modello generativo che ha l’obiettivo di sviluppare immagini grafiche a partire dalle descrizioni testuali del loro contenuto.

Ad esempio: se scriviamo “Una foto di un procione che indossa il casco di un astronauta e che guarda fuori dalla finestra di notte”, oppure “Un cervello che cavalca un razzo in volo verso la Luna”, ecco che Imagen ci restituisce le immagini grafiche di quanto abbiamo descritto (come mostrate nell’immagine di copertina), raggiungendo livelli qualitativi e precisione impressionanti.

Le potenzialità ed i rischi di Imagen

Imagen Google ComputerMagazine.it 25 Maggio 2022
Un cane che si guarda allo specchio e si vede riflesso come gatto ed un orsacchiotto che nuota in piscina con la cuffia bianca e gli occhialini blu: altre immagini prodotte da Imagen di Google – ComputerMagazine.it

Le possibili applicazioni del modello di Imagen – in considerazione anche del continuo aumento previsto dal Brain Team delle dimensioni del modello linguistico, che condurrà sia ad una maggior fedeltà del campione di riferimento archiviato nei database sia, di conseguenza, ad una corrispondenza tra parole ed immagini sempre più accurata – sembrano davvero sconfinate: presentazioni aziendali, storyboard cinematografici, per non parlare dell’universo di possibilità in ambito hobbistico ed amatoriale.

Tuttavia, il team ha rilevato anche potenziali criticità e rischi, che ha espresso attraverso un comunicato: “[Il modello generativo, ndr] Si basa su codificatori di testo addestrati su dati non curati su scala web e quindi eredita i pregiudizi sociali ed i limiti dei modelli linguistici di grandi dimensioni”.

Per questo motivo, il team teme “che Imagen abbia codificato stereotipi e rappresentazioni dannose, il che spiega la nostra decisione di non rilasciare il modello per l’uso pubblico senza ulteriori garanzie”. Almeno per ora. Pur essendo il sito demo disponibile e visitabile per vedere i risultati raggiunti. Attendiamo dunque gli sviluppi del team di Google per capire se, quando e da chi il modello potrà effettivamente essere utilizzato liberamente.

Gestione cookie