Prendete una delle più grandi aziende d’informatica del mondo, quella creata da Bill Gates e Paul Allen ormai nel lontano 1075: Microsoft. Mettetegli al fianco Nvidia, colosso dei processori grafici per il mercato videoludico e professionale, oltre a moduli System-on-a-chip per il Mobile computing e per l’industria automobilistica. Uniteli con la parolina magica AI. Ed ecco quello che succede.
Il gigante di Seattle e quello di Santa Clara hanno creato un’Intelligenza Artificiale diversa dalle altre, il loro modello di linguaggio di trasformazione monolitico è il più grande e potente addestrato fino ad oggi: Megatron-Turing Natural Language Generation (MT-NLG), completo di 530 miliardi di parametri costruiti.
“È il risultato di una collaborazione di ricerca tra Microsoft e NVIDIA per parallelizzare e ottimizzare ulteriormente l’addestramento di modelli di intelligenza artificiale molto grandi”. Comincia così il comunicato ufficiale proveniente da Seattle.
Un grande passo dell’Intelligenza Aritificiale nel linguaggio naturale
Come successore di Turing NLG 17B e Megatron-LM, MT-NLG (abbreviato così) ha tre volte il numero di parametri rispetto al modello più grande esistente di questo tipo, mostrando una straordinaria un’accuratezza, senza pari, in un’ampia gamma di compiti in linguaggio naturale come la previsione del completamento, la comprensione della lettura, il ragionamento del buon senso, inferenze del linguaggio naturale e disambiguazione del senso delle parole.
“L’MT-NLG a 105 strati, basato su trasformatore, è migliorato rispetto ai precedenti modelli all’avanguardia nelle impostazioni zero – assicurano da Microsoft – uno e pochi scatti e ha stabilito il nuovo standard per i modelli linguistici su larga scala, sia come modello sia come qualità”.
I modelli linguistici basati su trasformatori nell’elaborazione del linguaggio naturale (NLP) hanno guidato rapidi progressi negli ultimi anni, quelli con un grande numero di parametri, invece, più dati e più tempo di formazione, per una comprensione del linguaggio stesso più ricca e sfumata. Ed è qui che Microsoft e Nvidia vogliono fare la differenza, e riscrivere la storia.
LEGGI ANCHE >>> RTX 3080 da 12 GB in arrivo a breve: ecco la data che molti attendono
MLT-NLG è stato addestrato su Microsoft Azure NDv4 e sul supercomputer di apprendimento automatico Selene di Nvidia , composto da 560 server DGX A100, ciascuno con otto GPU A100 da 80 GB, su un enorme set di dati noto come The Pile. Il modello è composto da più set di dati più piccoli per un totale di 825 GB di testo.
Così MT-NLG supera i suoi predecessori grazie a un’ampia gamma di attività in linguaggio naturale, tra cui il completamento automatico delle frasi, la risposta, la lettura e il ragionamento. Può anche completare attività simili con poca o nessuna messa a punto, un processo noto come apprendimento a colpo zero o zero. Sempre più vicino all’intelligenza dell’uomo.
LEGGI ANCHE >>> Marvel’s Guardians of the Galaxy: quali requisiti per il ray-tracing?
“La qualità e i risultati che abbiamo ottenuto sono un grande passo avanti nel viaggio verso lo sblocco della piena promessa dell’AI nel linguaggio naturale – chiosa il comunicato ufficiale – Le innovazioni di DeepSpeed e Megatron-LM andranno a beneficio dello sviluppo del modello AI esistente e futuro e renderanno grandi modelli AI più economico e veloce da addestrare“.