Microsoft AI Research presenta DeepSpeed-MII, una nuova libreria Python open source di DeepSpeed ​​che accelera oltre 20.000 modelli di deep learning ampiamente utilizzati

Fonte: https://www.microsoft.com/en-us/research/project/deepspeed/deepspeed-mii/

Sebbene il software open source abbia reso l’IA accessibile a più persone, ci sono ancora due ostacoli significativi al suo uso diffuso: ritardo di inferenza e costo.

Le ottimizzazioni del sistema hanno fatto molta strada e possono ridurre sostanzialmente la latenza e i costi per l’inferenza del modello DL, ma non sono immediatamente accessibili. Molti data scientist non hanno le competenze per identificare e implementare correttamente l’insieme di ottimizzazioni di sistema rilevanti per un modello specifico, rendendo la bassa latenza e l’inferenza a basso costo principalmente fuori portata. La natura complessa del panorama dell’inferenza del modello DL, incluse ampie variazioni nelle dimensioni del modello, nell’architettura, nelle caratteristiche delle prestazioni del sistema, nei requisiti hardware, ecc., è la causa principale di questa mancanza di disponibilità.

Una recente ricerca Microsoft open-source DeepSpeed-MII, una nuova libreria python open source sviluppata dall’azienda per facilitare l’adozione diffusa dell’inferenza a bassa latenza ea basso costo di modelli ad alte prestazioni. MII fornisce l’accesso a migliaia di modelli DL popolari con implementazioni altamente efficienti.

MII utilizza molte ottimizzazioni DeepSpeed-Inference, come la fusione profonda per i trasformatori, lo slicing automatico del tensore per l’inferenza multi-GPU, la quantizzazione al volo utilizzando ZeroQuant e altre che forniscono inferenza a bassa latenza/costo. Consente la distribuzione a basso costo di questi modelli in locale e in Azure tramite AML con poche righe di codice, il tutto fornendo prestazioni all’avanguardia.

DeepSpeed-Inference è il motore che guida MII sotto il cofano. MII applica automaticamente le ottimizzazioni di DeepSpeed-system Inference per ridurre al minimo la latenza e massimizzare il throughput in base al tipo di modello, alle dimensioni, alle dimensioni del batch e alle risorse hardware disponibili. A tal fine, MII e DeepSpeed-Inference utilizzano una delle tante regole di iniezione del modello pre-specificate, che consente la determinazione dell’architettura del modello PyTorch sottostante e la successiva sostituzione con un’implementazione ottimizzata. Di conseguenza, le migliaia di popolari modelli supportati da MII ottengono l’accesso istantaneo al set di ottimizzazioni di DeepSpeed ​​Inference.

Migliaia di modelli di trasformatori sono accessibili da diversi repository di modelli open source, tra cui Hugging Face, FairSeq, EluetherAI, ecc. MII supporta varie applicazioni come la creazione di testi, la risposta alle domande, la classificazione, ecc. Funziona con modelli estremamente complessi con centinaia di milioni di parametri, inclusi quelli basati sulle architetture BERT, RoBERTa, GPT, OPT e BLOOM. Inoltre, sono supportati metodi moderni di creazione di immagini, come Stable Diffusion.

I carichi di lavoro di inferenza possono essere critici per la latenza, in cui l’obiettivo principale è ridurre al minimo la latenza, o sensibili ai costi, in cui l’obiettivo principale è ridurre al minimo i costi.

Esistono due varianti di DeepSpeed-Inference che possono essere utilizzate da MII. Il primo, ds-public, è incluso nella libreria pubblica DeepSpeed ​​e include la maggior parte dei miglioramenti sopra citati. Il secondo, ds-azure, è accessibile a tutti gli utenti di Microsoft Azure tramite MII e offre una connettività più profonda con Azure. Le istanze MII possono essere chiamate usando le due varianti DeepSpeed-Inference MII-Public e MII-Azure.

Rispetto all’implementazione open source di PyTorch (Baseline), MII-Public e MII-Azure offrono una latenza significativa e riduzioni dei costi. Tuttavia, per carichi di lavoro generativi specifici, possono avere prestazioni distinte. MII può ridurre la latenza fino a 6 volte per vari modelli open source su vari carichi di lavoro, rendendolo ideale per i casi critici per la latenza in cui viene comunemente impiegata una dimensione batch di 1. Il team ha utilizzato un batch di grandi dimensioni che massimizza la linea di base e il throughput MII per ottenere il costo più basso. I risultati mostrano che modelli linguistici costosi come Bloom, OPT, ecc., possono ridurre drasticamente i costi di inferenza utilizzando MII.

MII-Public può essere eseguito localmente o su qualsiasi servizio cloud. MII sviluppa un server GRPC minimo e fornisce un endpoint di inferenza GRPC per le domande a supporto di questa distribuzione. MII può essere usato con Azure usando l’inferenza AML.

I ricercatori sperano che il loro lavoro supporterà un’ampia gamma di modelli. Credono che MII consentirà una più ampia infusione di potenti competenze di intelligenza artificiale in varie applicazioni e offerte di prodotti riducendo istantaneamente la latenza e il costo dell’inferenza.

Github: https://github.com/microsoft/deepspeed-mii#supported-models-and-tasks

Riferimento: https://www.microsoft.com/en-us/research/project/deepspeed/deepspeed-mii/


Tanushree

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2020/10/Tanushree-Picture-225×300.jpeg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2020/10/Tanushree-Picture-768×1024.jpeg”/>

Tanushree Shenwai è una stagista di consulenza presso MarktechPost. Attualmente sta perseguendo il suo B.Tech presso l’Indian Institute of Technology (IIT), Bhubaneswar. È un’appassionata di Data Science e ha un vivo interesse per l’ambito di applicazione dell’intelligenza artificiale in vari campi. È appassionata di esplorare i nuovi progressi nelle tecnologie e la loro applicazione nella vita reale.


Leave a Comment

Your email address will not be published. Required fields are marked *