Misurare la percezione nei modelli di IA

Nuovo benchmark per la valutazione di sistemi multimodali basati su dati video, audio e di testo del mondo reale

Dal test di Turing a ImageNet, i benchmark hanno svolto un ruolo determinante nel plasmare l’intelligenza artificiale (AI), aiutando a definire gli obiettivi di ricerca e consentendo ai ricercatori di misurare i progressi verso tali obiettivi. Incredibili scoperte negli ultimi 10 anni, come AlexNet nella visione artificiale e AlphaFold nel ripiegamento delle proteine, sono state strettamente collegate all’utilizzo di set di dati di riferimento, consentendo ai ricercatori di classificare la progettazione del modello e le scelte di formazione e di iterare per migliorare i loro modelli. Mentre lavoriamo verso l’obiettivo di costruire un’intelligenza generale artificiale (AGI), lo sviluppo di benchmark solidi ed efficaci che espandano le capacità dei modelli di intelligenza artificiale è importante quanto lo sviluppo dei modelli stessi.

La percezione – il processo di sperimentare il mondo attraverso i sensi – è una parte significativa dell’intelligenza. E costruire agenti con una comprensione percettiva del mondo a livello umano è un compito centrale ma impegnativo, che sta diventando sempre più importante nella robotica, nelle auto a guida autonoma, negli assistenti personali, nell’imaging medico e altro ancora. Quindi oggi presentiamo il Prova di percezioneun benchmark multimodale che utilizza video del mondo reale per aiutare a valutare le capacità di percezione di un modello.

Sviluppo di un benchmark di percezione

Molti benchmark relativi alla percezione sono attualmente utilizzati nella ricerca sull’intelligenza artificiale, come Kinetics per il riconoscimento di azioni video, Audioset per la classificazione degli eventi audio, MOT per il tracciamento degli oggetti o VQA per la risposta alle domande sulle immagini. Questi benchmark hanno portato a progressi sorprendenti nel modo in cui vengono costruite e sviluppate le architetture dei modelli di IA e i metodi di formazione, ma ognuno si rivolge solo ad aspetti ristretti della percezione: i benchmark delle immagini escludono gli aspetti temporali; la risposta visiva alle domande tende a concentrarsi sulla comprensione della scena semantica di alto livello; le attività di rilevamento degli oggetti generalmente acquisiscono l’aspetto di livello inferiore dei singoli oggetti, come il colore o la trama. E pochissimi benchmark definiscono le attività sia per le modalità audio che per quelle visive.

I modelli multimodali, come Perceiver, Flamingo o BEiT-3, mirano a essere modelli di percezione più generali. Ma le loro valutazioni si basavano su più set di dati specializzati perché non era disponibile alcun benchmark dedicato. Questo processo è lento, costoso e fornisce una copertura incompleta delle capacità di percezione generale come la memoria, rendendo difficile per i ricercatori confrontare i metodi.

Per affrontare molti di questi problemi, abbiamo creato un set di dati di video appositamente progettati di attività del mondo reale, etichettati in base a sei diversi tipi di attività:

  1. Tracciamento degli oggetti: viene fornita una scatola attorno a un oggetto all’inizio del video, il modello deve restituire una traccia completa durante l’intero video (anche attraverso le occlusioni).
  2. Tracciamento del punto: un punto viene selezionato all’inizio del video, il modello deve seguire il punto per tutto il video (anche attraverso le occlusioni).
  3. Localizzazione dell’azione temporale: il modello deve localizzare e classificare temporaneamente un insieme predefinito di azioni.
  4. Localizzazione del suono temporale: il modello deve localizzare e classificare temporaneamente un insieme predefinito di suoni.
  5. Video a risposta multipla con risposta alle domande: domande testuali sul video, ciascuna con tre scelte da cui selezionare la risposta.
  6. Risposte a domande video con messa a terra: domande testuali sul video, il modello deve restituire una o più tracce oggetto.

Ci siamo ispirati al modo in cui la percezione dei bambini viene valutata nella psicologia dello sviluppo, nonché a set di dati sintetici come CATER e CLEVRER, e abbiamo progettato 37 script video, ciascuno con variazioni diverse per garantire un set di dati equilibrato. Ogni variazione è stata filmata da almeno una dozzina di partecipanti crowd-sourced (simile al lavoro precedente su Charades e Something-Something), con un totale di oltre 100 partecipanti, risultando in 11.609 video, con una durata media di 23 secondi.

I video mostrano semplici giochi o attività quotidiane, che ci permetterebbero di definire compiti che richiedono le seguenti abilità per essere risolti:

  • Conoscenza della semantica: testare aspetti come il completamento di attività, il riconoscimento di oggetti, azioni o suoni.
  • Comprensione della fisica: collisioni, moto, occlusioni, relazioni spaziali.
  • Ragionamento temporale o memoria: ordinamento temporale degli eventi, conteggio nel tempo, rilevamento dei cambiamenti in una scena.
  • Capacità di astrazione: corrispondenza delle forme, nozioni uguali/diverse, rilevamento del modello.

I partecipanti provenienti dalla folla hanno etichettato i video con annotazioni spaziali e temporali (tracce del riquadro di delimitazione degli oggetti, tracce dei punti, segmenti di azione, segmenti sonori). Il nostro team di ricerca ha progettato le domande per tipo di script per le attività di risposta alle video-domande a scelta multipla e motivate per garantire una buona diversità di abilità testate, ad esempio domande che sondano la capacità di ragionare in modo controfattuale o di fornire spiegazioni per una determinata situazione. Le risposte corrispondenti per ciascun video sono state nuovamente fornite dai partecipanti crowdsourcing.

Valutare i sistemi multimodali con il Perception Test

Assumiamo che i modelli siano stati pre-addestrati su set di dati e attività esterni. Il test di percezione include un piccolo set di messa a punto (20%) che i creatori di modelli possono utilizzare facoltativamente per trasmettere la natura dei compiti ai modelli. I dati rimanenti (80%) sono costituiti da una divisione di convalida pubblica e da una divisione di test in cui le prestazioni possono essere valutate solo tramite il nostro server di valutazione.

Qui mostriamo un diagramma dell’impostazione di valutazione: gli input sono una sequenza video e audio, oltre a una specifica dell’attività. L’attività può essere in forma di testo di alto livello per la risposta visiva alle domande o per l’input di basso livello, come le coordinate del riquadro di delimitazione di un oggetto per l’attività di rilevamento dell’oggetto.

Gli input (video, audio, specifica dell’attività come testo o altra forma) e gli output di un modello valutato sul nostro benchmark.

I risultati della valutazione sono dettagliati in diverse dimensioni e misuriamo le abilità nei sei compiti di calcolo. Per le attività di risposta visiva alle domande forniamo anche una mappatura delle domande attraverso i tipi di situazioni mostrati nei video e i tipi di ragionamento richiesti per rispondere alle domande per un’analisi più dettagliata (consulta il nostro articolo per maggiori dettagli). Un modello ideale massimizzerebbe i punteggi su tutti i grafici radar e tutte le dimensioni. Si tratta di una valutazione dettagliata delle competenze di un modello, che consente di restringere le aree di miglioramento.

Report diagnostico multidimensionale per un modello di percezione per compito computazionale, area e tipo di ragionamento. È possibile eseguire ulteriori diagnostiche in aree secondarie come: movimento, collisioni, conteggio, completamento dell’azione e altro ancora.

Garantire la diversità dei partecipanti e delle scene mostrate nei video è stata una considerazione fondamentale durante lo sviluppo del benchmark. Per fare ciò, abbiamo selezionato partecipanti provenienti da diversi paesi di diverse etnie e generi e miravamo ad avere una rappresentazione diversa all’interno di ogni tipo di sceneggiatura video.

Geolocalizzazione dei partecipanti crowd-sourced coinvolti nelle riprese.

Ulteriori informazioni sul test di percezione

Il benchmark del Perception Test è pubblicamente disponibile qui e ulteriori dettagli sono disponibili nel nostro documento. Presto saranno disponibili anche una classifica e un server delle sfide.

Il 23 ottobre 2022, ospiteremo un seminario sui modelli di percezione generale alla Conferenza europea sulla visione artificiale a Tel Aviv (ECCV 2022), dove discuteremo il nostro approccio e come progettare e valutare modelli di percezione generale con altri leader esperti del settore.

Ci auguriamo che il Perception Test ispiri e guidi ulteriori ricerche verso modelli di percezione generale. Andando avanti, speriamo di collaborare con la comunità di ricerca multimodale per introdurre ulteriori annotazioni, attività, metriche o persino nuovi linguaggi al benchmark.

Se sei interessato a contribuire, contatta percection-test@google.com!

Leave a Comment

Your email address will not be published. Required fields are marked *