La scienza dei dati può essere una tale forza per il cambiamento, ma non cadere per tutto il clamore

Il mondo odierno della raccolta e dell’analisi sofisticate dei dati è ben diverso da quando Mark Twain disse: “Esistono tre tipi di bugie: bugie, maledette bugie e statistiche” all’inizio del 1900″.

Ciò è particolarmente vero nel settore degli investimenti, dove prevalgono gli approcci basati sulla scienza dei dati. Gli investitori che investono denaro in progetti e aziende senza utilizzare le informazioni chiave dei Big Data per guidare la loro decisione probabilmente non vedranno un grande RoI.

È più probabile che le società pubbliche utilizzino la scienza dei dati rispetto alle loro controparti private, che fanno ancora molto affidamento su strumenti di investimento legacy con un uso limitato degli attuali algoritmi di Machine Learning e delle tecniche di aggregazione dei dati.

Che cos’è la scienza dei dati?

La scienza dei dati implica una combinazione di competenze di dominio e capacità di programmazione, insieme a una comprensione delle statistiche per estrarre informazioni significative. I data scientist devono essere maestri in molti campi, tra cui informatica, analisi statistica, machine learning, deep learning, visualizzazione dei dati, data wrangling, matematica e programmazione.

La scienza dei dati ha un futuro?

Un sonoro ‘Sì’. I metodi e le capacità di raccolta dei dati continuano a diventare esponenzialmente più sofisticati, generando quantità sempre maggiori di dati. Parallelamente a questo c’è la crescente capacità di automatizzare l’analisi dei dati, che porta all’adozione diffusa della scienza dei dati come metrica chiave.

Si stima che la dimensione del mercato globale della piattaforma di scienza dei dati sia stata valutata a 95,3 miliardi di dollari nel 2021 e si stima che raggiungerà i 322,9 miliardi di dollari nel 2026, rappresentando un aumento di circa il 300% in soli sei anni.

Ulteriori fattori che guidano la crescita del mercato includono la crescente adozione di soluzioni basate su cloud, la crescente applicazione della piattaforma di data science in vari settori e la crescente necessità di estrarre informazioni approfondite da dati voluminosi per ottenere un vantaggio competitivo per il business.

Affidabilità della scienza dei dati

L’uso della scienza dei dati è in qualche modo simile all’uso di Google durante la ricerca di qualcosa. Google genera risposte, ma non vi è alcuna garanzia che queste siano accurate e adeguate, ponendo la domanda “chi decide se una determinata risposta è quella giusta?”

Le persone stanno ripensando alla valutazione delle risposte prodotte dagli approcci della scienza dei dati e perfezionando molteplici modi di formulazione delle soluzioni per generare i migliori risultati. Tuttavia, la maggior parte di questi approcci riguarda la correttezza matematica dei modelli. D’altra parte, una risposta matematicamente corretta può essere totalmente priva di significato.

Diciamo, se x = 5 e y = 2, allora x/y = 2,5, ma se x è il numero di arance e y è la temperatura, allora 2,5 non ha alcun senso. Allo stesso modo, anche molte risposte generate da Google non hanno senso. Quindi, come aggirare questo?

Anche quando una ricerca genera diversi risultati, usando il buon senso, spesso possiamo ignorare alcune delle risposte esaminando i primi esempi. Questo non perché conosciamo la risposta, ma perché sappiamo quale non può essere la risposta.

Prendere decisioni di investimento migliori con la scienza dei dati La risposta a questo è un triplice approccio: modelli migliori, dati migliori e intelligenza artificiale interpretabile In primo luogo, devono essere costruiti modelli più specifici, con meno esempi di riproposizione. La biotecnologia è un buon esempio, in cui molte soluzioni nel dominio della scienza dei dati sono costruite da zero, specificamente per affrontare un determinato problema.

Questo aiuta a evitare il problema di interpretabilità che si pone quando un modello che è stato costruito per analizzare un insieme di dati, viene adattato a un altro, spesso con difetti imprevisti. In secondo luogo, la creazione di modelli personalizzati richiede tempo e molti dati. Ad esempio, le istituzioni finanziarie generalmente operano in un dominio di scarsità di dati e di tempo. Per superare questi problemi, si deve comprendere che a) i dati primari non sono gli unici dati, e b) non c’è modo in cui il sistema possa avanzare senza una ricerca approfondita. Molte istituzioni finanziarie non hanno dipartimenti di ricerca e sviluppo per aiutare a risolvere problemi specifici. Pertanto, quando si tratta di dati, i dati alternativi sono preziosi. Spesso è molto più facile da ottenere e, con i mezzi giusti, può essere efficacemente convertito in dati che fanno luce su diverse aree delle prestazioni aziendali.

In terzo luogo, è essenziale incorporare un’IA interpretabile. Spesso vengono utilizzati modelli sempre più sofisticati senza una buona comprensione di come un determinato modello generi i suoi risultati.

Mentre slogan come “apprendimento profondo” e intelligenza artificiale sono impressionanti quando si propone un mazzo agli investitori, non tutti questi modelli tendono a sovraperformare quelli classici. Inoltre, è importante capire che oltre il 3 per cento di precisione non è sempre un motivo sufficiente per abbandonare un modello meno preciso, ma interpretabile. Tendenze chiave nella scienza dei dati La scienza dei dati cambia quasi ogni giorno. Dalla governance dei dati a DeepTech, il settore è destinato ad affrontare grandi scossoni. Tenere il passo con le tendenze è importante per garantire che la scienza dei dati rimanga etica, perspicace e autentica. Alcune delle tendenze della scienza dei dati in più rapida crescita includono quanto segue:

  • Esplosione in video e audio deep-fake, utilizzati per facilitare le truffe.
  • Più applicazioni create con Python, anche per lo sviluppo di applicazioni blockchain.
  • Aumento della domanda di soluzioni di intelligenza artificiale end-to-end, per aiutare i clienti aziendali a pulire i loro grandi set di dati e creare modelli ML.
  • Le aziende assumono più analisti di dati per analizzare e analizzare la crescente quantità di dati disponibili.
  • Sempre più data scientist si uniscono a Kaggle, la più grande comunità mondiale di data science con oltre otto milioni di utenti in 194 paesi.
  • Maggiore interesse per la protezione dei dati dei consumatori e la privacy, in particolare sulla scia dello scandalo Cambridge Analytics.
  • Gli sviluppatori di intelligenza artificiale stanno combattendo l’apprendimento automatico contraddittorio, in cui un utente malintenzionato inserisce dati in un modello ML con l’obiettivo di causare errori.

La scienza dei dati è rilevante in tutti i settori

Oltre al settore degli investimenti, costituisce anche la base di importanti decisioni in una varietà di settori. Problemi complessi in molte aree sono stati risolti con la scienza dei dati, dalla previsione dello sviluppo agricolo e del successo delle colture alla tossicità dei farmaci e allo stanziamento di fondi con determinati strumenti finanziari.

Leave a Comment

Your email address will not be published. Required fields are marked *