10 tendenze da seguire nella scienza dei dati nel 2020
Pubblicato: 2020-08-22Molti ricercatori di varie università stanno raddoppiando la ricerca sulla PNL
Uno dei maggiori punti di forza di qualsiasi progetto di scienza dei dati è la mancanza di dati di formazione pertinenti
Il 2020 e i prossimi anni saranno molto entusiasmanti per le aziende e i team che adotteranno la scienza dei dati
L'intelligenza artificiale è un argomento caldo oggi, e mentre ci sono alcuni gruppi che affermano che un altro inverno potrebbe arrivare, una popolazione più numerosa (me compreso) sente fortemente che questa volta l'estate è qui e sarà una grande festa. In effetti, con i progressi sia nell'hardware che nel software, l'inverno potrebbe non essere in vista per molto tempo. Di seguito sono elencate le prime 10 tendenze di cui sono entusiasta nel 2020.
Informatica quantistica
Verso la fine del 2019, l'annuncio di Google della potenza di calcolo quantistico, che ha superato un supercomputer standard di un fattore di oltre un miliardo, ha suscitato scalpore nei media. Anche se oggi potrebbe non esserci alcun utilizzo diretto nelle applicazioni del mondo reale, c'è un'ampia attenzione sull'informatica quantistica nei laboratori di ricerca di aziende come Google e IBM. Pertanto, nel 2020 e oltre, siamo sicuri di fare passi da gigante nell'informatica quantistica e presto potrebbe diventare praticabile per applicazioni pratiche.
Progressi nell'elaborazione del linguaggio naturale (PNL)
L'elaborazione del linguaggio naturale (NLP) è stata un obiettivo importante per un po' di tempo e, con il recente ingresso di trasformatori e modelli di attenzione, le cose stanno andando a gonfie vele. Alcuni mesi fa, OpenAI di Elon Musk ha rilasciato il modello GPT-3. Il modello si basa sul modello dell'architettura del trasformatore, che è stato addestrato su parametri fino a 175B. Questo ha cambiato tutto. Il modello ha ottenuto SOTA su varie attività del modello linguistico e continua a farlo su molte attività private.
Molti ricercatori di varie università stanno raddoppiando la ricerca sulla PNL. Dalle più recenti rappresentazioni di parole contestualizzate alla modellazione da sequenza a sequenza, un gran numero di risorse viene dedicato alla PNL e consente alla macchina di comprendere e rispondere al linguaggio, proprio come gli esseri umani.
Repository di dati e mercati
Uno dei maggiori punti di forza di qualsiasi progetto di scienza dei dati è la mancanza di dati di formazione pertinenti. Molte squadre finiscono per dedicare fino all'80% del loro tempo a raccogliere i dati di allenamento corretti. Nell'ultimo anno, molti team indipendenti, progetti open source e progetti finanziati con fondi pubblici hanno aperto l'accesso a molti set di dati strutturati. Le organizzazioni si stanno anche occupando della monetizzazione dei dati a cui hanno accesso o funzionano come aggregatori di dati che raccolgono, normalizzano e strutturano i dati in formati che possono essere utilizzati da altri team di data science. Questa nuova linea di business sarà testimone di una tendenza al rialzo nei prossimi anni.
Annotazione come azienda
Sebbene la raccolta e l'aggregazione dei dati avvengano in tracce parallele, anche un aspetto fondamentale, che prevede l'etichettatura, l'annotazione e la preparazione degli stessi dati per l'addestramento, sta prendendo piede in grande stile. Strumenti e servizi come Mechanical Turk, che consente il crowdsourcing delle annotazioni, esistono già, ma ora c'è una crescente consapevolezza che questo può effettivamente essere un business fattibile. Molti paesi in via di sviluppo, in particolare quelli che operano in economie di lavoro più economiche, stanno sviluppando un'attività di etichettatura dei dati con grandi team di persone che selezionano, etichettano ed etichettano i dati di input e li rendono pronti per il consumo.
Realtà aumentata (AR)
Dal rilascio delle applicazioni Google Glass e Microsoft HoloLens, comprese altre negli ultimi anni, sono stati fatti progressi significativi nell'AR. Quest'anno abbiamo visto brevetti e annunci di varie aziende in occhiali AR, che consentiranno alle persone di interagire e lavorare in un ambiente simulato del mondo reale. Gli occhiali intelligenti del 2021 cambieranno il modo in cui il mondo lavora e comunica.
Raccomandato per te:
Analisi dei dati come servizio
L'analisi dei dati su larga scala richiede una buona configurazione di software e hardware. È necessario configurare cluster di apprendimento automatico, installare il software necessario, anche quelli " plug and play" , e sostenere un costo iniziale elevato prima che il primo set di dati possa essere analizzato. Tuttavia, sono disponibili molte soluzioni SaaS e self-service in cui è possibile iniziare con pochi centesimi. Inoltre, con strumenti e tecniche come AutoML disponibili con quasi tutti i provider, l'analisi dei dati ad alta potenza è ora disponibile per chiunque.
Spiegabilità dell'IA
I modelli di intelligenza artificiale, in particolare quelli che si occupano di dimensioni derivate più grandi di dati e dati raccolti da vari punti di contatto, sono in gran parte scatole nere di modelli di deep learning. I dati entrano ed esce la decisione (output). C'è molto poco ragionamento dietro il motivo per cui è stata presa una certa decisione. Mentre ci spostiamo nel futuro in cui l'IA viene utilizzata in applicazioni come diagnosi mediche, veicoli a guida autonoma, commercio automatizzato e persino nel reclutamento e in altre funzioni decisionali, diventa importante garantire trasparenza e visibilità sul motivo per cui una determinata macchina -il modello appreso ha raggiunto una decisione particolare. Esistono molti strumenti e framework open source che hanno prodotto buoni risultati iniziali nell'interpretazione dei modelli di intelligenza artificiale.
Intelligenza artificiale responsabile ed etica
Se un'auto a guida autonoma si trova di fronte a due scelte, entrambe dannose per un essere umano, quale decisione dovrebbe prendere il modello? Dovrebbe essere basato sui dati O dovrebbe esserci una regola di override?
Se è stato fatto un nuovo progresso nell'IA, va bene che venga utilizzato in un'applicazione militare che verrà infine utilizzata in guerra?
Queste sono alcune delle domande, insieme a pregiudizi, protezione dei dati, discriminazione, ecc., che l'IA responsabile ed etica tenta di affrontare. C'è un grande movimento intorno all'uso etico dell'IA e molte aziende stanno creando task force e coalizioni dedicate che si occupano di questo.
Piattaforme di data warehousing e gestione dei dati
Il magazzino è in circolazione da molto tempo ed è stato il passaggio principale per le organizzazioni per raccogliere e strutturare i dati in modo che iniziassero ad avere un senso. Negli ultimi anni sono emersi molti servizi e piattaforme di warehousing che possono essere utilizzati dai team di ingegneria dei dati per dare il via ai loro viaggi di data warehousing e data laking.
Data Science come competenza di base per le organizzazioni
Molti anni fa, l'analisi statistica e dei big data era vista come competenze "esperte" che venivano fornite ai team di analisi, ma la situazione è cambiata alcuni anni fa. Al momento, molti team aziendali preferiscono che i membri del proprio team utilizzino strumenti di analisi per analizzare i dati.
Allo stesso modo, oggi esiste un movimento in cui le competenze di data science vengono sviluppate all'interno dei team aziendali. I team aziendali stanno imparando a gestire progetti, aspettative e tempistiche di data science e come le competenze e la gestione del team sono diverse da quelle dei tradizionali team di sviluppo software.
In sintesi, il 2020 e i prossimi anni saranno molto eccitanti per le aziende e i team che adotteranno la scienza dei dati e le relative aree di lavoro.