10 tendências a seguir na ciência de dados em 2020
Publicados: 2020-08-22Muitos pesquisadores em várias universidades estão dobrando a pesquisa em PNL
Um dos maiores obstáculos para qualquer projeto de ciência de dados é a falta de dados de treinamento relevantes
2020 e os próximos anos serão muito empolgantes para as empresas e equipes que adotam a ciência de dados
A Inteligência Artificial é um tema quente hoje e, embora existam alguns grupos que afirmam que outro inverno pode estar chegando, uma população maior (incluindo eu) sente fortemente que desta vez, o verão está aqui e será uma grande festa. De fato, com os avanços em hardware e software, pode não haver inverno à vista por muito tempo. Abaixo estão as 10 principais tendências com as quais estou animado em 2020.
Computação quântica
No final de 2019, o anúncio do Google sobre o poder da computação quântica, que superou um supercomputador padrão por um fator de mais de um bilhão, causou ondas na mídia. Embora possa não haver nenhum uso direto para ele em aplicativos do mundo real hoje, há um foco extensivo na computação quântica em laboratórios de pesquisa em empresas como Google e IBM. Portanto, em 2020 e além, temos certeza de dar saltos definitivos na computação quântica e, em breve, ela poderá se tornar viável para aplicações práticas.
Avanços no Processamento de Linguagem Natural (PNL)
O processamento de linguagem natural (PLN) tem sido um foco importante há algum tempo e, com a recente entrada de transformadores e modelos de atenção, as coisas estão avançando a todo vapor. Há alguns meses, a OpenAI de Elon Musk lançou o modelo GPT-3. O modelo é baseado no modelo de arquitetura do transformador, que foi treinado em até 175B parâmetros. Isso mudou tudo. O modelo alcançou SOTA em várias tarefas de modelo de linguagem e continua a fazê-lo em muitas tarefas privadas.
Muitos pesquisadores em várias universidades estão dobrando a pesquisa em PNL. De representações de palavras contextualizadas mais recentes à modelagem de sequência a sequência, um grande número de recursos está sendo dedicado à PNL e permitindo que a máquina entenda e responda à linguagem, assim como os humanos.
Repositórios de dados e mercados
Um dos maiores obstáculos para qualquer projeto de ciência de dados é a falta de dados de treinamento relevantes. Muitas equipes acabam gastando até 80% do tempo coletando os dados de treinamento corretos. No ano passado, muitas equipes independentes, projetos de código aberto e projetos financiados publicamente abriram o acesso a muitos conjuntos de dados estruturados. As organizações também estão entrando no negócio de monetizar os dados aos quais têm acesso ou funcionam como agregadores de dados que coletam, normalizam e estruturam dados em formatos que podem ser usados por outras equipes de ciência de dados. Esta nova linha de negócios testemunhará uma tendência crescente nos próximos anos.
Anotação como um negócio
Embora a coleta e a agregação de dados ocorram em trilhas paralelas, uma parte crítica, que envolve obter os mesmos dados marcados, anotados e prontos para treinamento, também está ganhando força. Ferramentas e serviços como o Mechanical Turk – que permite o crowdsourcing de anotações – já existem, mas agora há uma percepção crescente de que isso pode realmente ser um negócio viável. Muitos países em desenvolvimento, especialmente aqueles que operam em economias de mão de obra mais barata, estão desenvolvendo um negócio de marcação de dados com grandes equipes de pessoas selecionando, marcando e rotulando dados de entrada e tornando-os prontos para consumo.
Realidade Aumentada (AR)
Desde o lançamento dos aplicativos Google Glass e Microsoft HoloLens, incluindo outros nos últimos anos, houve avanços significativos em AR. Este ano, vimos patentes e anúncios de várias empresas de óculos AR, que permitirão que as pessoas interajam e trabalhem em um ambiente simulado do mundo real. Os óculos inteligentes de 2021 mudarão a maneira como o mundo funciona e se comunica.
Recomendado para você:
Análise de dados como serviço
A análise de dados em escala requer uma boa configuração de software e hardware. É preciso configurar clusters de aprendizado de máquina, instalar o software necessário - mesmo os ' plug and play' - e incorrer em um grande custo inicial antes que o primeiro conjunto de dados possa ser analisado. No entanto, existem muitas soluções SaaS e de autoatendimento disponíveis nas quais é possível começar com centavos por dólar. Além disso, com ferramentas e técnicas como o AutoML disponíveis em quase todos os provedores, a análise de dados de alta potência agora está disponível para qualquer pessoa.
Explicação da IA
Os modelos de IA, especialmente aqueles que lidam com dimensões derivadas maiores de dados e dados coletados de vários pontos de contato, são em grande parte caixas pretas de modelo de aprendizado profundo. Os dados entram e a decisão (saída) sai. Há muito pouco raciocínio por trás de por que uma determinada decisão foi tomada. À medida que avançamos para o futuro, onde a IA está sendo usada em aplicativos como diagnóstico médico, veículos autônomos, negociação automatizada e até mesmo em recrutamento e outras funções de tomada de decisão, torna-se importante garantir transparência e visibilidade sobre o porquê de uma determinada máquina -modelo aprendido chegou a uma decisão particular. Existem muitas ferramentas e estruturas de código aberto que renderam bons resultados iniciais na interpretação de modelos de IA.
IA responsável e ética
Se um carro autônomo se depara com duas escolhas, ambas resultando em algum dano a um ser humano, qual decisão o modelo deve tomar? Deve ser baseado em dados OU deve haver alguma regra de substituição?
Se um avanço muito novo na IA foi feito, tudo bem que seja usado em uma aplicação militar que eventualmente será usada na guerra?
Essas são algumas das questões, juntamente com preconceito, proteção de dados, discriminação, etc., que a IA responsável e ética tenta abordar. Há um grande movimento em torno do uso ético da IA, e muitas empresas estão criando forças-tarefa e coalizões dedicadas a lidar com isso.
Plataformas de armazenamento de dados e gerenciamento de dados
O armazenamento existe há muito tempo e serviu como o principal passo para as organizações coletarem e estruturarem dados de forma que comecem a fazer sentido. Os últimos anos viram o surgimento de muitos serviços e plataformas de armazenamento que podem ser usados por equipes de engenharia de dados para iniciar suas jornadas de armazenamento de dados e data lake.
Data Science como uma competência básica para as organizações
Muitos anos atrás, as análises estatísticas e de big data eram vistas como habilidades de “especialistas” que eram distribuídas às equipes de análise, mas isso mudou alguns anos atrás. Atualmente, muitas equipes de negócios preferem que seus membros usem ferramentas de análise para analisar dados.
Da mesma forma, hoje, há um movimento em que as habilidades de ciência de dados estão sendo construídas nas equipes de negócios. As equipes de negócios estão aprendendo a gerenciar projetos, expectativas e cronogramas de ciência de dados e como as habilidades e o gerenciamento de equipes são diferentes das equipes tradicionais de desenvolvimento de software.
Em suma, 2020 e os próximos anos serão muito empolgantes para as empresas e equipes que adotam a ciência de dados e áreas de trabalho relacionadas.