10 tendencias a seguir en ciencia de datos en 2020

Publicado: 2020-08-22

Muchos investigadores de varias universidades se están duplicando en la investigación de la PNL

Uno de los mayores obstáculos para cualquier proyecto de ciencia de datos es la falta de datos de capacitación relevantes.

2020 y los próximos años serán muy emocionantes para las empresas y los equipos que adopten la ciencia de datos

La inteligencia artificial es un tema candente hoy en día, y aunque hay algunos grupos que afirman que puede llegar otro invierno, una población más grande (incluido yo mismo) siente firmemente que esta vez, el verano está aquí y será una gran fiesta. De hecho, con los avances tanto en hardware como en software, es posible que no haya invierno a la vista por mucho tiempo. A continuación se muestran las 10 tendencias principales que me entusiasman en 2020.

Computación cuántica

Hacia fines de 2019, el anuncio de Google sobre el poder de la computación cuántica, que superó a una supercomputadora estándar por un factor de más de mil millones, causó revuelo en los medios. Si bien es posible que no haya ningún uso directo para él en las aplicaciones del mundo real en la actualidad, existe un amplio enfoque en la computación cuántica en los laboratorios de investigación de empresas como Google e IBM. Por lo tanto, en 2020 y más allá, estamos seguros de que daremos saltos definitivos en la computación cuántica y, pronto, puede volverse viable para aplicaciones prácticas.

Avances en el procesamiento del lenguaje natural (PNL)

El procesamiento del lenguaje natural (NLP) ha sido un enfoque importante durante un tiempo, y con la reciente entrada de transformadores y modelos de atención, las cosas están avanzando a toda máquina. Hace unos meses, OpenAI de Elon Musk lanzó el modelo GPT-3. El modelo se basa en el modelo de arquitectura del transformador, que se entrenó en parámetros de hasta 175B. Esto cambió todo. El modelo logró SOTA en varias tareas del modelo de lenguaje y continúa haciéndolo en muchas tareas privadas.

Muchos investigadores de varias universidades se están duplicando en la investigación de la PNL. Desde las representaciones de palabras contextualizadas más nuevas hasta el modelado de secuencia a secuencia, se está dedicando una gran cantidad de recursos a la PNL y a permitir que la máquina comprenda y responda al lenguaje, al igual que los humanos.

Repositorios de datos y mercados

Uno de los mayores obstáculos para cualquier proyecto de ciencia de datos es la falta de datos de capacitación relevantes. Muchos equipos terminan dedicando hasta el 80 % de su tiempo a recopilar los datos de entrenamiento correctos. Durante el año pasado, muchos equipos independientes, proyectos de código abierto y proyectos financiados con fondos públicos han abierto el acceso a muchos conjuntos de datos estructurados. Las organizaciones también se están involucrando en el negocio de monetizar los datos a los que tienen acceso o funcionan como agregadores de datos que recopilan, normalizan y estructuran datos en formatos que pueden ser utilizados por otros equipos de ciencia de datos. Esta nueva línea de negocio será testigo de una tendencia al alza en los próximos años.

Anotación como negocio

Si bien la recopilación y la agregación de datos ocurren en pistas paralelas, una pieza crítica, que implica etiquetar, anotar y preparar los mismos datos para el entrenamiento, también está cobrando fuerza a lo grande. Ya existen herramientas y servicios como Mechanical Turk, que permite el crowdsourcing de anotaciones, pero ahora se está dando cuenta cada vez más de que en realidad puede ser un negocio viable. Muchos países en desarrollo, especialmente aquellos que operan en economías de mano de obra más barata, están desarrollando un negocio en torno al etiquetado de datos con grandes equipos de personas que seleccionan, etiquetan y etiquetan los datos de entrada y los preparan para el consumo.

Realidad Aumentada (RA)

Desde el lanzamiento de las aplicaciones Google Glass y Microsoft HoloLens, incluidas otras en los últimos años, se han realizado avances significativos en AR. Este año, vimos patentes y anuncios de varias empresas en gafas AR, que permitirán a las personas interactuar y trabajar en un entorno simulado del mundo real. Las gafas inteligentes de 2021 cambiarán la forma en que el mundo funciona y se comunica.

Recomendado para ti:

Cómo se configura el marco de agregación de cuentas de RBI para transformar Fintech en India

Cómo se configura el marco de agregación de cuentas de RBI para transformar Fintech en India

Los emprendedores no pueden crear nuevas empresas sostenibles y escalables a través de 'Jugaad': CEO de CitiusTech

Los emprendedores no pueden crear startups sostenibles y escalables a través de 'Jugaad': Cit...

Cómo Metaverse transformará la industria automotriz india

Cómo Metaverse transformará la industria automotriz india

¿Qué significa la disposición contra la especulación para las nuevas empresas indias?

¿Qué significa la disposición contra la especulación para las nuevas empresas indias?

Cómo las empresas emergentes de Edtech están ayudando a mejorar las habilidades y preparar a la fuerza laboral para el futuro

Cómo las empresas emergentes de Edtech están ayudando a la fuerza laboral de la India a mejorar y prepararse para el futuro...

Acciones tecnológicas de la nueva era esta semana: los problemas de Zomato continúan, EaseMyTrip publica...

Análisis de datos como servicio

El análisis de datos a escala requiere una buena configuración de software y hardware. Uno tiene que configurar clústeres de aprendizaje automático, instalar el software necesario, incluso los ' plug and play' , e incurrir en un gran costo inicial antes de que se pueda analizar el primer conjunto de datos. Sin embargo, hay muchas soluciones SaaS y de autoservicio disponibles donde uno puede comenzar con centavos por dólar. Además, con herramientas y técnicas como AutoML disponibles con casi todos los proveedores, el análisis de datos de alta potencia ahora está disponible para todos.

Explicabilidad de la IA

Los modelos de IA, especialmente aquellos que se ocupan de dimensiones derivadas más grandes de datos y datos recopilados de varios puntos de contacto, son en gran medida cajas negras de modelos de aprendizaje profundo. Entran los datos y sale la decisión (salida). Hay muy poco razonamiento detrás de por qué se tomó una determinada decisión. A medida que avanzamos hacia el futuro, donde la IA se utiliza en aplicaciones como el diagnóstico médico, los vehículos autónomos, el comercio automatizado e incluso en el reclutamiento y otras funciones de toma de decisiones, se vuelve importante garantizar la transparencia y la visibilidad de por qué una determinada máquina -El modelo aprendido llegó a una decisión particular. Hay muchas herramientas y marcos de código abierto que han dado buenos resultados iniciales en la interpretación de modelos de IA.

IA responsable y ética

Si un automóvil autónomo se enfrenta a dos opciones, las cuales resultan en algún daño para un ser humano, ¿qué decisión debe tomar el modelo? ¿Debería basarse en datos O debería haber alguna regla de anulación?

Si se ha logrado un avance muy novedoso en IA, ¿está bien que se use en una aplicación militar que eventualmente se usará en la guerra?

Estas son algunas de las cuestiones, junto con el sesgo, la protección de datos, la discriminación, etc., que la IA responsable y ética intenta abordar. Hay un gran movimiento en torno al uso ético de la IA, y muchas empresas están creando grupos de trabajo y coaliciones dedicados que se ocupan de esto.

Plataformas de almacenamiento y gestión de datos

El almacenamiento ha existido durante mucho tiempo y ha servido como el paso principal para que las organizaciones recopilen y estructuren datos de manera que comiencen a tener sentido. Los últimos años han visto el surgimiento de muchos servicios y plataformas de almacenamiento que pueden ser utilizados por los equipos de ingeniería de datos para iniciar sus viajes de almacenamiento y almacenamiento de datos.

La ciencia de datos como competencia básica para las organizaciones

Hace muchos años, el análisis estadístico y de big data se veía como habilidades "expertas" que se asignaban a los equipos de análisis, pero esto cambió hace unos años. En la actualidad, muchos equipos comerciales prefieren que los miembros de su equipo utilicen herramientas de análisis para analizar datos.

De manera similar, hoy en día, hay un movimiento en el que se desarrollan habilidades de ciencia de datos dentro de los equipos comerciales. Los equipos comerciales están aprendiendo cómo administrar proyectos, expectativas y cronogramas de ciencia de datos, y cómo las habilidades y la administración de equipos son diferentes de las de los equipos tradicionales de desarrollo de software.

En resumen, 2020 y los próximos años serán muy emocionantes para las empresas y los equipos que adopten la ciencia de datos y áreas de trabajo relacionadas.