¿Qué es Amazon Athena y cómo funciona?

Publicado: 2021-10-26

El proceso de análisis de datos es algo complejo por naturaleza e incluye múltiples pasos para simplificar cosas para las cuales hay muchas herramientas disponibles. Amazon viene al rescate proporcionando un servicio con el nombre de Amazon Athena que ayuda en el análisis de datos.

Amazon Athena es una herramienta de análisis sin servidor que permite a los usuarios consultar los datos de S3 mediante la sintaxis SQL estándar. Como líder en el mundo de la informática en la nube, AWS ofrece una amplia gama de servicios que ofrecen un rendimiento competitivo y soluciones asequibles que se utilizan para ejecutar cargas de trabajo en comparación con la arquitectura local.

AWS Athena es un servicio del dominio de análisis que se enfoca en la recuperación de datos estáticos que se almacenan en depósitos S3 utilizando las declaraciones SQL estándar. Se puede considerar como una herramienta robusta que ayuda a los clientes a obtener información importante sobre sus datos almacenados en S3 porque no tiene servidor y no hay infraestructura para administrar.

¿Qué es Amazon Athena?

Amazon lanzó Athena como un servicio importante el 20 de noviembre de 2016. Se lanzó como un servicio de consulta sin servidor que estaba destinado a realizar un análisis de datos, utilizando el SQL estándar almacenado en Amazon S3 más simple. Con solo unos pocos clics en la Consola de administración de AWS, los clientes pueden dirigir fácilmente a Amazon Athena a sus datos almacenados en Amazon S3 mientras ejecutan consultas con SQL estándar para generar resultados en segundos.

Con el servicio de análisis interactivo de Amazon Athena, no hay infraestructura para configurar o administrar y los clientes solo pagan por las consultas que desean ejecutar. Se escala automáticamente mientras ejecuta consultas en paralelo, lo que eventualmente brinda resultados rápidos incluso con un gran conjunto de datos y consultas complejas.

Athena usa un motor SQL distribuido llamado Presto que es útil para ejecutar las consultas SQL. Se basa en la popular tecnología de código abierto llamada Hive, que ayuda aún más a almacenar datos estructurados, no estructurados y semiestructurados. El software de almacenamiento de datos Apache Hive facilita la lectura, escritura y administración de grandes conjuntos de datos que residen en el almacenamiento distribuido mediante SQL.

Hay una canalización de datos simple en la que los datos de diferentes fuentes se obtienen y se vuelcan en los cubos de S3. Estos son datos sin procesar, lo que significa que aún no se han aplicado transformaciones a los datos. En este momento, se puede usar Amazon Athena para conectarse a estos datos en S3 mientras se analizan. Este es un proceso simple porque no necesita configurar ninguna base de datos o herramientas externas para consultar los datos sin procesar. Una vez que haya terminado con el análisis y haya encontrado los resultados deseados, se puede usar un clúster de EMR para ejecutar las transformaciones de datos analíticos complejos mientras los datos se limpian, procesan y almacenan.

¿Por qué debería usar Atenea?

Un usuario de Athena puede consultar los datos cifrados con claves administradas por el servicio de administración de claves de AWS y también cifrar los resultados de la consulta. De hecho, Athena también permite el acceso entre cuentas a depósitos S3 propiedad de otro usuario. Utiliza catálogos de datos administrados para almacenar información y esquemas relacionados con búsquedas en datos de Amazon S3.

Con todo, el servicio de consultas interactivas es en realidad una herramienta analítica que ayuda a las organizaciones a analizar rápidamente datos importantes almacenados en Amazon S3. Se puede utilizar en el procesamiento de conjuntos de datos no estructurados, estructurados y semiestructurados. Con el uso de Athena, es posible crear consultas dinámicas para conjuntos de datos. Funciona con AWS Glue para brindarle una manera mucho mejor de almacenar metadatos en S3.

Con AWS Cloud Formation y Athena, puede usar consultas con nombre que le permiten nombrar una consulta específica y luego llamarla usando el nombre. Este es un servicio interactivo de AWS que pueden utilizar los científicos de datos y los desarrolladores para echar un vistazo a la tabla de ejecución de la consulta. Ayuda a obtener datos de S3 y los carga en diferentes almacenes de datos utilizando el controlador Athena JDBC para el análisis del almacenamiento de registros y los eventos de almacenamiento de datos.

Funcionamiento de AWS Athena

Amazon Athena funciona en asociación directa con los datos de S3. Se utiliza como un motor de SQL distribuido para ejecutar las consultas y también utiliza Apache Hive para crear y modificar tablas y particiones. Algunos de los puntos de vista importantes necesarios para trabajar con Athena incluyen:

Debe tener una cuenta de AWS
Debe habilitar su cuenta para exportar los datos de costo y uso al depósito S3.
Puede preparar cubos para que Athena se conecte.
AWS también crea archivos de manifiesto con el uso de metadatos cada vez que escribe en el depósito. De hecho, crea una carpeta dentro del depósito de datos de facturación de tecnología AWS conocido como Athena que contiene solo los datos.
Para simplificar la configuración, también se puede utilizar una región denominada US-West-2.
El último y último paso es descargar las credenciales para el nuevo usuario porque las credenciales ayudan indirectamente a la asignación a las credenciales de la base de datos.

Amazon también ofrece una herramienta llamada Cost Explorer para arrastrar y soltar que viene con un conjunto de informes prediseñados, como el costo mensual del servicio, el uso de instancias reservadas, etc. En caso de que tenga curiosidad, debe intentar recrear la consulta sobre el servicio. costos y operación. De hecho, esto no es imposible. Puede dividir los datos sin procesar mientras calcula las tasas de crecimiento de cada uno, crea histogramas, calcula puntajes, etc.

Algunas de las consideraciones adicionales a tener en cuenta al trabajar con Amazon Athena incluyen:

Modelo de precios

El precio de Athena es de más de $5 por escanear datos de Terabyte desde S3 hasta el megabyte más cercano con un mínimo de 10 MB por consulta.

Reducción de costos

El truco consiste en reducir los datos que se escanean de tres formas: compresión de datos, uso de datos en columnas y partición de los datos.

Características de Atenas

De los muchos servicios proporcionados por Amazon, Athena es uno de los mejores servicios. Tiene múltiples características que lo hacen adecuado para el análisis de datos. Algunas de las características incluyen:

Implementación Rápida

Amazon Athena no necesita instalación. En realidad, se puede acceder directamente desde la consola de AWS solo mediante la CLI de AWS.

sin servidor

No tiene servidor para que el usuario final no tenga que preocuparse por la configuración, la infraestructura, el escalado o las fallas. Athena se encarga de todo fácilmente.

Pago Por Consulta

Athena le cobra solo por la consulta que ejecuta, que es la cantidad de datos que se administran por consulta. En realidad, puede ahorrar mucho si comprime los datos y los formatea en consecuencia.

Seguro

Utilizando las políticas de IAM y la identidad de AWS, Amazon Athena ofrece un control completo sobre el conjunto de datos. Con los datos almacenados en depósitos S3, las políticas de IAM pueden ayudar a administrar el control para los usuarios.

Disponible

Amazon Athena tiene una alta disponibilidad y los usuarios pueden ejecutar consultas durante todo el día.

Rápido

Amazon Athena es una herramienta de análisis rápido porque puede realizar consultas complejas en menos tiempo dividiendo las consultas en consultas simples, ejecutándolas en paralelo y combinando los resultados para ofrecer el resultado deseado.

Integración

Una de las mejores características de Athena es que se puede integrar fácilmente con AWS Glue, lo que ayuda a los usuarios a crear un repositorio de datos unificado. Esto también ayuda a crear versiones mucho mejores de los datos, con mejores tablas, vistas, etc.

Consultas federadas

La consulta federada de Amazon Athena permite a Athena ejecutar consultas SQL en todas las fuentes de datos relacionales, de objetos, no relacionales y personalizadas.

Aprendizaje automático

Los desarrolladores pueden usar Amazon Sage Maker para crear e implementar modelos de aprendizaje automático en Amazon Athena.

Técnicas de optimización para AWS Athena

Al trabajar con servicios en la nube, es necesario cuidar los servicios que se utilizan con la menor cantidad de recursos posibles y los que ofrecen el mejor resultado de manera rentable. Hay muchas medidas que se pueden tomar para optimizar las consultas dentro de AWS Athena para que el rendimiento general se pueda impulsar y el costo también se pueda mantener bajo control. Algunas de las técnicas de optimización comunes para el servicio de análisis interactivo de Amazon Athena son:

Partición de los datos en S3
Una de las prácticas más comunes seguidas para almacenar datos en S3, la partición se realiza para crear directorios separados en función de las dimensiones principales, como la dimensión de fecha y la dimensión de región. Se puede usar para particionar por año, mes e incluso día para almacenar archivos en el directorio de cada día. Por otro lado, también puede dividir por región donde se pueden almacenar datos para regiones similares en un directorio. Con la partición, Athena puede escanear menos datos por consulta, lo que hace que todo el trabajo sea rápido y efectivo.
Técnicas de compresión de datos
Mientras se comprimen los datos, se necesita una CPU para comprimir y descomprimir mientras se realiza la consulta. Aunque existen diferentes técnicas de compresión disponibles, una de las más populares para usar con Athena es Apache Parquet o Apache ORC. Esta es una técnica que es útil para comprimir los datos con algoritmos predeterminados para bases de datos en columnas.

Racionalización de las condiciones JOIN dentro de las consultas
Al momento de consultar los datos en múltiples dimensiones, un elemento importante que se requiere es unir los datos de dos tablas para realizar el análisis. El proceso de unión parece simple, pero a veces puede ser complejo. Por lo tanto, siempre se recomienda mantener las tablas con datos grandes a la izquierda y datos menores a la derecha. Esta es la forma en que el motor de procesamiento de datos puede distribuir fácilmente la tabla más pequeña de la derecha a los nodos trabajadores mientras transmite los datos de la tabla de la izquierda y los une.

Uso de columnas seleccionadas en la consulta

Esta es otra técnica de optimización obligatoria que reduce en gran medida el tiempo y el dinero necesarios para ejecutar las consultas de Athena. Siempre se recomienda mencionar explícitamente el nombre de las columnas en las que alguien está realizando un análisis en la consulta de selección en lugar de especificar una selección del nombre de la tabla.

Optimizar la técnica de coincidencia de patrones en la consulta

Hay muchas ocasiones en las que se requiere consultar los datos en función de patrones en los datos en lugar de una palabra clave. En SQL, una de las formas fáciles de implementar esto es con el uso del operador LIKE, donde se puede mencionar el patrón y la consulta obtiene datos que nuevamente coinciden con el patrón. En Amazon Athena, se puede usar REGEX para hacer coincidir patrones en lugar del operador LIKE, ya que es mucho más rápido.

Conclusión

Con los datos convirtiéndose en una parte importante del desarrollo de una empresa, el proceso de obtener información y extraer más datos se ha vuelto aún más importante ahora. Con los servicios de nube pública, que ofrecen servicios de análisis basados en servicios como Amazon Athena, muchas empresas pueden obtener más información sin las complicaciones que pueden surgir con otras herramientas de análisis.

Como una de las mejores arquitecturas sin servidor, Amazon Athena hace que las consultas de datos sean fáciles de usar, configurar y ejecutar rápidamente. De hecho, el modelo de pago por uso de Athena hace que todo sea asequible para ejecutar análisis. Además, dado que Athena funciona con Amazon S3 y viene con gran escalabilidad, confiabilidad y durabilidad, esta es una de las mejores suites para ejecutar cargas de trabajo de análisis.

En caso de que necesite apoyo en la implementación y uso de Amazon Athena, no dude en ponerse en contacto con nuestros consultores de Encaptechno . Contamos con un equipo capacitado para ofrecerle un amplio soporte a lo largo de su viaje con Amazon Athena.

¿Qué es Amazon Athena y cómo funciona?

¿Qué es Amazon Athena?

¿Por qué debería usar Atenea?

Funcionamiento de AWS Athena

Modelo de precios

Reducción de costos

Características de Atenas

Implementación Rápida

sin servidor

Pago Por Consulta

Seguro

Disponible

Rápido

Integración

Consultas federadas

Aprendizaje automático

Técnicas de optimización para AWS Athena

Partición de los datos en S3

Técnicas de compresión de datos

Racionalización de las condiciones JOIN dentro de las consultas

Uso de columnas seleccionadas en la consulta

Optimizar la técnica de coincidencia de patrones en la consulta

Conclusión