O que é o Amazon Athena e como ele funciona?
Publicados: 2021-10-26O processo de análise de dados é um tanto complexo por natureza e inclui várias etapas para simplificar as coisas para as quais muitas ferramentas estão disponíveis. A Amazon vem em socorro fornecendo um serviço com o nome de Amazon Athena que ajuda na análise de dados.
O Amazon Athena é uma ferramenta de análise sem servidor que permite que os usuários consultem os dados do S3 usando a sintaxe SQL padrão. Como líder no mundo da computação em nuvem, a AWS oferece uma ampla variedade de serviços que oferecem desempenho competitivo e soluções acessíveis usadas para executar cargas de trabalho em comparação com a arquitetura local.
O AWS Athena é um serviço do domínio de análise que se concentra na recuperação de dados estáticos armazenados em buckets do S3 usando as instruções SQL padrão. Ele pode ser considerado uma ferramenta robusta que ajuda os clientes a obter insights importantes sobre seus dados armazenados no S3, pois é serverless e não há infraestrutura para gerenciamento.
O que é Amazon Athena?
A Amazon lançou o Athena como um serviço importante em 20 de novembro de 2016. Ele foi lançado como um serviço de consulta sem servidor que visava simplificar a análise de dados, usando o SQL padrão armazenado no Amazon S3. Com apenas alguns cliques no Console de gerenciamento da AWS, os clientes podem apontar facilmente o Amazon Athena para seus dados armazenados no Amazon S3 enquanto executam consultas usando SQL padrão para gerar resultados em segundos.
Com o serviço de análise interativa do Amazon Athena, não há infraestrutura para configurar ou gerenciar e os clientes pagam apenas pelas consultas que desejam executar. Ele é dimensionado automaticamente durante a execução de consultas em paralelo, o que eventualmente fornece resultados rápidos, mesmo com um grande conjunto de dados e consultas complexas.
O Athena usa um mecanismo SQL distribuído chamado Presto, que é útil na execução de consultas SQL. Ele é baseado na popular tecnologia de código aberto chamada Hive, que ajuda ainda mais no armazenamento de dados estruturados, não estruturados e semiestruturados. O software de data warehouse Apache Hive facilita a leitura, gravação e gerenciamento de grandes conjuntos de dados que residem no armazenamento distribuído usando SQL.
Há um pipeline de dados simples no qual dados de diferentes fontes são buscados e despejados nos buckets do S3. Esses são dados brutos, o que significa que ainda não há transformações aplicadas aos dados. Neste momento, o Amazon Athena pode ser usado para se conectar a esses dados no S3 durante a análise. Este é um processo simples porque você não precisa configurar nenhum banco de dados ou ferramentas externas para consultar os dados brutos. Depois de concluir a análise e descobrir os resultados desejados, um cluster do EMR pode ser usado para executar as complexas transformações de dados analíticos enquanto os dados são limpos, processados e armazenados.
Por que você deve usar Athena?
Um usuário do Athena pode consultar os dados criptografados com chaves gerenciadas pelo serviço de gerenciamento de chaves da AWS e também criptografar os resultados da consulta. Na verdade, o Athena também permite acesso entre contas a buckets do S3 pertencentes a outro usuário. Ele usa catálogos de dados gerenciados para armazenar informações e esquemas relacionados a pesquisas em dados do Amazon S3.
Em suma, o serviço de consulta interativa é, na verdade, uma ferramenta analítica que ajuda as organizações a analisar rapidamente dados importantes armazenados no Amazon S3. Ele pode ser usado no processamento de conjuntos de dados não estruturados, estruturados e semiestruturados. Com o uso do Athena, é possível criar consultas dinâmicas para conjuntos de dados. Ele funciona com o AWS Glue para oferecer uma maneira muito melhor de armazenar metadados no S3.
Usando o AWS Cloud Formation e o Athena, você pode usar consultas nomeadas que permitem nomear uma consulta específica e também chamá-la usando o nome. Este é um serviço interativo da AWS que pode ser usado por cientistas de dados e desenvolvedores para dar uma olhada na tabela de execução da consulta. Ele ajuda na busca de dados do S3 e os carrega em diferentes datastores usando o driver Athena JDBC para a análise do armazenamento de logs e eventos de Data Warehousing.
Funcionamento do AWS Athena
O Amazon Athena trabalha em associação direta com os dados do S3. Ele é usado como um mecanismo SQL distribuído para executar as consultas e também usa o Apache Hive para criar e alterar tabelas e partições. Alguns dos pontos de vista importantes necessários para trabalhar com Athena incluem:
- Você deve ter uma conta AWS
- Você deve habilitar sua conta para exportar os dados de custo e uso para o bucket do S3.
- Você pode preparar baldes para o Athena se conectar.
- A AWS também cria arquivos de manifesto com o uso de metadados sempre que grava no bucket. Na verdade, ele cria uma pasta no bucket de dados de faturamento da AWS de tecnologia, conhecido como Athena, que contém apenas os dados.
- Para simplificar a configuração, uma região chamada região US-West-2 também pode ser usada.
- A última e última etapa é baixar as credenciais para o novo usuário porque as credenciais ajudam a mapear indiretamente para as credenciais do banco de dados.
A Amazon também oferece uma ferramenta chamada Explorador de Custos para arrastar e soltar que vem com um conjunto de relatórios pré-construídos, como custo de serviço mensal, uso de instância reservada, etc. Caso você esteja curioso, tente recriar a consulta acima do serviço custos e operação. Isso de fato não é impossível. Você pode fatiar os dados brutos enquanto calcula as taxas de crescimento de cada um, construindo histogramas, computando pontuações, etc.
Algumas das considerações adicionais a serem observadas ao trabalhar com o Amazon Athena incluem:
Modelo de preços
O preço do Athena é superior a US$ 5 para escanear dados de Terabyte do S3 cercados até o megabyte mais próximo com um mínimo de 10 MB por consulta.
Redução de custo
O truque é reduzir os dados verificados de três maneiras chamadas compactar dados, usar dados colunares e particionar os dados.
Características de Atena
Dos muitos serviços prestados pela Amazon, o Athena é um dos melhores serviços. Possui vários recursos que o tornam adequado para Análise de Dados. Algumas das características incluem:
Implementação Rápida
O Amazon Athena não precisa de instalação. Na verdade, ele pode ser acessado diretamente do Console AWS apenas usando a AWS CLI.
Sem servidor
É sem servidor para que o usuário final não precise se preocupar com configuração, infraestrutura, dimensionamento ou falha. Athena cuida de tudo facilmente.
Pagamento por consulta
O Athena cobra apenas pela consulta executada, que é a quantidade de dados gerenciados por consulta. Você pode economizar muito se compactar os dados e formatá-los de acordo.
Seguro
Usando as políticas do IAM e a identidade da AWS, o Amazon Athena oferece controle total sobre o conjunto de dados. Com os dados armazenados em buckets do S3, as políticas do IAM podem ajudar no gerenciamento do controle para os usuários.
Disponível
O Amazon Athena é altamente disponível e os usuários podem executar consultas 24 horas por dia.
Rápido
O Amazon Athena é uma ferramenta de análise rápida porque pode realizar consultas complexas em menos tempo, dividindo as consultas em consultas simples e executando-as paralelamente e combinando os resultados para oferecer a saída desejada.
Integração
Um dos melhores recursos do Athena é que ele pode ser facilmente integrado ao AWS Glue, o que ajuda os usuários a criar um repositório de dados unificado. Isso também ajuda na criação de versões de dados muito melhores, com melhores tabelas, visualizações, etc.
Consultas federadas
A consulta federada do Amazon Athena permite que o Athena execute consultas SQL em todas as fontes de dados relacionais, de objeto, não relacionais e personalizadas.
Aprendizado de máquina
Os desenvolvedores podem usar o Amazon Sage Maker para criar e implantar os modelos de machine learning no Amazon Athena.
Técnicas de otimização para AWS Athena
Ao trabalhar com serviços em nuvem, é preciso cuidar dos serviços que são utilizados com o mínimo de recursos possível e daqueles que oferecem o melhor resultado de forma econômica. Há muitas medidas que podem ser tomadas para otimizar consultas no AWS Athena para que o desempenho geral possa ser aprimorado e o custo também possa ser controlado. Algumas das técnicas de otimização comuns para o serviço de análise interativa do Amazon Athena são:
Particionando os dados no S3
Uma das práticas mais comuns seguidas para armazenar dados no S3, o particionamento é feito para criar diretórios separados com base em dimensões principais, como dimensão de data e dimensão de região. Ele pode ser usado para particionar por ano, mês e até dia para armazenar arquivos no diretório de cada dia. Por outro lado, você também pode particionar pela região onde os dados podem ser armazenados para regiões semelhantes em um diretório. Com o particionamento, o Athena consegue escanear menos dados por consulta, o que torna todo o trabalho rápido e eficaz.
Técnicas de compactação de dados
Ao compactar os dados, uma CPU é necessária para compactar e descompactar durante a consulta. Embora existam diferentes técnicas de compactação disponíveis, uma das mais populares para usar com o Athena é o Apache Parquet ou o Apache ORC. Essa é uma técnica útil para compactar os dados com algoritmos padrão para bancos de dados colunares.
Simplificando as condições de JOIN nas consultas
Na hora de consultar os dados em várias dimensões, é necessário juntar os dados de duas tabelas para realizar a análise. O processo de adesão parece simples, mas às vezes pode ser muito complexo. Por isso, é sempre recomendável manter as tabelas com dados grandes à esquerda e dados menores à direita. Essa é a maneira pela qual o mecanismo de processamento de dados pode distribuir facilmente a tabela menor à direita para os nós do trabalhador enquanto transmite os dados da tabela à esquerda e junta as duas.
Usando colunas selecionadas na consulta
Essa é mais uma técnica de otimização obrigatória que reduz consideravelmente o tempo e o dinheiro necessários para executar as consultas do Athena. É sempre aconselhável mencionar explicitamente o nome das colunas nas quais alguém está realizando a análise na consulta de seleção em comparação com a especificação de uma seleção do nome da tabela.
Otimizar a técnica de correspondência de padrões na consulta
Muitas vezes, é necessário consultar os dados com base em padrões nos dados, em oposição a uma palavra-chave. Em SQL, uma das maneiras fáceis de implementar isso é com o uso do operador LIKE onde se pode mencionar o padrão e a consulta busca dados que novamente correspondem ao padrão. No Amazon Athena, pode-se usar REGEX para correspondência de padrões em vez do operador LIKE, pois é muito mais rápido.
Conclusão
Com os dados se tornando uma parte importante do desenvolvimento de uma empresa, o processo de obter insights e extrair mais dados tornou-se ainda mais importante agora. Com os serviços de nuvem pública, oferecendo serviços de análise baseados em serviços, como o Amazon Athena, muitas empresas podem obter mais insights sem complicações que podem surgir com outras ferramentas de análise.
Como uma das melhores arquiteturas sem servidor, o Amazon Athena torna as consultas de dados fáceis de usar, configurar e rápidas de executar. Na verdade, o modelo de pagamento por uso do Athena torna tudo acessível para executar análises. Além disso, como o Athena funciona com o Amazon S3 e vem com grande escalabilidade, confiabilidade e durabilidade, esse é um dos melhores conjuntos para executar cargas de trabalho de análise.
Caso você precise de algum suporte na implementação e uso do Amazon Athena, sinta-se à vontade para entrar em contato com nossos consultores da Encaptechno . Temos uma equipe treinada para oferecer suporte abrangente durante toda a sua jornada com o Amazon Athena.