Cos'è Amazon Athena e come funziona?

Pubblicato: 2021-10-26

Cos'è Amazon Athena e come funziona? | Encaptechno

Il processo di analisi dei dati è di natura alquanto complessa e include più passaggi per semplificare le cose per le quali sono disponibili molti strumenti. Amazon viene in soccorso fornendo un servizio con il nome di Amazon Athena che aiuta nell'analisi dei dati.

Amazon Athena è uno strumento di analisi serverless che consente agli utenti di eseguire query sui dati da S3 utilizzando la sintassi SQL standard. In qualità di leader nel mondo del cloud computing, AWS offre un'ampia gamma di servizi che offrono prestazioni competitive e soluzioni convenienti utilizzate per l'esecuzione di carichi di lavoro rispetto all'architettura on-premise.

AWS Athena è un servizio dal dominio di analisi che si concentra sul recupero di dati statici archiviati nei bucket S3 utilizzando le istruzioni SQL standard. Può essere considerato uno strumento affidabile che aiuta i clienti a ottenere informazioni importanti sui propri dati archiviati su S3 perché è serverless e non esiste un'infrastruttura per la gestione.

Cos'è Amazon Atena?

Amazon ha lanciato Athena come servizio importante il 20 novembre 2016. È stato lanciato come servizio di query serverless pensato per eseguire un'analisi dei dati, utilizzando l'SQL standard archiviato in Amazon S3 in modo più semplice. Con pochi semplici clic nella Console di gestione AWS, i clienti possono facilmente indirizzare Amazon Athena ai propri dati archiviati in Amazon S3 mentre eseguono query utilizzando SQL standard per generare risultati in pochi secondi.

Con il servizio di analisi interattiva di Amazon Athena, non esiste un'infrastruttura per la configurazione o la gestione e i clienti pagano solo per le query che desiderano eseguire. Si ridimensiona automaticamente durante l'esecuzione di query in parallelo, il che alla fine fornisce risultati rapidi anche con un enorme set di dati e query complesse.

Athena utilizza un motore SQL distribuito chiamato Presto che è utile per eseguire le query SQL. Si basa sulla popolare tecnologia open source chiamata Hive che aiuta ulteriormente a memorizzare dati strutturati, non strutturati e semi-strutturati. Il software di data warehouse Apache Hive facilita la lettura, la scrittura e la gestione di grandi set di dati che risiedono nello storage distribuito utilizzando SQL.

Esiste una semplice pipeline di dati in cui i dati provenienti da diverse origini vengono recuperati e scaricati nei bucket S3. Si tratta di dati grezzi, il che significa che non sono ancora state applicate trasformazioni ai dati. Al momento, Amazon Athena può essere utilizzato per la connessione a questi dati in S3 durante l'analisi. Questo è un processo semplice perché non è necessario configurare alcun database o strumenti esterni per interrogare i dati grezzi. Dopo aver terminato l'analisi e aver trovato i risultati desiderati, è possibile utilizzare un cluster EMR per eseguire le complesse trasformazioni dei dati analitici mentre i dati vengono puliti, elaborati e archiviati.

Perché dovresti usare Atena?

Perché dovresti usare Amazon Athena?

Un utente Athena può eseguire query sui dati crittografati con chiavi gestite dal servizio di gestione delle chiavi AWS e crittografare anche i risultati della query. In effetti, Athena consente anche l'accesso su più account ai bucket S3 di proprietà di un altro utente. Utilizza cataloghi di dati gestiti per archiviare informazioni e schemi relativi alle ricerche sui dati di Amazon S3.

Tutto sommato, il servizio di query interattivo è in realtà uno strumento analitico che aiuta le organizzazioni ad analizzare rapidamente i dati importanti archiviati in Amazon S3. Può essere utilizzato nell'elaborazione di set di dati non strutturati, strutturati e semi strutturati. Con l'uso di Athena, è possibile creare query dinamiche per set di dati. Funziona con AWS Glue per offrirti un modo molto migliore per archiviare i metadati in S3.

Utilizzando AWS Cloud Formation e Athena, puoi utilizzare query denominate che ti consentono di assegnare un nome a una query specifica e quindi anche chiamarla utilizzando il nome. Si tratta di un servizio interattivo di AWS che può essere utilizzato da data scientist e sviluppatori per dare un'occhiata alla tabella di esecuzione della query. Aiuta a recuperare i dati da S3 e li carica in diversi datastore utilizzando il driver Athena JDBC per l'analisi del log store e gli eventi di Data Warehousing.

Funzionamento di AWS Athena

Amazon Athena lavora in associazione diretta con i dati S3. Viene utilizzato come motore SQL distribuito per eseguire le query e utilizza anche Apache Hive per creare e modificare tabelle e partizioni. Alcuni dei punti di vista importanti necessari per lavorare con Athena includono:

  1. Devi disporre di un account AWS
  2. Dovresti abilitare il tuo account per esportare i dati sui costi e sull'utilizzo nel bucket S3.
  3. Puoi preparare i bucket per la connessione di Athena.
  4. AWS crea anche file manifest con l'uso di metadati ogni volta che scrive nel bucket. Infatti, crea una cartella all'interno del bucket di dati di fatturazione AWS della tecnologia nota come Athena che contiene solo i dati.
  5. Per semplificare la configurazione, è possibile utilizzare anche una regione denominata regione US-West-2.
  6. L'ultimo e ultimo passaggio consiste nel scaricare le credenziali per il nuovo utente perché le credenziali aiutano a mappare indirettamente le credenziali del database.

Amazon offre anche uno strumento chiamato Cost Explorer per il trascinamento della selezione che viene fornito con una serie di report predefiniti come il costo del servizio mensile, l'utilizzo dell'istanza riservata, ecc. Nel caso in cui tu sia curioso, dovresti provare a ricreare la query sopra il servizio costi e funzionamento. Questo infatti non è impossibile. Puoi dividere i dati grezzi mentre calcoli i tassi di crescita ciascuno, costruendo istogrammi, calcolando i punteggi, ecc.

Alcune delle considerazioni aggiuntive da tenere presenti durante l'utilizzo di Amazon Athena includono:

Modello di prezzo

Il prezzo di Athena è di oltre $ 5 per la scansione di dati terabyte da S3 circondati dal megabyte più vicino con un minimo di 10 MB per query.

Riduzione dei costi

Il trucco è ridurre i dati che vengono scansionati in tre modi chiamati compressione dei dati, utilizzo di dati a colonne e partizionamento dei dati.

Caratteristiche di Atena

Tra i tanti servizi forniti da Amazon, Athena è uno dei migliori servizi. Ha molteplici caratteristiche che lo rendono adatto per l'analisi dei dati. Alcune delle caratteristiche includono:

  • Implementazione rapida

Amazon Athena non necessita di installazione. In realtà è possibile accedervi direttamente dalla Console AWS solo utilizzando l'AWS CLI.

  • Senza server

È serverless in modo che l'utente finale non debba preoccuparsi di configurazione, infrastruttura, ridimensionamento o guasti. Atena si prende cura di tutto facilmente.

  • Paga per richiesta

Athena ti addebita solo per la query che esegui, che è la quantità di dati che viene gestita per query. Puoi effettivamente risparmiare molto se comprimi i dati e li formatti di conseguenza.

  • Sicuro

Utilizzando le policy IAM e l'identità AWS, Amazon Athena offre il controllo completo sul set di dati. Con i dati archiviati nei bucket S3, le policy IAM possono aiutare a gestire il controllo per gli utenti.

  • A disposizione

Amazon Athena è altamente disponibile e gli utenti possono eseguire query 24 ore su 24.

  • Presto

Amazon Athena è uno strumento di analisi rapida perché può eseguire query complesse in meno tempo suddividendo le query in query semplici ed eseguendole parallelamente e combinando i risultati per offrire l'output desiderato.

  • Integrazione

Una delle migliori caratteristiche di Athena è che può essere facilmente integrato con AWS Glue che aiuta gli utenti a creare un repository di dati unificato. Questo aiuta anche a creare versioni dei dati molto migliori, con tabelle, viste, ecc.

  • Query federate

La query federata di Amazon Athena consente ad Athena di eseguire query SQL su tutte le origini dati relazionali, a oggetti, non relazionali e personalizzate.

  • Apprendimento automatico

Gli sviluppatori possono utilizzare Amazon Sage Maker per creare e distribuire i modelli di machine learning in Amazon Athena.

Ottimizzazione delle tecniche per AWS Athena

Ottimizzazione delle tecniche per AWS Athena

Mentre si lavora con i servizi cloud, è necessario prendersi cura dei servizi che vengono utilizzati per il minor numero di risorse possibili e di quelli che offrono il miglior risultato in modo conveniente. Ci sono molte misure che possono essere adottate per ottimizzare le query all'interno di AWS Athena in modo che le prestazioni complessive possano essere migliorate e anche i costi possano essere tenuti sotto controllo. Alcune delle tecniche di ottimizzazione comuni per il servizio di analisi interattiva di Amazon Athena sono:

  • Partizionamento dei dati in S3

    Una delle pratiche più comuni seguite per l'archiviazione dei dati in S3, il partizionamento viene eseguito per la creazione di directory separate in base alle dimensioni principali come la dimensione della data e la dimensione della regione. Può essere utilizzato per partizionare in base all'anno, al mese e persino al giorno per archiviare i file nella directory di ogni giorno. D'altra parte, puoi anche partizionare per regione in cui i dati possono essere archiviati per regioni simili in una directory. Con il partizionamento, Athena è in grado di scansionare un minor numero di dati per query, il che rende l'intero lavoro rapido ed efficace.

  • Tecniche di compressione dei dati

    Durante la compressione dei dati, è necessaria una CPU per comprimere e decomprimere durante l'esecuzione delle query. Anche se sono disponibili diverse tecniche di compressione, una delle più popolari da utilizzare con Athena è Apache Parquet o Apache ORC. Questa è una tecnica utile per comprimere i dati con algoritmi predefiniti per i database colonnari.

  • Semplificazione delle condizioni JOIN all'interno delle query

    Al momento dell'interrogazione dei dati su più dimensioni, è importante unire i dati di due tabelle per eseguire l'analisi. Il processo di unione sembra semplice, ma a volte può essere molto complesso. Pertanto, si consiglia sempre di mantenere le tabelle con dati grandi a sinistra e dati minori a destra. Questo è il modo in cui il motore di elaborazione dati può distribuire facilmente la tabella più piccola a destra ai nodi di lavoro mentre trasmette i dati dalla tabella di sinistra e unisce i due.

Utilizzo delle colonne selezionate nella query

Questa è un'altra tecnica di ottimizzazione obbligatoria che riduce notevolmente il tempo e il denaro necessari per eseguire le query di Athena. Si consiglia sempre di menzionare esplicitamente il nome delle colonne su cui qualcuno sta eseguendo l'analisi nella query di selezione rispetto a specificare una selezione dal nome della tabella.

Ottimizza la tecnica di corrispondenza dei modelli nella query

Ci sono molte volte in cui è necessario interrogare i dati in base a modelli nei dati anziché a una parola chiave. In SQL, uno dei modi più semplici per implementarlo è con l'uso dell'operatore LIKE in cui è possibile menzionare il modello e la query recupera i dati che corrispondono nuovamente al modello. In Amazon Athena, è possibile utilizzare REGEX per abbinare i modelli invece dell'operatore LIKE in quanto è molto più veloce.

Conclusione

Con i dati che stanno diventando una parte importante dello sviluppo di un'azienda, il processo di acquisizione di informazioni ed estrazione di più dati è diventato ancora più importante ora. Con i servizi cloud pubblici, che offrono servizi di analisi basati sui servizi come Amazon Athena, molte aziende possono ottenere più approfondimenti senza complicazioni che potrebbero derivare da altri strumenti di analisi.

Essendo una delle migliori architetture serverless, Amazon Athena rende le query di dati facili da usare, configurare e veloci da eseguire. In effetti, il modello pay-per-use di Athena rende l'intera operazione accessibile per eseguire analisi. Inoltre, poiché Athena funziona con Amazon S3 e offre grande scalabilità, affidabilità e durata, questa è una delle migliori suite per eseguire carichi di lavoro di analisi.

Nel caso avessi bisogno di supporto nell'implementazione e nell'uso di Amazon Athena, sentiti libero di metterti in contatto con i nostri consulenti di Encaptechno . Abbiamo un team qualificato per offrirti un supporto completo durante tutto il tuo viaggio con Amazon Athena.