Co to jest Amazon Athena i jak to działa?
Opublikowany: 2021-10-26Proces analizy danych ma dość złożony charakter i obejmuje wiele kroków upraszczających rzeczy, do których dostępnych jest wiele narzędzi. Amazon przychodzi na ratunek, udostępniając usługę o nazwie Amazon Athena, która pomaga w analizie danych.
Amazon Athena to bezserwerowe narzędzie analityczne, które umożliwia użytkownikom wysyłanie zapytań do danych z S3 przy użyciu standardowej składni SQL. Jako lider w świecie przetwarzania w chmurze, AWS oferuje szeroką gamę usług, które oferują konkurencyjną wydajność i niedrogie rozwiązania wykorzystywane do uruchamiania obciążeń w porównaniu z architekturą lokalną.
AWS Athena to usługa z domeny analitycznej, która koncentruje się na pobieraniu danych statycznych przechowywanych w zasobnikach S3 przy użyciu standardowych instrukcji SQL. Można go uznać za solidne narzędzie, które pomaga klientom uzyskać ważne informacje na temat ich danych przechowywanych w S3, ponieważ jest bezserwerowe i nie ma infrastruktury do zarządzania.
Czym jest Amazon Athena?
Amazon uruchomił Athenę jako ważną usługę 20 listopada 2016 r. Została uruchomiona jako bezserwerowa usługa zapytań, która miała uprościć analizę danych przy użyciu standardowego SQL przechowywanego w Amazon S3. Za pomocą kilku prostych kliknięć w AWS Management Console klienci mogą łatwo wskazać Amazon Athena swoje dane przechowywane w Amazon S3 podczas uruchamiania zapytań przy użyciu standardowego SQL w celu generowania wyników w ciągu kilku sekund.
Dzięki interaktywnej usłudze analitycznej Amazon Athena nie ma infrastruktury do konfiguracji lub zarządzania, a klienci płacą tylko za zapytania, które chcą uruchomić. Skaluje się automatycznie podczas równoległego wykonywania zapytań, co ostatecznie daje szybkie wyniki nawet przy ogromnym zbiorze danych i złożonych zapytaniach.
Athena korzysta z rozproszonego silnika SQL o nazwie Presto, który jest przydatny przy uruchamianiu zapytań SQL. Opiera się na popularnej technologii open source o nazwie Hive, która dodatkowo pomaga w przechowywaniu danych strukturalnych, nieustrukturyzowanych i częściowo ustrukturyzowanych. Oprogramowanie hurtowni danych Apache Hive ułatwia odczytywanie, zapisywanie i zarządzanie dużymi zestawami danych, które znajdują się w rozproszonej pamięci masowej za pomocą SQL.
Istnieje prosty potok danych, w którym dane z różnych źródeł są pobierane i zrzucane do zasobników S3. To są surowe dane, co oznacza, że nie zastosowano jeszcze żadnych przekształceń do danych. Obecnie Amazon Athena może być używany do łączenia się z tymi danymi w S3 podczas analizy. Jest to prosty proces, ponieważ nie trzeba konfigurować żadnej bazy danych ani narzędzi zewnętrznych, aby przeszukiwać surowe dane. Po zakończeniu analizy i znalezieniu pożądanych wyników, klaster EMR może być używany do przeprowadzania złożonych transformacji danych analitycznych, podczas gdy dane są czyszczone, przetwarzane i przechowywane.
Dlaczego warto używać Ateny?
Użytkownik Athena może wysyłać zapytania do zaszyfrowanych danych za pomocą kluczy zarządzanych przez usługę zarządzania kluczami AWS, a także szyfrować wyniki zapytania. W rzeczywistości Athena umożliwia także dostęp między kontami do zasobników S3 należących do innego użytkownika. Używa zarządzanych katalogów danych do przechowywania informacji i schematów związanych z wyszukiwaniem danych Amazon S3.
Podsumowując, interaktywna usługa zapytań jest w rzeczywistości narzędziem analitycznym, które pomaga organizacjom w szybkiej analizie ważnych danych przechowywanych w Amazon S3. Może być używany do przetwarzania nieustrukturyzowanych, ustrukturyzowanych i częściowo ustrukturyzowanych zestawów danych. Za pomocą Ateny możliwe jest tworzenie dynamicznych zapytań dla zbiorów danych. Współpracuje z klejem AWS, zapewniając znacznie lepszy sposób przechowywania metadanych w S3.
Korzystając z AWS Cloud Formation i Athena, możesz używać nazwanych zapytań, które umożliwiają nazwanie określonego zapytania, a następnie wywołanie go za pomocą nazwy. Jest to interaktywna usługa AWS, z której mogą korzystać naukowcy zajmujący się danymi i programiści, aby zajrzeć do tabeli uruchamiania zapytania. Pomaga w pobieraniu danych z S3 i ładowaniu ich do różnych magazynów danych za pomocą sterownika Athena JDBC w celu analizy dzienników i zdarzeń hurtowni danych.
Praca AWS Atena
Amazon Athena działa w bezpośrednim związku z danymi S3. Jest używany jako rozproszony silnik SQL do uruchamiania zapytań, a także używa Apache Hive do tworzenia i modyfikowania tabel i partycji. Niektóre z ważnych punktów widzenia potrzebnych do pracy z Atheną obejmują:
- Musisz mieć konto AWS
- Włącz na swoim koncie eksport danych o kosztach i wykorzystaniu do zasobnika S3.
- Możesz przygotować wiadra, aby Atena mogła się połączyć.
- AWS tworzy również pliki manifestu z wykorzystaniem metadanych przy każdym zapisie do zasobnika. W rzeczywistości tworzy folder w zasobniku danych rozliczeniowych AWS technologii znany jako Athena, który zawiera tylko dane.
- W celu uproszczenia konfiguracji można również użyć regionu zwanego regionem US-West-2.
- Ostatnim i ostatnim krokiem jest pobranie poświadczeń dla nowego użytkownika, ponieważ poświadczenia pomagają pośrednio mapować poświadczenia bazy danych.
Amazon oferuje również narzędzie o nazwie Cost Explorer do przeciągania i upuszczania, które zawiera zestaw gotowych raportów, takich jak miesięczny koszt usługi, wykorzystanie instancji zarezerwowanych itp. Jeśli jesteś ciekawy, powinieneś spróbować odtworzyć zapytanie nad usługą koszty i eksploatacja. W rzeczywistości nie jest to niemożliwe. Możesz podzielić surowe dane podczas obliczania tempa wzrostu, budowania histogramów, obliczania wyników itp.
Niektóre z dodatkowych kwestii, o których należy pamiętać podczas pracy z Amazon Athena, obejmują:
Model wyceny
Cena Atheny wynosi ponad 5 USD za skanowanie danych terabajtowych z S3 w otoczeniu do najbliższego megabajta z minimum 10 MB na zapytanie.
Zmniejszenie kosztów
Sztuczka polega na zmniejszeniu skanowanych danych na trzy sposoby, nazywane kompresowaniem danych, używaniem danych kolumnowych i partycjonowaniem danych.
Cechy Ateny
Spośród wielu usług świadczonych przez Amazon, Athena jest jedną z najlepszych. Posiada wiele funkcji, które sprawiają, że nadaje się do analizy danych. Niektóre z funkcji obejmują:
Szybka realizacja
Amazon Athena nie wymaga instalacji. W rzeczywistości można uzyskać do niego bezpośredni dostęp z konsoli AWS tylko za pomocą AWS CLI.
Bezserwerowe
Jest bezserwerowy, dzięki czemu użytkownik końcowy nie musi martwić się konfiguracją, infrastrukturą, skalowaniem lub awarią. Athena łatwo o to wszystko zadba.
Zapłać za zapytanie
Athena nalicza opłatę tylko za uruchomione zapytanie, czyli ilość danych, które są zarządzane przez zapytanie. W rzeczywistości możesz dużo zaoszczędzić, jeśli skompresujesz dane i odpowiednio je sformatujesz.
Bezpieczne
Korzystając z zasad IAM i tożsamości AWS, Amazon Athena oferuje pełną kontrolę nad zbiorem danych. Dzięki przechowywaniu danych w zasobnikach S3 zasady uprawnień mogą pomóc w zarządzaniu kontrolą użytkowników.
Do dyspozycji
Amazon Athena jest wysoce dostępna, a użytkownicy mogą wykonywać zapytania przez całą dobę.
Szybki
Amazon Athena to szybkie narzędzie analityczne, ponieważ może wykonywać złożone zapytania w krótszym czasie, dzieląc zapytania na proste i uruchamiając je równolegle oraz łącząc wyniki w celu uzyskania pożądanych wyników.
Integracja
Jedną z najlepszych cech Atheny jest to, że można ją łatwo zintegrować z AWS Glue, co pomaga użytkownikom tworzyć ujednolicone repozytorium danych. Pomaga to również w tworzeniu znacznie lepszego wersjonowania danych, z lepszymi tabelami, widokami itp.
Zapytania federacyjne
Zapytanie federacyjne Amazon Athena umożliwia Athenie uruchamianie zapytań SQL w relacyjnych, obiektowych, nierelacyjnych i niestandardowych źródłach danych.
Nauczanie maszynowe
Programiści mogą używać Amazon Sage Maker do tworzenia i wdrażania modeli uczenia maszynowego w Amazon Athena.
Techniki optymalizacji dla AWS Athena
Pracując z usługami w chmurze należy zadbać o te usługi, które są wykorzystywane przy jak najmniejszych zasobach oraz takie, które oferują najlepszy efekt w sposób oszczędny. Istnieje wiele środków, które można podjąć w celu optymalizacji zapytań w AWS Athena, aby zwiększyć ogólną wydajność i utrzymać koszty w ryzach. Niektóre z typowych technik optymalizacji interaktywnej usługi analitycznej Amazon Athena to:
Partycjonowanie danych w S3
Jedną z najczęstszych praktyk stosowanych do przechowywania danych w S3 jest partycjonowanie w celu utworzenia oddzielnych katalogów na podstawie głównych wymiarów, takich jak wymiar daty i wymiar regionu. Może być używany do partycjonowania według roku, miesiąca, a nawet dnia do przechowywania plików w katalogu każdego dnia. Z drugiej strony można również podzielić według regionu, w którym dane mogą być przechowywane dla podobnych regionów w jednym katalogu. Dzięki partycjonowaniu Athena może skanować mniej danych na jedno zapytanie, co sprawia, że cała praca jest szybka i efektywna.
Techniki kompresji danych
Podczas kompresji danych procesor jest potrzebny do kompresji i dekompresji podczas wykonywania zapytań. Mimo że dostępne są różne techniki kompresji, jedną z najpopularniejszych stosowanych w Athenie jest Apache Parquet lub Apache ORC. Jest to technika pomocna w kompresowaniu danych z domyślnymi algorytmami dla kolumnowych baz danych.
Usprawnienie warunków JOIN w zapytaniach
W momencie wykonywania zapytań o dane w wielu wymiarach, ważną rzeczą wymaganą do przeprowadzenia analizy jest połączenie danych z dwóch tabel. Proces łączenia wygląda na prosty, ale czasami może być bardzo złożony. Dlatego zawsze zaleca się trzymanie tabel z dużymi danymi po lewej stronie i mniejszymi danymi po prawej stronie. Jest to sposób, w jaki silnik przetwarzania danych może łatwo dystrybuować mniejszą tabelę po prawej stronie do węzłów roboczych, jednocześnie przesyłając strumieniowo dane z tabeli po lewej stronie i łącząc obie.
Korzystanie z wybranych kolumn w zapytaniu
Jest to kolejna obowiązkowa technika optymalizacji, która znacznie skraca czas i pieniądze potrzebne do uruchomienia zapytań Athena. Zawsze zaleca się, aby wyraźnie podać nazwy kolumn, na których ktoś przeprowadza analizę w zapytaniu wybierającym, w przeciwieństwie do określenia wyboru z nazwy tabeli.
Zoptymalizuj technikę dopasowywania wzorców w zapytaniu
Często zdarza się, że wymagane jest zapytanie o dane na podstawie wzorców danych, a nie słowa kluczowego. W SQL jednym z łatwych sposobów na zaimplementowanie tego jest użycie operatora LIKE, w którym można wymienić wzorzec, a zapytanie pobiera dane, które ponownie pasują do wzorca. W Amazon Athena można użyć REGEX do dopasowywania wzorców zamiast operatora LIKE, ponieważ jest to znacznie szybsze.
Wniosek
Ponieważ dane stają się ważną częścią rozwoju firmy, proces uzyskiwania wglądu i wydobywania większej ilości danych stał się teraz jeszcze ważniejszy. Dzięki usługom w chmurze publicznej, oferującym usługi analityczne oparte na usługach, takie jak Amazon Athena, wiele firm może uzyskać więcej informacji bez komplikacji, które mogą wymyślić inne narzędzia analityczne.
Jako jedna z najlepszych architektur bezserwerowych, Amazon Athena sprawia, że zapytania o dane są łatwe w użyciu, konfigurowane i szybkie w obsłudze. W rzeczywistości model Athena pay-per-use sprawia, że całość jest przystępna do prowadzenia analiz. Co więcej, ponieważ Athena współpracuje z Amazon S3 i zapewnia doskonałą skalowalność, niezawodność i trwałość, jest to jeden z najlepszych pakietów do uruchamiania obciążeń analitycznych.
Jeśli potrzebujesz wsparcia we wdrożeniu i korzystaniu z Amazon Athena, skontaktuj się z naszymi konsultantami Encaptechno . Mamy wyszkolony zespół, który oferuje szerokie wsparcie podczas całej podróży z Amazon Athena.