Amazon Athena Nedir ve Nasıl Çalışır?
Yayınlanan: 2021-10-26Verileri analiz etme süreci, doğası gereği biraz karmaşıktır ve birçok aracın mevcut olduğu şeyleri basitleştirmek için birden fazla adım içerir. Amazon, verileri analiz etmeye yardımcı olan Amazon Athena adında bir hizmet sağlayarak kurtarmaya gelir.
Amazon Athena, kullanıcıların standart SQL sözdizimini kullanarak S3'teki verileri sorgulamasına olanak tanıyan sunucusuz bir analiz aracıdır . Bulut bilişim dünyasında lider olan AWS, şirket içi mimariye kıyasla iş yüklerini çalıştırmak için kullanılan rekabetçi performans ve uygun maliyetli çözümler sunan çok çeşitli hizmetler sunar.
AWS Athena, standart SQL deyimlerini kullanarak S3 klasörlerinde depolanan statik verilerin alınmasına odaklanan analitik etki alanından bir hizmettir. Sunucusuz olması ve yönetim için herhangi bir altyapı olmaması nedeniyle müşterilerin S3'te depolanan verileri hakkında önemli öngörüler elde etmelerine yardımcı olan sağlam bir araç olarak kabul edilebilir.
Amazon Athena nedir?
Amazon, 20 Kasım 2016'da Athena'yı önemli bir hizmet olarak başlattı. Amazon S3'te depolanan standart SQL'i kullanarak verilerin analizini daha basit hale getirmeyi amaçlayan sunucusuz bir sorgu hizmeti olarak piyasaya sürüldü. Müşteriler, AWS Management Console'da yalnızca birkaç basit tıklamayla, saniyeler içinde sonuç üretmek için standart SQL kullanarak sorgular çalıştırırken Amazon S3'te depolanan verilerine kolayca Amazon Athena'yı yönlendirebilir.
Amazon Athena'nın etkileşimli analitik hizmeti ile kurulum veya yönetim için herhangi bir altyapı yoktur ve müşteriler yalnızca çalıştırmak istedikleri sorgular için ödeme yapar. Sorguları paralel olarak yürütürken otomatik olarak ölçeklenir, bu da sonunda büyük bir veri kümesi ve karmaşık sorgularda bile hızlı sonuçlar verir.
Athena, SQL sorgularını çalıştırmada yararlı olan Presto adlı dağıtılmış bir SQL motoru kullanır. Yapılandırılmış, yapılandırılmamış ve yarı yapılandırılmış verilerin depolanmasına yardımcı olan Hive adlı popüler açık kaynak teknolojisine dayanmaktadır. Apache Hive veri ambarı yazılımı, SQL kullanarak dağıtılmış depolamada bulunan büyük veri kümelerinin okunmasını, yazılmasını ve yönetilmesini kolaylaştırır.
Farklı kaynaklardan gelen verilerin getirildiği ve S3 kovalarına döküldüğü basit bir veri hattı vardır. Bu ham verilerdir, yani verilere henüz uygulanan dönüşüm yoktur. Şu anda Amazon Athena, analiz edilirken S3'te bu verilere bağlanmak için kullanılabilir. Bu basit bir işlemdir çünkü ham verileri sorgulamak için herhangi bir veritabanı veya harici araç kurmanıza gerek yoktur. Analizi tamamladıktan ve istenen sonuçları bulduktan sonra, veriler temizlenirken, işlenirken ve saklanırken karmaşık analitik veri dönüşümlerini çalıştırmak için bir EMR kümesi kullanılabilir.
Athena'yı Neden Kullanmalısınız?
Bir Athena kullanıcısı, AWS anahtar yönetimi hizmeti tarafından yönetilen anahtarlarla şifrelenmiş verileri sorgulayabilir ve ayrıca sorgu sonuçlarını şifreleyebilir. Aslında Athena, başka bir kullanıcının sahip olduğu S3 klasörlerine hesaplar arası erişime de izin verir. Amazon S3 verilerindeki aramalarla ilgili bilgileri ve şemaları depolamak için yönetilen veri kataloglarını kullanır.
Sonuç olarak, etkileşimli sorgu hizmeti aslında kuruluşların Amazon S3'te depolanan önemli verileri hızla analiz etmesine yardımcı olan bir analitik araçtır. Yapılandırılmamış, yapılandırılmış ve yarı yapılandırılmış veri kümelerinin işlenmesinde kullanılabilir. Athena kullanımı ile veri kümeleri için dinamik sorgular oluşturmak mümkündür. Size meta verileri S3'te depolamak için çok daha iyi bir yol sağlamak için AWS Glue ile birlikte çalışır.
AWS Cloud Formation ve Athena'yı kullanarak belirli bir sorguyu adlandırmanızı ve ardından bu sorguyu bu adla çağırmanızı sağlayan adlandırılmış sorguları kullanabilirsiniz. Bu, AWS'nin, Veri Bilimciler ve geliştiriciler tarafından sorgu çalıştırma tablosuna göz atmak için kullanılabilecek etkileşimli bir hizmetidir. S3'ten veri alınmasına yardımcı olur ve günlük deposu analizi ve Veri Ambarı olayları için Athena JDBC sürücüsünü kullanarak bunları farklı veri depolarına yükler.
AWS Athena'nın Çalışması
Amazon Athena, S3 verileriyle doğrudan ilişki içinde çalışır. Sorguları çalıştırmak için dağıtılmış bir SQL motoru olarak kullanılır ve ayrıca tablolar ve bölümler oluşturmak ve değiştirmek için Apache Hive kullanır. Athena ile çalışmak için gereken önemli bakış açılarından bazıları şunlardır:
- Bir AWS Hesabınız olmalıdır
- Maliyet ve kullanım verilerini S3 kovasına aktarmak için hesabınızı etkinleştirmelisiniz.
- Athena'nın bağlanması için kovalar hazırlayabilirsiniz.
- AWS ayrıca, kovaya her yazdığında meta verileri kullanarak bildirim dosyaları oluşturur. Aslında, Athena olarak bilinen teknoloji AWS faturalama verisi kovası içinde yalnızca verileri içeren bir klasör oluşturur.
- Kurulumu basitleştirmek için ABD-Batı-2 bölgesi olarak adlandırılan bir bölge de kullanılabilir.
- Kimlik bilgileri, veritabanı kimlik bilgileriyle dolaylı olarak eşlemeye yardımcı olduğundan, son ve son adım, yeni kullanıcı için kimlik bilgilerini indirmektir.
Amazon ayrıca, Aylık hizmet maliyeti, ayrılmış örnek kullanımı vb. gibi önceden oluşturulmuş bir dizi raporla birlikte gelen, sürükle ve bırak için Maliyet Gezgini adlı bir araç sunar. Merak ediyorsanız, hizmetin üzerindeki sorguyu yeniden oluşturmayı denemelisiniz. maliyetler ve operasyon. Bu aslında imkansız değil. Her biri büyüme oranlarını hesaplarken, histogramlar oluştururken, puanları hesaplarken, vb. Ham verileri dilimleyebilirsiniz.
Amazon Athena ile çalışırken dikkat edilmesi gereken ek hususlardan bazıları şunlardır:
Fiyatlandırma modeli
Athena'nın fiyatlandırması, sorgu başına en az 10MB olan en yakın megabayta çevrili S3'ten Terabyte verilerini taramak için 5 doların üzerindedir.
Maliyeti Düşürmek
İşin püf noktası, verileri sıkıştırma, sütunlu verileri kullanma ve verileri bölümleme olarak adlandırılan üç şekilde taranan verileri azaltmaktır.
Athena'nın Özellikleri
Amazon tarafından sağlanan birçok hizmetten Athena, en iyi hizmetlerden biridir. Veri Analizi için uygun hale getiren birden fazla özelliğe sahiptir. Özelliklerden bazıları şunlardır:
Hızlı Uygulama
Amazon Athena'nın kuruluma ihtiyacı yoktur. Aslında yalnızca AWS CLI kullanılarak doğrudan AWS Konsolundan erişilebilir.
sunucusuz
Sunucusuzdur, böylece son kullanıcının yapılandırma, altyapı, ölçeklendirme veya arıza konusunda endişelenmesine gerek kalmaz. Athena her şeyi kolayca halleder.
Sorgu Başına Ödeme
Athena, yalnızca sorgu başına yönetilen veri miktarı olan çalıştırdığınız sorgu için sizden ücret alır. Verileri sıkıştırır ve buna göre biçimlendirirseniz aslında çok tasarruf edebilirsiniz.
Güvenli
Amazon Athena, IAM ilkelerini ve AWS kimliğini kullanarak veri kümesi üzerinde tam kontrol sunar. Veriler S3 klasörlerinde depolanırken, IAM politikaları, kullanıcıların kontrolünün yönetilmesine yardımcı olabilir.
Mevcut
Amazon Athena yüksek oranda erişilebilirdir ve kullanıcılar günün her saatinde sorgu yürütebilir.
Hızlı
Amazon Athena hızlı bir analiz aracıdır çünkü sorguları basit olanlara bölerek ve paralel olarak çalıştırarak ve sonuçları istenen çıktıyı sunmak için birleştirerek karmaşık sorguları daha kısa sürede gerçekleştirebilir.
Entegrasyon
Athena'nın en iyi özelliklerinden biri, kullanıcıların birleşik bir veri havuzu oluşturmasına yardımcı olan AWS Glue ile kolayca entegre edilebilmesidir. Bu aynı zamanda daha iyi tablolar, görünümler vb. ile verilerin çok daha iyi versiyonlarının oluşturulmasına yardımcı olur.
Birleşik Sorgular
Amazon Athena birleşik sorgusu, Athena'nın ilişkisel, nesne, ilişkisel olmayan ve özel veri kaynaklarının tamamında SQL sorguları çalıştırmasına olanak tanır.
Makine öğrenme
Geliştiriciler, Amazon Athena'da makine öğrenimi modellerini oluşturmak ve dağıtmak için Amazon Sage Maker'ı kullanabilir.
AWS Athena için Teknikleri Optimize Etme
Bulut servisleri ile çalışırken, mümkün olan en az kaynak için kullanılan servislere ve en iyi sonucu veren servislere maliyet etkin bir şekilde dikkat etmek gerekir. AWS Athena içinde sorguları optimize etmek için alınabilecek birçok önlem vardır, böylece genel performans artırılabilir ve maliyet de kontrol altında tutulabilir. Amazon Athena'nın etkileşimli analiz hizmeti için yaygın olarak kullanılan optimizasyon tekniklerinden bazıları şunlardır:
S3'te Verileri Bölümleme
S3'te veri depolamak için izlenen en yaygın uygulamalardan biri olan bölümleme, tarih boyutu ve bölge boyutu gibi ana boyutlara göre ayrı dizinler oluşturmak için yapılır. Dosyaları her günün dizini altında depolamak için yıla, aya ve hatta güne göre bölmek için kullanılabilir. Öte yandan, benzer bölgeler için verilerin tek bir dizin altında saklanabileceği bölgeye göre de bölümlendirebilirsiniz. Bölümleme ile Athena, tüm işi hızlı ve etkili hale getiren sorgu başına daha az veri tarayabilir.
Veri Sıkıştırma Teknikleri
Verileri sıkıştırırken, sorgulama yapılırken sıkıştırma ve açma işlemi için bir CPU'ya ihtiyaç vardır. Farklı sıkıştırma teknikleri mevcut olsa da, Athena ile en popüler olanlardan biri Apache Parquet veya Apache ORC'dir. Bu, sütunlu veritabanları için varsayılan algoritmalarla verilerin sıkıştırılmasına yardımcı olan bir tekniktir.
Sorgular İçinde JOIN Koşullarını Kolaylaştırma
Verileri birden çok boyutta sorgularken, analizi gerçekleştirmek için iki tablodaki verileri birleştirmek için gereken önemli bir şey. Katılma süreci basit görünüyor, ancak bazen çok karmaşık olabilir. Bu nedenle, her zaman solda büyük veri ve sağda daha az veri bulunan tabloların tutulması önerilir. Bu, veri işleme motorunun, verileri soldaki tablodan aktarıp ikisini birleştirirken, sağdaki daha küçük tabloyu çalışan düğümlere kolayca dağıtabilmesinin yoludur.
Sorguda Seçili Sütunları Kullanma
Bu, Athena sorgularını çalıştırmak için harcanan zaman ve parayı büyük ölçüde azaltan bir başka zorunlu optimizasyon tekniğidir. Tablo adından bir seçim belirtmekle karşılaştırıldığında, seçim sorgusunda birinin üzerinde analiz gerçekleştirdiği sütunların adının her zaman açıkça belirtilmesi önerilir.
Sorguda Kalıp Eşleştirme Tekniğini Optimize Etme
Bir anahtar kelime yerine verilerdeki kalıplara dayalı olarak verileri sorgulamanın gerekli olduğu birçok zaman vardır. SQL'de, bunu uygulamanın kolay yollarından biri, kalıptan bahsedilebilecek ve sorgunun yine kalıpla eşleşen verileri getirebileceği LIKE operatörünün kullanılmasıdır. Amazon Athena'da, kalıpları eşleştirmek için LIKE operatörü yerine REGEX kullanılabilir, çünkü bu çok daha hızlıdır.
Çözüm
Verilerin bir şirketin gelişiminin önemli bir parçası haline gelmesiyle, içgörü kazanma ve daha fazla veri çıkarma süreci artık çok daha önemli hale geldi. Amazon Athena gibi hizmet tabanlı analitik hizmetleri sunan genel bulut hizmetleri ile birçok işletme, diğer analitik araçlarıyla ortaya çıkabilecek komplikasyonlar olmadan daha fazla içgörü elde edebilir.
En iyi sunucusuz mimarilerden biri olan Amazon Athena, veri sorgularını kullanımı, kurulumu ve çalıştırmayı hızlı hale getirir. Aslında, Athena'nın kullandıkça öde modeli, her şeyi analitik çalıştırmak için uygun maliyetli hale getiriyor. Ayrıca Athena, Amazon S3 ile çalıştığından ve mükemmel ölçeklenebilirlik, güvenilirlik ve dayanıklılıkla birlikte geldiğinden, bu, analitik iş yüklerini çalıştırmak için en iyi paketlerden biridir.
Amazon Athena'nın uygulanması ve kullanımı konusunda herhangi bir desteğe ihtiyaç duyarsanız , Encaptechno'daki danışmanlarımızla iletişime geçmekten çekinmeyin. Amazon Athena ile yolculuğunuz boyunca size kapsamlı destek sunmak için eğitimli bir ekibimiz var.