Apa itu Amazon Athena dan Bagaimana Cara Kerjanya?

Diterbitkan: 2021-10-26

Apa itu Amazon Athena dan Bagaimana Cara Kerjanya? | Encaptechno

Proses analisis data agak kompleks dan mencakup beberapa langkah untuk menyederhanakan hal-hal yang banyak alatnya tersedia. Amazon datang untuk menyelamatkan dengan menyediakan layanan dengan nama Amazon Athena yang membantu dalam menganalisis data.

Amazon Athena adalah alat analisis tanpa server yang memungkinkan pengguna untuk melakukan kueri data dari S3 menggunakan sintaks SQL standar. Sebagai pemimpin dalam dunia komputasi awan, AWS menawarkan berbagai layanan yang menawarkan kinerja kompetitif dan solusi terjangkau yang digunakan untuk menjalankan beban kerja dibandingkan dengan arsitektur di lokasi.

AWS Athena adalah layanan dari domain analitik yang berfokus pada pengambilan data statis yang disimpan di bucket S3 menggunakan pernyataan SQL standar. Ini dapat dianggap sebagai alat canggih yang membantu pelanggan mendapatkan wawasan penting tentang data mereka yang disimpan di S3 karena tanpa server dan tidak ada infrastruktur untuk mengelola.

Apa itu Amazon Athena?

Amazon meluncurkan Athena sebagai layanan penting pada 20 November 2016. Layanan ini diluncurkan sebagai layanan kueri tanpa server yang dimaksudkan untuk mempermudah analisis data, menggunakan SQL standar yang disimpan di Amazon S3. Hanya dengan beberapa klik sederhana di AWS Management Console, pelanggan dapat dengan mudah mengarahkan Amazon Athena ke data mereka yang disimpan di Amazon S3 sambil menjalankan kueri menggunakan SQL standar untuk menghasilkan hasil dalam hitungan detik.

Dengan layanan analitik interaktif Amazon Athena, tidak ada infrastruktur untuk menyiapkan atau mengelola dan pelanggan hanya membayar kueri yang ingin mereka jalankan. Ini menskalakan secara otomatis saat menjalankan kueri secara paralel yang pada akhirnya memberikan hasil yang cepat bahkan dengan kumpulan data yang besar dan kueri yang kompleks.

Athena menggunakan mesin SQL terdistribusi yang disebut Presto yang berguna dalam menjalankan kueri SQL. Ini didasarkan pada teknologi open-source populer yang disebut Hive yang selanjutnya membantu dalam menyimpan data terstruktur, tidak terstruktur, dan semi-terstruktur. Perangkat lunak gudang data Apache Hive memfasilitasi pembacaan, penulisan, dan pengelolaan kumpulan data besar yang berada di penyimpanan terdistribusi menggunakan SQL.

Ada saluran data sederhana di mana data dari sumber yang berbeda diambil dan dibuang ke dalam ember S3. Ini adalah data mentah yang berarti belum ada transformasi yang diterapkan pada data tersebut. Saat ini, Amazon Athena dapat digunakan untuk menghubungkan ke data ini di S3 saat sedang dianalisis. Ini adalah proses yang sederhana karena Anda tidak perlu menyiapkan database atau alat eksternal apa pun untuk menanyakan data mentah. Setelah Anda selesai dengan analisis dan menemukan hasil yang diinginkan, cluster EMR dapat digunakan untuk menjalankan transformasi data analitik yang kompleks sementara data dibersihkan, diproses, dan disimpan.

Mengapa Anda Harus Menggunakan Athena?

Mengapa Anda Harus Menggunakan Amazon Athena?

Pengguna Athena dapat melakukan kueri data terenkripsi dengan kunci yang dikelola oleh layanan manajemen kunci AWS dan juga mengenkripsi hasil kueri. Bahkan, Athena juga mengizinkan akses lintas akun ke bucket S3 milik pengguna lain. Ini menggunakan katalog data terkelola untuk menyimpan informasi dan skema yang terkait dengan pencarian pada data Amazon S3.

Secara keseluruhan, layanan kueri interaktif sebenarnya adalah alat analisis yang membantu organisasi dalam menganalisis data penting yang disimpan di Amazon S3 dengan cepat. Ini dapat digunakan dalam memproses kumpulan data tidak terstruktur, terstruktur, dan semi terstruktur. Dengan menggunakan Athena, dimungkinkan untuk membuat kueri dinamis untuk kumpulan data. Ini bekerja dengan AWS Glue untuk memberi Anda cara yang jauh lebih baik untuk menyimpan metadata di S3.

Dengan menggunakan AWS Cloud Formation dan Athena, Anda dapat menggunakan kueri bernama yang memungkinkan Anda memberi nama kueri tertentu dan juga memanggilnya menggunakan nama tersebut. Ini adalah layanan interaktif dari AWS yang dapat digunakan oleh Ilmuwan Data dan pengembang untuk mengintip tabel menjalankan kueri. Ini membantu dalam mengambil data dari S3 dan memuatnya ke penyimpanan data yang berbeda menggunakan driver Athena JDBC untuk analisis penyimpanan log dan peristiwa Data Warehousing.

Bekerja dari AWS Athena

Amazon Athena bekerja dalam hubungan langsung dengan data S3. Ini digunakan sebagai mesin SQL terdistribusi untuk menjalankan kueri dan juga menggunakan Apache Hive untuk membuat dan mengubah tabel dan partisi. Beberapa sudut pandang penting yang diperlukan untuk bekerja dengan Athena meliputi:

  1. Anda harus memiliki Akun AWS
  2. Anda harus mengaktifkan akun Anda untuk mengekspor data biaya dan penggunaan ke dalam keranjang S3.
  3. Anda dapat menyiapkan ember untuk menghubungkan Athena.
  4. AWS juga membuat file manifes dengan menggunakan metadata setiap kali menulis ke bucket. Bahkan, ini membuat folder di dalam keranjang data penagihan AWS teknologi yang dikenal sebagai Athena yang hanya berisi data.
  5. Untuk menyederhanakan pengaturan, wilayah yang disebut wilayah AS-Barat-2 juga dapat digunakan.
  6. Langkah terakhir dan terakhir adalah mengunduh kredensial untuk pengguna baru karena kredensial membantu memetakan secara tidak langsung ke kredensial database.

Amazon juga menawarkan alat yang disebut Penjelajah Biaya untuk menyeret dan menjatuhkan yang dilengkapi dengan serangkaian laporan yang dibuat sebelumnya seperti Biaya layanan bulanan, penggunaan instans yang dipesan, dll. Jika Anda penasaran, Anda harus mencoba dan membuat ulang kueri di atas layanan biaya dan operasi. Hal ini sebenarnya bukan tidak mungkin. Anda dapat mengiris data mentah sambil menghitung tingkat pertumbuhan masing-masing, membangun histogram, menghitung skor, dll.

Beberapa pertimbangan tambahan yang perlu diperhatikan saat bekerja dengan Amazon Athena meliputi:

Model Harga

Harga Athena lebih dari $5 untuk memindai data Terabyte dari S3 yang dikelilingi hingga megabyte terdekat yang memiliki minimal 10MB per kueri.

Mengurangi Biaya

Caranya adalah dengan mereduksi data yang dipindai dengan tiga cara yang disebut mengompresi data, menggunakan data kolom, dan mempartisi data.

Fitur Athena

Dari sekian banyak layanan yang disediakan Amazon, Athena merupakan salah satu layanan terbaik. Ini memiliki beberapa fitur yang membuatnya cocok untuk Analisis Data. Beberapa fiturnya antara lain:

  • Implementasi Cepat

Amazon Athena tidak memerlukan instalasi. Itu sebenarnya dapat diakses langsung dari AWS Console hanya menggunakan AWS CLI.

  • Tanpa server

Ini tanpa server sehingga pengguna akhir tidak perlu khawatir tentang konfigurasi, infrastruktur, penskalaan, atau kegagalan. Athena mengurus semuanya dengan mudah.

  • Bayar Per Permintaan

Athena menagih Anda hanya untuk kueri yang Anda jalankan yang merupakan jumlah data yang dikelola per kueri. Anda benar-benar dapat menghemat banyak jika Anda mengompres data dan memformatnya sesuai dengan itu.

  • Aman

Menggunakan kebijakan IAM dan identitas AWS, Amazon Athena menawarkan kontrol penuh atas kumpulan data. Dengan data yang disimpan dalam bucket S3, kebijakan IAM dapat membantu dalam mengelola kontrol kepada pengguna.

  • Tersedia

Amazon Athena sangat tersedia dan pengguna dapat menjalankan kueri sepanjang waktu.

  • Cepat

Amazon Athena adalah alat analitik cepat karena dapat melakukan kueri kompleks dalam waktu yang lebih singkat dengan memecah kueri menjadi kueri sederhana dan menjalankannya secara paralel serta menggabungkan hasil untuk menawarkan hasil yang diinginkan.

  • Integrasi

Salah satu fitur terbaik Athena adalah dapat dengan mudah diintegrasikan dengan AWS Glue yang membantu pengguna membuat repositori data terpadu. Ini juga membantu dalam membuat versi data yang jauh lebih baik, dengan tabel, tampilan, dll yang lebih baik.

  • Pertanyaan Federasi

Kueri federasi Amazon Athena memungkinkan Athena menjalankan kueri SQL di seluruh sumber data relasional, objek, non-relasional, dan kustom.

  • Pembelajaran mesin

Pengembang dapat menggunakan Amazon Sage Maker untuk membuat dan menerapkan model pembelajaran mesin di Amazon Athena.

Mengoptimalkan Teknik untuk AWS Athena

Mengoptimalkan Teknik untuk AWS Athena

Saat bekerja dengan layanan cloud, seseorang perlu menjaga layanan yang digunakan dengan sumber daya seminimal mungkin dan layanan yang menawarkan hasil terbaik dengan cara yang hemat biaya. Ada banyak langkah yang dapat diambil untuk mengoptimalkan kueri dalam AWS Athena sehingga kinerja keseluruhan dapat ditingkatkan dan biaya juga dapat tetap terkendali. Beberapa teknik pengoptimalan umum untuk layanan analitik interaktif Amazon Athena adalah:

  • Mempartisi Data di S3

    Salah satu praktik yang paling umum diikuti untuk menyimpan data di S3, partisi dilakukan untuk membuat direktori terpisah berdasarkan dimensi utama seperti dimensi tanggal dan dimensi wilayah. Ini dapat digunakan untuk mempartisi berdasarkan tahun, bulan, dan bahkan hari untuk menyimpan file di bawah direktori setiap hari. Di sisi lain, Anda juga dapat mempartisi berdasarkan wilayah tempat data dapat disimpan untuk wilayah serupa di bawah satu direktori. Dengan partisi, Athena dapat memindai lebih sedikit data per kueri yang membuat seluruh pekerjaan menjadi cepat dan efektif.

  • Teknik Kompresi Data

    Saat mengompresi data, CPU diperlukan untuk mengompresi dan mendekompresi saat kueri berlangsung. Meskipun ada beberapa teknik kompresi yang tersedia, salah satu yang paling populer untuk digunakan dengan Athena adalah Apache Parket atau Apache ORC. Ini adalah teknik yang membantu dalam mengompresi data dengan algoritme default untuk basis data kolom.

  • Merampingkan Kondisi GABUNG Dalam Kueri

    Pada saat mengkueri data di beberapa dimensi, hal penting yang diperlukan adalah menggabungkan data dari dua tabel untuk melakukan analisis. Proses bergabung terlihat sederhana, tetapi terkadang bisa sangat rumit. Oleh karena itu, selalu disarankan untuk menyimpan tabel dengan data besar di sebelah kiri dan data yang lebih kecil di sebelah kanan. Ini adalah cara di mana mesin pemrosesan data dapat dengan mudah mendistribusikan tabel yang lebih kecil di sebelah kanan ke node pekerja sambil mengalirkan data dari tabel kiri dan menggabungkan keduanya.

Menggunakan Kolom yang Dipilih dalam Kueri

Ini adalah teknik pengoptimalan wajib lainnya yang secara signifikan mengurangi waktu dan uang yang dibutuhkan untuk menjalankan kueri Athena. Selalu disarankan untuk secara eksplisit menyebutkan nama kolom tempat seseorang melakukan analisis dalam kueri pemilihan dibandingkan dengan menentukan pemilihan dari nama tabel.

Optimalkan Teknik Pencocokan Pola dalam Kueri

Ada banyak waktu ketika diperlukan untuk menanyakan data berdasarkan pola dalam data yang bertentangan dengan kata kunci. Dalam SQL, salah satu cara mudah untuk mengimplementasikannya adalah dengan menggunakan operator LIKE di mana seseorang dapat menyebutkan pola dan kueri mengambil data yang cocok lagi dengan pola tersebut. Di Amazon Athena, seseorang dapat menggunakan REGEX untuk mencocokkan pola alih-alih operator LIKE karena itu jauh lebih cepat.

Kesimpulan

Dengan data menjadi bagian penting dari pengembangan perusahaan, proses mendapatkan wawasan dan mengekstrak lebih banyak data menjadi semakin penting sekarang. Dengan layanan cloud publik, yang menawarkan layanan analitik berbasis layanan seperti Amazon Athena, banyak bisnis dapat memperoleh lebih banyak wawasan tanpa komplikasi yang mungkin muncul dengan alat analitik lainnya.

Sebagai salah satu arsitektur tanpa server terbaik, Amazon Athena membuat kueri data mudah digunakan, disiapkan, dan dijalankan dengan cepat. Faktanya, model bayar per penggunaan Athena membuat semuanya terjangkau untuk menjalankan analitik. Selain itu, karena Athena bekerja dengan Amazon S3 dan hadir dengan skalabilitas, keandalan, dan daya tahan yang luar biasa, ini adalah salah satu rangkaian terbaik untuk menjalankan beban kerja analitik.

Jika Anda memerlukan dukungan dalam penerapan dan penggunaan Amazon Athena, jangan ragu untuk menghubungi konsultan kami di Encaptechno . Kami memiliki tim terlatih untuk menawarkan dukungan ekstensif kepada Anda sepanjang perjalanan Anda dengan Amazon Athena.