Amazon Athenaとは何ですか?どのように機能しますか?
公開: 2021-10-26データを分析するプロセスは本質的にやや複雑であり、多くのツールが利用できるものを単純化するための複数のステップが含まれています。 アマゾンは、データの分析に役立つアマゾンアテナという名前のサービスを提供することで救いの手を差し伸べます。
Amazon Athenaは、ユーザーが標準のSQL構文を使用してS3からデータをクエリできるようにするサーバーレス分析ツールです。 クラウドコンピューティングの世界のリーダーとして、AWSは、オンプレミスアーキテクチャと比較して、ワークロードの実行に使用される競争力のあるパフォーマンスと手頃なソリューションを提供する幅広いサービスを提供します。
AWS Athenaは、標準のSQLステートメントを使用してS3バケットに保存されている静的データの取得に焦点を当てた分析ドメインのサービスです。 サーバーレスであり、管理するためのインフラストラクチャがないため、S3に保存されているデータに関する重要な洞察を顧客が得るのに役立つ堅牢なツールと見なすことができます。
アマゾンアテナとは何ですか?
Amazonは、2016年11月20日に重要なサービスとしてAthenaを開始しました。これは、Amazon S3に保存されている標準SQLを使用して、データの分析をより簡単にすることを目的としたサーバーレスクエリサービスとして開始されました。 AWSマネジメントコンソールで数回クリックするだけで、お客様は、標準SQLを使用してクエリを実行し、数秒で結果を生成しながら、AmazonS3に保存されているデータをAmazonAthenaに簡単に向けることができます。
Amazon Athenaのインタラクティブな分析サービスでは、セットアップや管理のためのインフラストラクチャはなく、顧客は実行したいクエリに対してのみ料金を支払います。 クエリを並行して実行しながら自動的にスケーリングするため、巨大なデータセットや複雑なクエリでも最終的に迅速な結果が得られます。
Athenaは、SQLクエリの実行に役立つPrestoと呼ばれる分散SQLエンジンを使用しています。 これは、Hiveと呼ばれる人気のあるオープンソーステクノロジーに基づいており、構造化データ、非構造化データ、および半構造化データの保存にさらに役立ちます。 Apache Hiveデータウェアハウスソフトウェアは、SQLを使用して、分散ストレージに存在する大規模なデータセットの読み取り、書き込み、および管理を容易にします。
さまざまなソースからのデータがフェッチされ、S3バケットにダンプされる単純なデータパイプラインがあります。 これは生データであり、データに変換がまだ適用されていないことを意味します。 現時点では、Amazon Athenaを使用して、分析中にS3でこのデータに接続できます。 生データをクエリするためにデータベースや外部ツールを設定する必要がないため、これは単純なプロセスです。 分析が完了し、目的の結果が見つかったら、EMRクラスターを使用して、データのクリーンアップ、処理、および保存中に複雑な分析データ変換を実行できます。
なぜあなたはアテナを使うべきですか?
Athenaユーザーは、AWSキー管理サービスによって管理されるキーを使用して暗号化されたデータをクエリし、クエリ結果を暗号化することもできます。 実際、Athenaでは、別のユーザーが所有するS3バケットへのクロスアカウントアクセスも許可されています。 これは、AmazonS3データの検索に関連する情報とスキーマを保存するためにマネージドデータカタログを使用します。
全体として、インタラクティブクエリサービスは実際には、組織がAmazonS3に保存されている重要なデータをすばやく分析するのに役立つ分析ツールです。 非構造化、構造化、および半構造化データセットの処理に使用できます。 Athenaを使用すると、データセットの動的クエリを作成できます。 AWS Glueと連携して、S3にメタデータを保存するためのはるかに優れた方法を提供します。
AWSクラウドフォーメーションとAthenaを使用すると、名前付きクエリを使用して、特定のクエリに名前を付け、その名前を使用して呼び出すこともできます。 これはAWSのインタラクティブなサービスであり、データサイエンティストや開発者は、クエリの実行テーブルを確認するために使用できます。 S3からデータをフェッチし、ログストア分析とデータウェアハウスイベント用にAthena JDBCドライバーを使用して、さまざまなデータストアにデータをロードするのに役立ちます。
AWSAthenaの動作
Amazon Athenaは、S3データと直接連携して動作します。 クエリを実行するための分散SQLエンジンとして使用され、テーブルとパーティションの作成と変更にもApacheHiveを使用します。 アテナと協力するために必要な重要な立場のいくつかは次のとおりです。
- AWSアカウントが必要です
- アカウントでコストと使用状況のデータをS3バケットにエクスポートできるようにする必要があります。
- Athenaが接続するためのバケットを準備できます。
- AWSは、バケットに書き込むたびにメタデータを使用してマニフェストファイルも作成します。 実際、データのみを含むAthenaと呼ばれるテクノロジーAWS課金データバケット内にフォルダーを作成します。
- セットアップを簡素化するために、US-West-2リージョンと呼ばれるリージョンを使用することもできます。
- 最後の最後のステップは、新しいユーザーのクレデンシャルをダウンロードすることです。これは、クレデンシャルがデータベースのクレデンシャルへの間接的なマッピングに役立つためです。
Amazonは、ドラッグアンドドロップ用のコストエクスプローラーと呼ばれるツールも提供しています。このツールには、月額サービスコスト、予約済みインスタンスの使用状況などの事前に作成されたレポートのセットが付属しています。興味がある場合は、サービスの上にクエリを再作成してみてください。コストと運用。 これは実際には不可能ではありません。 それぞれの成長率の計算、ヒストグラムの作成、スコアの計算などを行いながら、生データをスライスできます。
Amazon Athenaを使用する際に注意すべき追加の考慮事項には、次のものがあります。
価格モデル
Athenaの価格は、クエリごとに最低10MBの最も近いメガバイトに囲まれたS3からテラバイトデータをスキャンするために5ドルを超えています。
コスト削減
秘訣は、データの圧縮、列データの使用、およびデータの分割と呼ばれる3つの方法でスキャンされるデータを削減することです。
アテナの特徴
アマゾンが提供する多くのサービスの中で、アテナは最高のサービスの1つです。 データ分析に適した複数の機能があります。 機能の一部は次のとおりです。
迅速な実装
AmazonAthenaをインストールする必要はありません。 実際には、AWSCLIを使用してのみAWSコンソールから直接アクセスできます。
サーバーレス
サーバーレスであるため、エンドユーザーは構成、インフラストラクチャ、スケーリング、または障害について心配する必要がありません。 アテナはそれをすべて簡単に処理します。
クエリごとの支払い
Athenaは、実行したクエリに対してのみ課金します。これは、クエリごとに管理されるデータの量です。 データを圧縮してそれに応じてフォーマットすると、実際に多くの節約ができます。
安全
IAMポリシーとAWSIDを使用して、AmazonAthenaはデータセットを完全に制御します。 データがS3バケットに保存されているため、IAMポリシーはユーザーの制御を管理するのに役立ちます。
利用可能
Amazon Athenaは高可用性を備えており、ユーザーは24時間クエリを実行できます。
素早い
Amazon Athenaは、クエリを単純なクエリに分割して並列に実行し、結果を組み合わせて目的の出力を提供することで、複雑なクエリを短時間で実行できるため、迅速な分析ツールです。
統合
Athenaの最も優れた機能の1つは、AWS Glueと簡単に統合できることです。これにより、ユーザーは統合されたデータリポジトリを作成できます。 これは、より優れたテーブルやビューなどを使用して、はるかに優れたバージョンのデータを作成するのにも役立ちます。
フェデレーションクエリ
Amazon Athenaフェデレートクエリを使用すると、Athenaは、リレーショナル、オブジェクト、非リレーショナル、およびカスタムのデータソース全体でSQLクエリを実行できます。
機械学習
開発者は、Amazon Sage Makerを使用して、AmazonAthenaで機械学習モデルを作成およびデプロイできます。
AWSAthenaの最適化手法
クラウドサービスを使用している間、可能な限り少ないリソースに使用されるサービスと、費用効果の高い方法で最良の結果を提供するサービスに注意を払う必要があります。 AWS Athena内でクエリを最適化するために実行できる多くの対策があり、全体的なパフォーマンスを向上させ、コストも抑えることができます。 AmazonAthenaのインタラクティブ分析サービスの一般的な最適化手法のいくつかは次のとおりです。
S3でのデータの分割
S3にデータを保存するために従う最も一般的な方法の1つであるパーティショニングは、日付ディメンションや地域ディメンションなどの主要なディメンションに基づいて個別のディレクトリを作成するために行われます。 これを使用して、年、月、さらには日ごとにパーティションを作成し、各日のディレクトリにファイルを保存できます。 一方、1つのディレクトリの下にある同様のリージョンのデータを格納できるリージョンごとにパーティションを作成することもできます。 パーティショニングにより、Athenaはクエリごとにより少ないデータをスキャンできるため、ジョブ全体が迅速かつ効果的になります。
データ圧縮技術
データの圧縮中は、クエリの実行中に圧縮と解凍を行うためにCPUが必要です。 さまざまな圧縮手法を利用できますが、Athenaで使用する最も一般的な手法の1つは、ApacheParquetまたはApacheORCです。 これは、列型データベースのデフォルトのアルゴリズムを使用してデータを圧縮するのに役立つ手法です。
クエリ内のJOIN条件の合理化
複数のディメンションにわたってデータをクエリする場合、必要な重要なことは、分析を実行するために2つのテーブルのデータを結合することです。 参加のプロセスは単純に見えますが、時には非常に複雑になる可能性があります。 したがって、左側に大きなデータを、右側に小さなデータを含むテーブルを保持することを常にお勧めします。 これは、データ処理エンジンが、左側のテーブルからデータをストリーミングして2つを結合しながら、右側の小さいテーブルをワーカーノードに簡単に分散できる方法です。
クエリで選択した列を使用する
これは、Athenaクエリの実行にかかる時間と費用を大幅に削減するもう1つの必須の最適化手法です。 テーブル名からselectを指定する場合と比較して、selectクエリで誰かが分析を実行している列の名前を明示的に指定することを常にお勧めします。
クエリでのパターンマッチング手法の最適化
キーワードではなく、データのパターンに基づいてデータをクエリする必要がある場合がよくあります。 SQLでは、これを実装する簡単な方法の1つは、LIKE演算子を使用することです。この演算子では、パターンに言及し、クエリがパターンに再び一致するデータをフェッチします。 Amazon Athenaでは、LIKE演算子の代わりに、パターンのマッチングにREGEXを使用できます。これは、はるかに高速です。
結論
データが企業の発展の重要な部分になるにつれ、洞察を得てより多くのデータを抽出するプロセスは、今やますます重要になっています。 Amazon Athenaなどのサービスベースの分析サービスを提供するパブリッククラウドサービスを使用すると、多くの企業は、他の分析ツールを思い付く可能性のある複雑さなしに、より多くの洞察を得ることができます。
最高のサーバーレスアーキテクチャの1つとして、Amazon Athenaは、データクエリを使いやすく、セットアップしやすく、実行を高速化します。 実際、Athenaの従量制モデルにより、分析を実行するためにすべてが手頃な価格になります。 さらに、AthenaはAmazon S3と連携し、優れたスケーラビリティ、信頼性、耐久性を備えているため、これは分析ワークロードを実行するのに最適なスイートの1つです。
Amazon Athenaの実装と使用についてサポートが必要な場合は、Encaptechnoのコンサルタントにお気軽にご連絡ください。 アマゾンアテナでの旅を通して、幅広いサポートを提供する訓練を受けたチームがあります。