ما هي خدمة Amazon Athena وكيف تعمل؟
نشرت: 2021-10-26عملية تحليل البيانات معقدة نوعًا ما في طبيعتها وتتضمن خطوات متعددة لتبسيط الأشياء التي تتوفر لها العديد من الأدوات. تنقذ Amazon من خلال تقديم خدمة باسم Amazon Athena تساعد في تحليل البيانات.
Amazon Athena هي أداة تحليلات بدون خادم تتيح للمستخدمين الاستعلام عن البيانات من S3 باستخدام بناء جملة SQL القياسي. كشركة رائدة في عالم الحوسبة السحابية ، تقدم AWS مجموعة واسعة من الخدمات التي تقدم أداءً تنافسيًا وحلولًا ميسورة التكلفة تُستخدم لتشغيل أعباء العمل مقارنةً بالبنية المحلية.
AWS Athena هي خدمة من مجال التحليلات تركز على استرداد البيانات الثابتة المخزنة في حاويات S3 باستخدام عبارات SQL القياسية. يمكن اعتبارها أداة قوية تساعد العملاء على اكتساب رؤى مهمة حول بياناتهم المخزنة على S3 لأنها بدون خادم ولا توجد بنية أساسية للإدارة.
ما هو أمازون أثينا؟
أطلقت أمازون خدمة أثينا كخدمة مهمة في 20 نوفمبر 2016. تم إطلاقها كخدمة استعلام بدون خادم تهدف إلى إجراء تحليل للبيانات ، باستخدام لغة SQL القياسية المخزنة في Amazon S3. من خلال بضع نقرات بسيطة في AWS Management Console ، يمكن للعملاء توجيه Amazon Athena بسهولة إلى بياناتهم المخزنة في Amazon S3 أثناء تشغيل الاستعلامات باستخدام SQL القياسي لتوليد النتائج في ثوانٍ.
مع خدمة التحليلات التفاعلية من Amazon Athena ، لا توجد بنية أساسية للإعداد أو الإدارة ولا يدفع العملاء إلا مقابل الاستعلامات التي يرغبون في تشغيلها. يتوسع تلقائيًا أثناء تنفيذ الاستعلامات بالتوازي مما يعطي في النهاية نتائج سريعة حتى مع مجموعة بيانات ضخمة واستعلامات معقدة.
تستخدم Athena محرك SQL موزعًا يسمى Presto وهو مفيد في تشغيل استعلامات SQL. يعتمد على تقنية المصدر المفتوح الشهيرة المسماة Hive والتي تساعد بشكل أكبر في تخزين البيانات المهيكلة وغير المهيكلة وشبه المنظمة. يسهل برنامج مستودع بيانات Apache Hive قراءة مجموعات البيانات الكبيرة الموجودة في التخزين الموزع باستخدام SQL وكتابتها وإدارتها.
هناك خط أنابيب بسيط للبيانات يتم فيه جلب البيانات من مصادر مختلفة وإلقاءها في حاويات S3. هذه بيانات أولية مما يعني عدم وجود تحويلات مطبقة على البيانات حتى الآن. في الوقت الحالي ، يمكن استخدام Amazon Athena للاتصال بهذه البيانات في S3 أثناء تحليلها. هذه عملية بسيطة لأنك لا تحتاج إلى إعداد أي قاعدة بيانات أو أدوات خارجية للاستعلام عن البيانات الأولية. بعد الانتهاء من التحليل واكتشاف النتائج المرجوة ، يمكن استخدام مجموعة السجلات الطبية الإلكترونية (EMR) لتشغيل تحويلات البيانات التحليلية المعقدة أثناء تنظيف البيانات ومعالجتها وتخزينها.
لماذا يجب عليك استخدام أثينا؟
يمكن لمستخدم أثينا الاستعلام عن البيانات المشفرة باستخدام المفاتيح التي تديرها خدمة إدارة مفاتيح AWS وأيضًا تشفير نتائج الاستعلام. في الواقع ، تسمح Athena أيضًا بالوصول عبر الحسابات إلى حاويات S3 المملوكة لمستخدم آخر. يستخدم كتالوجات البيانات المُدارة لتخزين المعلومات والمخططات المتعلقة بعمليات البحث على بيانات Amazon S3.
الكل في الكل ، خدمة الاستعلام التفاعلي هي في الواقع أداة تحليلية تساعد المؤسسات في التحليل السريع للبيانات المهمة المخزنة في Amazon S3. يمكن استخدامه في معالجة مجموعات البيانات غير المهيكلة والمنظمة وشبه المنظمة. باستخدام Athena ، من الممكن إنشاء استعلامات ديناميكية لمجموعات البيانات. إنه يعمل مع AWS Glue لمنحك طريقة أفضل لتخزين البيانات الوصفية في S3.
باستخدام AWS Cloud Formation و Athena ، يمكنك استخدام الاستعلامات المسماة التي تمكنك من تسمية استعلام معين ثم تسميته أيضًا باستخدام الاسم. هذه خدمة تفاعلية من AWS يمكن لعلماء ومطوري البيانات استخدامها لإلقاء نظرة خاطفة على جدول تشغيل الاستعلام. يساعد في جلب البيانات من S3 وتحميلها إلى مخازن بيانات مختلفة باستخدام برنامج تشغيل Athena JDBC لتحليل مخزن السجلات وأحداث تخزين البيانات.
يعمل لدى AWS Athena
يعمل Amazon Athena بشكل وثيق مع بيانات S3. يتم استخدامه كمحرك SQL موزع لتشغيل الاستعلامات ويستخدم أيضًا Apache Hive لإنشاء الجداول والأقسام وتعديلها. تتضمن بعض وجهات النظر المهمة اللازمة للعمل مع أثينا ما يلي:
- يجب أن يكون لديك حساب AWS
- يجب عليك تمكين حسابك لتصدير بيانات التكلفة والاستخدام إلى حاوية S3.
- يمكنك تحضير دلاء لربط أثينا.
- تنشئ AWS أيضًا ملفات بيان باستخدام البيانات الوصفية في كل مرة تكتب فيها في الحاوية. في الواقع ، يقوم بإنشاء مجلد داخل حاوية بيانات الفوترة الخاصة بالتكنولوجيا AWS والمعروفة باسم Athena والتي تحتوي على البيانات فقط.
- لتبسيط الإعداد ، يمكن أيضًا استخدام منطقة تسمى منطقة US-West-2.
- الخطوة الأخيرة والأخيرة هي تنزيل بيانات الاعتماد للمستخدم الجديد لأن بيانات الاعتماد تساعد في تعيين بيانات اعتماد قاعدة البيانات بشكل غير مباشر.
تقدم أمازون أيضًا أداة تسمى Cost Explorer للسحب والإفلات والتي تأتي مع مجموعة من التقارير المعدة مسبقًا مثل تكلفة الخدمة الشهرية واستخدام المثيل المحجوز وما إلى ذلك. في حال كنت فضوليًا ، يجب أن تحاول إعادة إنشاء الاستعلام فوق الخدمة التكاليف والتشغيل. هذا في الواقع ليس مستحيلاً. يمكنك تقسيم البيانات الأولية إلى شرائح أثناء حساب معدلات النمو لكل منها ، وبناء الرسوم البيانية ، ونتائج الحوسبة ، وما إلى ذلك.
تتضمن بعض الاعتبارات الإضافية التي يجب ملاحظتها أثناء العمل مع Amazon Athena ما يلي:
نماذج الاسعار
يتجاوز سعر Athena 5 دولارات لمسح بيانات تيرابايت من S3 محاطة بأقرب ميغابايت بحد أدنى 10 ميغابايت لكل استعلام.
تقليل التكلفة
تتمثل الحيلة في تقليل البيانات التي يتم مسحها ضوئيًا بثلاث طرق تسمى ضغط البيانات ، واستخدام البيانات العمودية ، وتقسيم البيانات.
ميزات أثينا
من بين الخدمات العديدة التي تقدمها أمازون ، تعد أثينا واحدة من أفضل الخدمات. له ميزات متعددة تجعله مناسبًا لتحليل البيانات. تتضمن بعض الميزات ما يلي:
التنفيذ السريع
لا يحتاج Amazon Athena إلى التثبيت. يمكن الوصول إليه بالفعل مباشرة من وحدة تحكم AWS فقط باستخدام AWS CLI.
خادم
إنه بدون خادم بحيث لا يضطر المستخدم النهائي إلى القلق بشأن التكوين أو البنية التحتية أو التوسع أو الفشل. أثينا تعتني بكل ذلك بسهولة.
الدفع لكل استعلام
تفرض أثينا رسومًا عليك مقابل الاستعلام الذي تقوم بتشغيله وهو مقدار البيانات التي تتم إدارتها لكل استعلام. يمكنك بالفعل حفظ الكثير إذا ضغطت البيانات وتهيئتها وفقًا لذلك.
يؤمن
باستخدام سياسات IAM وهوية AWS ، توفر Amazon Athena تحكمًا كاملاً في مجموعة البيانات. مع البيانات المخزنة في حاويات S3 ، يمكن أن تساعد سياسات IAM في إدارة التحكم للمستخدمين.
متوفرة
يتوفر Amazon Athena بشكل كبير ويمكن للمستخدمين تنفيذ الاستعلامات على مدار الساعة.
سريع
Amazon Athena هي أداة تحليلات سريعة لأنها يمكنها تنفيذ استعلامات معقدة في وقت أقل عن طريق تقسيم الاستعلامات إلى استعلامات بسيطة وتشغيلها بالتوازي والجمع بين النتائج لتقديم المخرجات المرغوبة.
اندماج
تتمثل إحدى أفضل ميزات Athena في إمكانية دمجها بسهولة مع AWS Glue مما يساعد المستخدمين على إنشاء مستودع بيانات موحد. يساعد هذا أيضًا في إنشاء إصدارات أفضل بكثير من البيانات ، باستخدام جداول وطرق أفضل ، وما إلى ذلك.
الاستعلامات الموحدة
يسمح الاستعلام الموحد في Amazon Athena لـ Athena بتشغيل استعلامات SQL في جميع مصادر البيانات العلائقية والكائنات وغير العلائقية والمخصصة.
التعلم الالي
يمكن للمطورين استخدام Amazon Sage Maker لإنشاء نماذج التعلم الآلي ونشرها في Amazon Athena.
تحسين الأساليب لـ AWS Athena
أثناء العمل مع الخدمات السحابية ، يحتاج المرء إلى الاهتمام بالخدمات المستخدمة بأقل الموارد الممكنة وتلك التي تقدم أفضل نتيجة بطريقة فعالة من حيث التكلفة. هناك العديد من الإجراءات التي يمكن اتخاذها لتحسين الاستعلامات داخل AWS Athena بحيث يمكن تعزيز الأداء العام ويمكن أيضًا التحكم في التكلفة. بعض تقنيات التحسين الشائعة لخدمة التحليلات التفاعلية في Amazon Athena هي:
تقسيم البيانات في S3
يعد التقسيم أحد أكثر الممارسات شيوعًا المتبعة لتخزين البيانات في S3 ، ويتم إجراء التقسيم لإنشاء أدلة منفصلة استنادًا إلى الأبعاد الرئيسية مثل بُعد التاريخ وبُعد المنطقة. يمكن استخدامه للتقسيم حسب السنة والشهر وحتى اليوم لتخزين الملفات تحت دليل كل يوم. من ناحية أخرى ، يمكنك أيضًا التقسيم حسب المنطقة حيث يمكن تخزين البيانات لمناطق مماثلة ضمن دليل واحد. من خلال التقسيم ، تستطيع Athena مسح بيانات أقل لكل استعلام مما يجعل المهمة بأكملها سريعة وفعالة.
تقنيات ضغط البيانات
أثناء ضغط البيانات ، هناك حاجة إلى وحدة المعالجة المركزية للضغط وفك الضغط أثناء إجراء الاستعلام. على الرغم من وجود تقنيات ضغط مختلفة متاحة ، فإن واحدة من أكثر الأساليب شيوعًا لاستخدامها مع Athena هي Apache Parquet أو Apache ORC. هذه تقنية مفيدة في ضغط البيانات باستخدام الخوارزميات الافتراضية لقواعد البيانات العمودية.
تبسيط شروط JOIN ضمن الاستعلامات
في وقت الاستعلام عن البيانات عبر أبعاد متعددة ، فإن الشيء المهم المطلوب هو ضم البيانات من جدولين لتنفيذ التحليل. تبدو عملية الانضمام بسيطة ، ولكنها قد تكون معقدة في بعض الأحيان. وبالتالي ، يوصى دائمًا بالحفاظ على الجداول التي تحتوي على بيانات كبيرة على اليسار وبيانات أقل على اليمين. هذه هي الطريقة التي يمكن بها لمحرك معالجة البيانات أن يوزع بسهولة الجدول الأصغر على اليمين على العقد العاملة أثناء دفق البيانات من الجدول الأيسر والانضمام إلى الاثنين.
استخدام الأعمدة المحددة في الاستعلام
هذه تقنية تحسين إلزامية أخرى تقلل إلى حد كبير الوقت والمال المستغرق في تشغيل استعلامات أثينا. يُنصح دائمًا بذكر اسم الأعمدة التي يقوم شخص ما بإجراء تحليل عليها في استعلام التحديد بشكل صريح مقارنةً بتحديد تحديد من اسم الجدول.
تحسين أسلوب مطابقة الأنماط في الاستعلام
هناك عدة مرات عندما يكون مطلوبًا الاستعلام عن البيانات استنادًا إلى الأنماط الموجودة في البيانات بدلاً من الكلمة الأساسية. في SQL ، تتمثل إحدى الطرق السهلة لتنفيذ ذلك في استخدام عامل التشغيل LIKE حيث يمكن للمرء أن يذكر النمط واستعلام جلب البيانات التي تتطابق مرة أخرى مع النمط. في Amazon Athena ، يمكن استخدام REGEX لأنماط المطابقة بدلاً من عامل التشغيل LIKE لأن ذلك أسرع بكثير.
استنتاج
نظرًا لأن البيانات أصبحت جزءًا مهمًا من تطوير الشركة ، أصبحت عملية اكتساب الأفكار واستخراج المزيد من البيانات أكثر أهمية الآن. من خلال الخدمات السحابية العامة ، التي تقدم خدمات التحليلات القائمة على الخدمة مثل Amazon Athena ، يمكن للعديد من الشركات الحصول على مزيد من الأفكار دون تعقيدات قد تأتي مع أدوات التحليل الأخرى.
كواحد من أفضل البنى بدون خادم ، يجعل Amazon Athena استعلامات البيانات سهلة الاستخدام والإعداد والتشغيل. في الواقع ، فإن نموذج الدفع لكل استخدام في أثينا يجعل الأمر برمته ميسور التكلفة لتشغيل التحليلات. علاوة على ذلك ، نظرًا لأن Athena تعمل مع Amazon S3 وتأتي مع قابلية توسعة وموثوقية ومتانة رائعة ، فهي واحدة من أفضل المجموعات لتشغيل أعباء عمل التحليلات.
إذا كنت بحاجة إلى أي دعم في تنفيذ واستخدام Amazon Athena ، فلا تتردد في الاتصال بمستشارينا في Encaptechno . لدينا فريق مدرب لنقدم لك دعمًا مكثفًا طوال رحلتك مع Amazon Athena.