Amazon Athena คืออะไรและทำงานอย่างไร
เผยแพร่แล้ว: 2021-10-26กระบวนการวิเคราะห์ข้อมูลค่อนข้างซับซ้อนโดยธรรมชาติ และมีหลายขั้นตอนในการลดความซับซ้อนของสิ่งต่าง ๆ ซึ่งมีเครื่องมือมากมาย Amazon เข้ามาช่วยเหลือด้วยการให้บริการชื่อ Amazon Athena ที่ช่วยในการวิเคราะห์ข้อมูล
Amazon Athena เป็น เครื่องมือวิเคราะห์แบบไร้เซิร์ฟเวอร์ ที่อนุญาตให้ผู้ใช้สืบค้นข้อมูลจาก S3 โดยใช้ไวยากรณ์ SQL มาตรฐาน ในฐานะผู้นำในโลกของการประมวลผลแบบคลาวด์ AWS นำเสนอบริการที่หลากหลายซึ่งให้ประสิทธิภาพที่แข่งขันได้และโซลูชันราคาไม่แพงที่ใช้สำหรับการรันปริมาณงาน เมื่อเทียบกับสถาปัตยกรรมภายในองค์กร
AWS Athena เป็นบริการจากโดเมนการวิเคราะห์ที่เน้นการดึงข้อมูลแบบคงที่ที่จัดเก็บไว้ในบัคเก็ต S3 โดยใช้คำสั่ง SQL มาตรฐาน ถือได้ว่าเป็นเครื่องมือที่มีประสิทธิภาพที่ช่วยให้ลูกค้าได้รับข้อมูลเชิงลึกที่สำคัญเกี่ยวกับข้อมูลที่จัดเก็บไว้ใน S3 เนื่องจากไม่มีเซิร์ฟเวอร์และไม่มีโครงสร้างพื้นฐานสำหรับการจัดการ
Amazon Athena คืออะไร?
Amazon เปิดตัว Athena เป็นบริการที่สำคัญในวันที่ 20 พฤศจิกายน 2016 โดยเปิดตัวเป็นบริการสืบค้นแบบไร้เซิร์ฟเวอร์ซึ่งมีไว้เพื่อให้การวิเคราะห์ข้อมูล โดยใช้ SQL มาตรฐานที่จัดเก็บไว้ใน Amazon S3 ได้ง่ายขึ้น ด้วยการคลิกเพียงไม่กี่ครั้งใน AWS Management Console ลูกค้าสามารถชี้ Amazon Athena ไปที่ข้อมูลที่จัดเก็บไว้ใน Amazon S3 ได้อย่างง่ายดายในขณะที่เรียกใช้การสืบค้นโดยใช้ SQL มาตรฐานเพื่อสร้างผลลัพธ์ในไม่กี่วินาที
ด้วย บริการวิเคราะห์เชิงโต้ตอบ ของ Amazon Athena ไม่มีโครงสร้างพื้นฐานสำหรับการตั้งค่าหรือการจัดการ และลูกค้าจะจ่ายเฉพาะการสืบค้นที่ต้องการเรียกใช้เท่านั้น โดยจะปรับขนาดโดยอัตโนมัติในขณะที่ดำเนินการค้นหาแบบคู่ขนาน ซึ่งในที่สุดจะให้ผลลัพธ์ที่รวดเร็ว แม้จะมีชุดข้อมูลขนาดใหญ่และการสืบค้นที่ซับซ้อน
Athena ใช้เครื่องมือ SQL แบบกระจายที่เรียกว่า Presto ซึ่งมีประโยชน์ในการเรียกใช้แบบสอบถาม SQL มันขึ้นอยู่กับเทคโนโลยีโอเพ่นซอร์สยอดนิยมที่เรียกว่า Hive ซึ่งช่วยในการจัดเก็บข้อมูลที่มีโครงสร้างไม่มีโครงสร้างและกึ่งโครงสร้าง ซอฟต์แวร์คลังข้อมูล Apache Hive อำนวยความสะดวกในการอ่าน เขียน และจัดการชุดข้อมูลขนาดใหญ่ที่อยู่ในพื้นที่จัดเก็บแบบกระจายโดยใช้ SQL
มีไปป์ไลน์ข้อมูลอย่างง่ายที่ดึงข้อมูลจากแหล่งต่างๆ และทิ้งลงในบัคเก็ต S3 นี่คือข้อมูลดิบซึ่งหมายความว่ายังไม่มีการแปลงที่ใช้กับข้อมูล ในขณะนี้ สามารถใช้ Amazon Athena เพื่อเชื่อมต่อกับข้อมูลนี้ใน S3 ได้ในขณะที่ทำการวิเคราะห์ นี่เป็นกระบวนการง่ายๆ เนื่องจากคุณไม่จำเป็นต้องตั้งค่าฐานข้อมูลหรือเครื่องมือภายนอกใดๆ เพื่อสืบค้นข้อมูลดิบ หลังจากที่คุณทำการวิเคราะห์และค้นหาผลลัพธ์ที่ต้องการเสร็จแล้ว คุณสามารถใช้คลัสเตอร์ EMR เพื่อเรียกใช้การแปลงข้อมูลเชิงวิเคราะห์ที่ซับซ้อนในขณะที่ข้อมูลได้รับการล้าง ประมวลผล และจัดเก็บ
ทำไมคุณควรใช้เอเธน่า?
ผู้ใช้ Athena สามารถสืบค้นข้อมูลที่เข้ารหัสด้วยคีย์ที่จัดการโดยบริการการจัดการคีย์ของ AWS และยังเข้ารหัสผลลัพธ์การสืบค้นได้อีกด้วย อันที่จริง Athena ยังอนุญาตการเข้าถึงข้ามบัญชีไปยังบัคเก็ต S3 ที่เป็นของผู้ใช้รายอื่น ใช้แค็ตตาล็อกข้อมูลที่มีการจัดการเพื่อจัดเก็บข้อมูลและสคีมาที่เกี่ยวข้องกับการค้นหาข้อมูล Amazon S3
โดยรวมแล้ว บริการสืบค้นข้อมูลเชิงโต้ตอบเป็นเครื่องมือวิเคราะห์ที่ช่วยให้องค์กรวิเคราะห์ข้อมูลสำคัญที่จัดเก็บไว้ใน Amazon S3 ได้อย่างรวดเร็ว สามารถใช้ในการประมวลผลชุดข้อมูลที่ไม่มีโครงสร้าง มีโครงสร้าง และกึ่งมีโครงสร้าง ด้วยการใช้ Athena คุณสามารถสร้างการสืบค้นแบบไดนามิกสำหรับชุดข้อมูลได้ ทำงานร่วมกับ AWS Glue เพื่อให้คุณมีวิธีจัดเก็บข้อมูลเมตาใน S3 ที่ดียิ่งขึ้น
เมื่อใช้ AWS Cloud Formation และ Athena คุณสามารถใช้การสืบค้นที่มีชื่อซึ่งช่วยให้คุณสามารถตั้งชื่อการสืบค้นเฉพาะแล้วเรียกโดยใช้ชื่อได้ นี่คือบริการแบบโต้ตอบจาก AWS ที่นักวิทยาศาสตร์และนักพัฒนาข้อมูลสามารถใช้เพื่อดูตารางการเรียกใช้แบบสอบถาม ช่วยในการดึงข้อมูลจาก S3 และโหลดไปยังที่เก็บข้อมูลต่างๆ โดยใช้ไดรเวอร์ Athena JDBC สำหรับการวิเคราะห์ที่เก็บบันทึกและเหตุการณ์ Data Warehousing
การทำงานของ AWS Athena
Amazon Athena ทำงานร่วมกับข้อมูล S3 โดยตรง มันถูกใช้เป็นเอ็นจิ้น SQL แบบกระจายสำหรับการเรียกใช้แบบสอบถามและยังใช้ Apache Hive เพื่อสร้างและแก้ไขตารางและพาร์ติชั่น จุดยืนที่สำคัญบางประการที่จำเป็นสำหรับการทำงานร่วมกับ Athena ได้แก่:
- คุณต้องมีบัญชี AWS
- คุณควรเปิดใช้งานบัญชีของคุณเพื่อส่งออกข้อมูลค่าใช้จ่ายและการใช้งานไปยังบัคเก็ต S3
- คุณสามารถเตรียมถังสำหรับ Athena เพื่อเชื่อมต่อ
- AWS ยังสร้างไฟล์รายการด้วยการใช้ข้อมูลเมตาทุกครั้งที่เขียนไปยังบัคเก็ต อันที่จริงแล้ว มันสร้างโฟลเดอร์ภายในเทคโนโลยี AWS billing data bucket ที่เรียกว่า Athena ที่มีเฉพาะข้อมูลเท่านั้น
- เพื่อทำให้การตั้งค่าง่ายขึ้น ยังสามารถใช้ภูมิภาคที่เรียกว่าภูมิภาค US-West-2
- ขั้นตอนสุดท้ายและขั้นสุดท้ายคือการดาวน์โหลดข้อมูลประจำตัวสำหรับผู้ใช้ใหม่ เนื่องจากข้อมูลประจำตัวช่วยในการจับคู่ข้อมูลประจำตัวของฐานข้อมูลทางอ้อม
Amazon ยังมีเครื่องมือที่เรียกว่า Cost Explorer สำหรับการลากและวาง ซึ่งมาพร้อมกับชุดรายงานที่สร้างไว้ล่วงหน้า เช่น ค่าบริการรายเดือน การใช้งานอินสแตนซ์ที่สงวนไว้ ฯลฯ ในกรณีที่คุณสงสัย คุณควรลองสร้างแบบสอบถามเหนือบริการใหม่ ต้นทุนและการดำเนินงาน นี้ในความเป็นจริงไม่ได้เป็นไปไม่ได้ คุณสามารถแบ่งข้อมูลดิบในขณะที่คำนวณอัตราการเติบโตแต่ละรายการ สร้างฮิสโตแกรม คำนวณคะแนน ฯลฯ
ข้อควรพิจารณาเพิ่มเติมบางประการที่ควรทราบขณะทำงานกับ Amazon Athena ได้แก่:
รุ่นราคา
ราคาของ Athena สูงกว่า 5 ดอลลาร์สำหรับการสแกนข้อมูลเทราไบต์จาก S3 ที่ล้อมรอบด้วยเมกะไบต์ที่ใกล้ที่สุดซึ่งมีขั้นต่ำ 10MB ต่อการสืบค้น
ลดต้นทุน
เคล็ดลับคือการลดข้อมูลที่สแกนในสามวิธีที่เรียกว่าการบีบอัดข้อมูล การใช้ข้อมูลแบบแนวคอลัมน์ และการแบ่งพาร์ติชั่นข้อมูล
คุณสมบัติของ Athena
จากบริการมากมายที่ Amazon จัดหาให้ Athena เป็นหนึ่งในบริการที่ดีที่สุด มีคุณสมบัติหลายอย่างที่ทำให้เหมาะสำหรับการวิเคราะห์ข้อมูล คุณลักษณะบางอย่าง ได้แก่ :
การดำเนินการอย่างรวดเร็ว
Amazon Athena ไม่จำเป็นต้องติดตั้ง สามารถเข้าถึงได้โดยตรงจากคอนโซล AWS โดยใช้ AWS CLI เท่านั้น
ไร้เซิร์ฟเวอร์
ไม่มีเซิร์ฟเวอร์ ดังนั้นผู้ใช้ปลายทางจึงไม่ต้องกังวลกับการกำหนดค่า โครงสร้างพื้นฐาน การปรับขนาด หรือความล้มเหลว Athena ดูแลทุกอย่างได้อย่างง่ายดาย
จ่ายต่อการสอบถาม
Athena เรียกเก็บเงินจากคุณเพียงสำหรับการสืบค้นที่คุณเรียกใช้ ซึ่งเป็นจำนวนข้อมูลที่ได้รับการจัดการต่อการสืบค้นแต่ละครั้ง คุณสามารถประหยัดได้มากจริง ๆ หากคุณบีบอัดข้อมูลและจัดรูปแบบตามนั้น
ปลอดภัย
การใช้นโยบาย IAM และข้อมูลประจำตัวของ AWS ทำให้ Amazon Athena มอบการควบคุมชุดข้อมูลอย่างสมบูรณ์ ด้วยการจัดเก็บข้อมูลในบัคเก็ต S3 นโยบาย IAM สามารถช่วยในการจัดการการควบคุมให้กับผู้ใช้
มีอยู่
Amazon Athena มีความพร้อมใช้งานสูงและผู้ใช้สามารถดำเนินการค้นหาได้ตลอด 24 ชั่วโมง
เร็ว
Amazon Athena เป็นเครื่องมือวิเคราะห์ที่รวดเร็ว เนื่องจากสามารถดำเนินการสืบค้นข้อมูลที่ซับซ้อนได้ในเวลาน้อยลง โดยแบ่งการสืบค้นออกเป็นรายการง่าย ๆ และเรียกใช้คู่ขนานและรวมผลลัพธ์เพื่อให้ได้ผลลัพธ์ที่ต้องการ
บูรณาการ
หนึ่งในคุณสมบัติที่ดีที่สุดของ Athena คือสามารถผสานรวมกับ AWS Glue ได้อย่างง่ายดาย ซึ่งช่วยให้ผู้ใช้สร้างที่เก็บข้อมูลแบบรวมศูนย์ นอกจากนี้ยังช่วยในการสร้างการกำหนดเวอร์ชันของข้อมูลที่ดีขึ้นมาก ด้วยตาราง มุมมอง ฯลฯ ที่ดีขึ้น
แบบสอบถามสหพันธรัฐ
การสืบค้นแบบรวมศูนย์ของ Amazon Athena ช่วยให้ Athena สามารถเรียกใช้การสืบค้น SQL ได้ทั่วทั้งแหล่งข้อมูลเชิงสัมพันธ์ วัตถุ ไม่สัมพันธ์กัน และแบบกำหนดเอง
การเรียนรู้ของเครื่อง
นักพัฒนาสามารถใช้ Amazon Sage Maker เพื่อสร้างและปรับใช้โมเดลการเรียนรู้ของเครื่องใน Amazon Athena
เทคนิคการเพิ่มประสิทธิภาพสำหรับ AWS Athena
ในขณะที่ทำงานกับบริการคลาวด์ เราจำเป็นต้องดูแลบริการที่ใช้สำหรับทรัพยากรที่น้อยที่สุดและให้บริการที่ให้ผลลัพธ์ที่ดีที่สุดในลักษณะที่คุ้มค่า มีมาตรการหลายอย่างที่สามารถนำมาใช้เพื่อเพิ่มประสิทธิภาพการสืบค้นข้อมูลภายใน AWS Athena เพื่อให้สามารถเพิ่มประสิทธิภาพโดยรวมและสามารถตรวจสอบต้นทุนได้ เทคนิคการเพิ่มประสิทธิภาพทั่วไปบางประการสำหรับ บริการวิเคราะห์เชิงโต้ตอบ ของ Amazon Athena ได้แก่:
การแบ่งพาร์ติชั่นข้อมูลใน S3
หนึ่งในแนวทางปฏิบัติที่พบบ่อยที่สุดสำหรับการจัดเก็บข้อมูลใน S3 นั้น การแบ่งพาร์ติชันเสร็จสิ้นแล้วสำหรับการสร้างไดเร็กทอรีแยกตามมิติข้อมูลหลัก เช่น มิติข้อมูลวันที่และมิติของภูมิภาค สามารถใช้เพื่อแบ่งพาร์ติชั่นตามปี เดือน หรือวันเพื่อจัดเก็บไฟล์ภายใต้ไดเร็กทอรีของแต่ละวัน ในทางกลับกัน คุณยังสามารถแบ่งพาร์ติชั่นตามภูมิภาคที่สามารถจัดเก็บข้อมูลสำหรับภูมิภาคที่คล้ายกันภายใต้ไดเร็กทอรีเดียว ด้วยการแบ่งพาร์ติชัน Athena สามารถสแกนข้อมูลน้อยลงต่อการสืบค้น ซึ่งทำให้งานทั้งหมดรวดเร็วและมีประสิทธิภาพ
เทคนิคการบีบอัดข้อมูล
ขณะบีบอัดข้อมูล ต้องใช้ CPU ในการบีบอัดและขยายขนาดในขณะที่ทำการสืบค้นข้อมูล แม้ว่าจะมีเทคนิคการบีบอัดข้อมูลที่แตกต่างกัน แต่วิธีที่นิยมใช้กับ Athena ก็คือ Apache Parquet หรือ Apache ORC นี่เป็นเทคนิคที่เป็นประโยชน์ในการบีบอัดข้อมูลด้วยอัลกอริธึมเริ่มต้นสำหรับฐานข้อมูลแบบเสา
ปรับปรุงเงื่อนไข JOIN ภายในแบบสอบถาม
ในขณะที่ทำการสืบค้นข้อมูลในหลายมิติ สิ่งสำคัญที่จำเป็นต้องมีคือการรวมข้อมูลจากสองตารางเพื่อดำเนินการวิเคราะห์ ขั้นตอนการเข้าร่วมดูเรียบง่าย แต่บางครั้งอาจซับซ้อน ดังนั้นจึงแนะนำให้เก็บตารางที่มีข้อมูลขนาดใหญ่ไว้ทางด้านซ้ายและข้อมูลที่น้อยกว่าอยู่ทางด้านขวา นี่เป็นวิธีที่กลไกประมวลผลข้อมูลสามารถกระจายตารางขนาดเล็กทางด้านขวาไปยังโหนดผู้ปฏิบัติงานได้อย่างง่ายดาย ขณะสตรีมข้อมูลจากตารางด้านซ้ายและรวมทั้งสองเข้าด้วยกัน
การใช้คอลัมน์ที่เลือกใน Query
นี่เป็นอีกหนึ่งเทคนิคการเพิ่มประสิทธิภาพที่จำเป็นซึ่งช่วยลดเวลาและเงินที่ใช้ในการสืบค้น Athena ได้อย่างมาก ขอแนะนำเสมอให้ระบุชื่อคอลัมน์ที่มีผู้ดำเนินการวิเคราะห์ในคิวรีแบบใช้เลือกข้อมูลอย่างชัดเจน เมื่อเทียบกับการระบุการเลือกจากชื่อตาราง
เพิ่มประสิทธิภาพเทคนิคการจับคู่รูปแบบใน Query
มีหลายครั้งที่จำเป็นต้องสืบค้นข้อมูลตามรูปแบบในข้อมูลซึ่งต่างจากคีย์เวิร์ด ใน SQL วิธีง่ายๆ วิธีหนึ่งในการใช้สิ่งนี้คือการใช้ตัวดำเนินการ LIKE ซึ่งเราสามารถพูดถึงรูปแบบและการสืบค้นข้อมูลที่ดึงข้อมูลที่ตรงกับรูปแบบอีกครั้ง ใน Amazon Athena เราสามารถใช้ REGEX สำหรับรูปแบบการจับคู่แทนตัวดำเนินการ LIKE ได้ เนื่องจากเร็วกว่ามาก
บทสรุป
เนื่องจากข้อมูลกลายเป็นส่วนสำคัญของการพัฒนาบริษัท กระบวนการในการรับข้อมูลเชิงลึกและดึงข้อมูลมากขึ้นจึงมีความสำคัญมากขึ้นในขณะนี้ ด้วยบริการคลาวด์สาธารณะที่นำเสนอบริการวิเคราะห์ตามบริการ เช่น Amazon Athena ธุรกิจจำนวนมากสามารถรับข้อมูลเชิงลึกมากขึ้นโดยไม่มีความยุ่งยากที่อาจเกิดขึ้นกับเครื่องมือวิเคราะห์อื่นๆ
ในฐานะหนึ่งในสถาปัตยกรรมแบบไร้เซิร์ฟเวอร์ที่ดีที่สุด Amazon Athena ทำให้การสืบค้นข้อมูลใช้งานง่าย ตั้งค่า และเรียกใช้ได้อย่างรวดเร็ว อันที่จริง รูปแบบการจ่ายต่อการใช้งานของ Athena ทำให้ทุกสิ่งมีราคาไม่แพงสำหรับการวิเคราะห์ นอกจากนี้ เนื่องจาก Athena ทำงานร่วมกับ Amazon S3 และมาพร้อมกับความสามารถในการปรับขนาด ความน่าเชื่อถือ และความทนทานที่ยอดเยี่ยม นี่จึงเป็นหนึ่งในชุดเครื่องมือที่ดีที่สุดในการรันปริมาณงานการวิเคราะห์
ในกรณีที่คุณต้องการการสนับสนุนในการใช้งานและการใช้งาน Amazon Athena โปรดติดต่อ ที่ปรึกษาของเราที่ Encaptechno เรามีทีมที่ผ่านการฝึกอบรมมาเพื่อมอบการสนับสนุนที่ครอบคลุมตลอดการเดินทางของคุณกับ Amazon Athena