10 เทรนด์ที่น่าติดตามใน Data Science ในปี 2020
เผยแพร่แล้ว: 2020-08-22นักวิจัยหลายคนในมหาวิทยาลัยต่างๆ เพิ่มการวิจัย NLP เป็นสองเท่า
หนึ่งในผู้จัดแสดงที่ใหญ่ที่สุดสำหรับโครงการวิทยาศาสตร์ข้อมูลคือการขาดข้อมูลการฝึกอบรมที่เกี่ยวข้อง
ปี 2020 และอีกไม่กี่ปีข้างหน้าจะน่าตื่นเต้นมากสำหรับธุรกิจและทีมที่นำวิทยาศาสตร์ข้อมูลมาใช้
ปัญญาประดิษฐ์เป็นประเด็นร้อนในวันนี้ และในขณะที่มีบางกลุ่มที่อ้างว่าฤดูหนาวกำลังจะมาถึง ประชากรจำนวนมากขึ้น (รวมถึงตัวฉันด้วย) รู้สึกอย่างแรงกล้าว่าคราวนี้ ฤดูร้อนมาถึงแล้ว และมันจะเป็นงานใหญ่งานเดียว อันที่จริง ด้วยความก้าวหน้าทั้งในด้านฮาร์ดแวร์และซอฟต์แวร์ อาจไม่มีฤดูหนาวให้เห็นเป็นเวลานาน ด้านล่างนี้คือเทรนด์ 10 อันดับแรกที่ฉันตื่นเต้นในปี 2020
คอมพิวเตอร์ควอนตัม
ในช่วงปลายปี 2019 การประกาศของ Google เกี่ยวกับพลังคอมพิวเตอร์ควอนตัม ซึ่งมีประสิทธิภาพเหนือกว่าซูเปอร์คอมพิวเตอร์มาตรฐานกว่าพันล้านเท่า ทำให้เกิดกระแสในสื่อ แม้ว่าอาจไม่มีการใช้งานโดยตรงในแอปพลิเคชันในโลกแห่งความเป็นจริงในปัจจุบัน แต่ก็ยังมีการเน้นที่การประมวลผลควอนตัมในห้องปฏิบัติการวิจัยของ บริษัท เช่น Google และ IBM อย่างกว้างขวาง ดังนั้นในปี 2020 และปีต่อๆ ไป เรามั่นใจว่าจะก้าวกระโดดขั้นสุดท้ายในการคำนวณควอนตัม และในไม่ช้าก็อาจกลายเป็นสิ่งที่ใช้งานได้จริงสำหรับการใช้งานจริง
ความก้าวหน้าในการประมวลผลภาษาธรรมชาติ (NLP)
การประมวลผลภาษาธรรมชาติ (NLP) เป็นจุดสนใจที่สำคัญมาระยะหนึ่งแล้ว และการเข้ามาของหม้อแปลงไฟฟ้าและโมเดลความสนใจเมื่อเร็วๆ นี้ สิ่งต่างๆ ก็กำลังดำเนินไปอย่างเต็มกำลัง เมื่อไม่กี่เดือนที่ผ่านมา OpenAI ของ Elon Musk ได้เปิดตัวโมเดล GPT-3 โมเดลนี้ใช้โมเดลสถาปัตยกรรมของหม้อแปลงไฟฟ้า ซึ่งได้รับการฝึกอบรมตามพารามิเตอร์สูงถึง 175B สิ่งนี้เปลี่ยนแปลงทุกอย่าง โมเดลนี้ได้รับ SOTA ในงานโมเดลภาษาต่างๆ และยังคงทำต่อไปในงานส่วนตัวจำนวนมาก
นักวิจัยหลายคนในมหาวิทยาลัยต่างๆ ได้เพิ่มการวิจัย NLP เป็นสองเท่า ตั้งแต่การแสดงคำตามบริบทที่ใหม่กว่าไปจนถึงการสร้างแบบจำลองตามลำดับต่อลำดับ ทรัพยากรจำนวนมากได้ทุ่มเทให้กับ NLP และทำให้เครื่องสามารถเข้าใจและตอบสนองต่อภาษาได้ เช่นเดียวกับมนุษย์
ที่เก็บข้อมูลและตลาดกลาง
หนึ่งในผู้จัดแสดงที่ใหญ่ที่สุดสำหรับโครงการวิทยาศาสตร์ข้อมูลคือการขาดข้อมูลการฝึกอบรมที่เกี่ยวข้อง หลายทีมจบลงด้วยการใช้เวลามากถึง 80% ในการรวบรวมข้อมูลการฝึกอบรมที่ถูกต้อง ในปีที่ผ่านมา ทีมอิสระจำนวนมาก โครงการโอเพนซอร์ส และโครงการที่ได้รับทุนสาธารณะได้เปิดการเข้าถึงชุดข้อมูลที่มีโครงสร้างจำนวนมาก องค์กรต่างๆ กำลังเข้าสู่ธุรกิจการสร้างรายได้จากข้อมูลที่พวกเขาสามารถเข้าถึงได้หรือทำหน้าที่เป็นตัวรวบรวมข้อมูลที่รวบรวม ทำให้เป็นมาตรฐาน และจัดโครงสร้างข้อมูลในรูปแบบที่ทีมวิทยาศาสตร์ข้อมูลอื่นๆ สามารถใช้ได้ สายธุรกิจใหม่นี้จะได้เห็นแนวโน้มที่เพิ่มขึ้นในปีต่อๆ ไป
คำอธิบายประกอบในฐานะธุรกิจ
ในขณะที่การรวบรวมและการรวมข้อมูลเกิดขึ้นในแทร็กคู่ขนาน ส่วนสำคัญที่เกี่ยวข้องกับการแท็กข้อมูลเดียวกัน ใส่คำอธิบายประกอบ และพร้อมสำหรับการฝึกอบรมก็กำลังรวบรวมไอน้ำครั้งใหญ่เช่นกัน เครื่องมือและบริการ เช่น เติร์กเชิงกล ซึ่งช่วยให้สามารถรวบรวมคำอธิบายประกอบได้มีอยู่แล้ว แต่ตอนนี้มีความตระหนักเพิ่มมากขึ้นว่าสิ่งนี้สามารถเป็นธุรกิจที่ทำงานได้จริง ประเทศกำลังพัฒนาหลายแห่ง โดยเฉพาะอย่างยิ่งประเทศที่ทำงานในระบบเศรษฐกิจที่มีต้นทุนต่ำ กำลังพัฒนาธุรกิจเกี่ยวกับการติดแท็กข้อมูลกับทีมงานขนาดใหญ่ที่คัดเลือก ติดแท็ก และติดฉลากข้อมูลอินพุต และเตรียมข้อมูลเหล่านั้นให้พร้อมสำหรับการบริโภค
เพิ่มความเป็นจริง (AR)
นับตั้งแต่เปิดตัวแอปพลิเคชัน Google Glass และ Microsoft HoloLens รวมถึงแอปพลิเคชันอื่นๆ ในช่วงไม่กี่ปีที่ผ่านมา AR มีความก้าวหน้าอย่างมาก ปีนี้เราเห็นสิทธิบัตรและประกาศจากบริษัทต่างๆ ในแว่นตา AR ซึ่งจะช่วยให้ผู้คนสามารถโต้ตอบและทำงานในสภาพแวดล้อมจำลองในโลกแห่งความเป็นจริงได้ แว่นตาอัจฉริยะแห่งปี 2021 จะเปลี่ยนวิธีการทำงานของโลกและการสื่อสาร
แนะนำสำหรับคุณ:
การวิเคราะห์ข้อมูลในฐานะบริการ
การวิเคราะห์ข้อมูลตามขนาดจำเป็นต้องมีการตั้งค่าซอฟต์แวร์และฮาร์ดแวร์ที่ดี เราต้องตั้งค่าคลัสเตอร์แมชชีนเลิร์นนิง ติดตั้งซอฟต์แวร์ที่จำเป็น แม้กระทั่งซอฟต์แวร์ ' ปลั๊กแอนด์เพลย์' และต้องเสียค่าใช้จ่ายล่วงหน้าจำนวนมากก่อนจึงจะสามารถวิเคราะห์ข้อมูลชุดแรกได้ อย่างไรก็ตาม มี SaaS และโซลูชันแบบบริการตนเองจำนวนมากที่สามารถเริ่มต้นกับเงินดอลลาร์ได้ นอกจากนี้ ด้วยเครื่องมือและเทคนิคต่างๆ เช่น AutoML ที่ใช้ได้กับผู้ให้บริการแทบทุกราย ทำให้การวิเคราะห์ข้อมูลระดับสูงพร้อมให้ทุกคนใช้งานได้แล้ว
AI อธิบายได้
โมเดล AI โดยเฉพาะอย่างยิ่งที่จัดการกับมิติข้อมูลที่ได้รับที่ใหญ่ขึ้นและข้อมูลที่รวบรวมจากจุดสัมผัสต่างๆ ส่วนใหญ่เป็นกล่องดำแบบจำลองการเรียนรู้เชิงลึก ข้อมูลเข้าและการตัดสินใจ (ผลลัพธ์) ออกมา มีเหตุผลน้อยมากที่อยู่เบื้องหลังการตัดสินใจบางอย่าง ในขณะที่เราก้าวไปสู่อนาคตที่ AI ถูกใช้ในการใช้งานต่างๆ เช่น การวินิจฉัยทางการแพทย์ ยานพาหนะที่ขับเคลื่อนด้วยตนเอง การซื้อขายอัตโนมัติ และแม้กระทั่งในการสรรหาบุคลากรและฟังก์ชั่นการตัดสินใจอื่นๆ สิ่งสำคัญคือต้องให้ความโปร่งใสและมองเห็นได้ว่าทำไมเครื่องบางเครื่อง แบบจำลองที่เรียนรู้ได้บรรลุการตัดสินใจโดยเฉพาะอย่างยิ่ง มีเครื่องมือและเฟรมเวิร์กโอเพนซอร์ซมากมายที่ให้ผลลัพธ์ที่ดีในช่วงแรกในการตีความแบบจำลอง AI
AI ที่มีความรับผิดชอบและมีจริยธรรม
หากรถยนต์ที่ขับด้วยตนเองต้องเผชิญกับสองทางเลือก ซึ่งทั้งสองอย่างนี้ส่งผลเสียต่อมนุษย์ โมเดลควรตัดสินใจอย่างไร? ควรยึดตามข้อมูลหรือควรมีกฎการแทนที่หรือไม่
หากมีการพัฒนา AI ที่แปลกใหม่ จะถูกนำไปใช้ในแอปพลิเคชันทางทหารที่จะใช้ในสงครามในที่สุด?
นี่คือคำถามบางส่วน รวมถึงอคติ การปกป้องข้อมูล การเลือกปฏิบัติ ฯลฯ ที่ AI อย่างมีความรับผิดชอบและพยายามแก้ไข มีการเคลื่อนไหวครั้งใหญ่เกี่ยวกับการใช้ AI อย่างมีจริยธรรม และหลายบริษัทกำลังสร้างกองกำลังเฉพาะกิจและพันธมิตรที่จัดการกับเรื่องนี้
คลังข้อมูลและแพลตฟอร์มการจัดการข้อมูล
คลังสินค้ามีมานานแล้วและเป็นขั้นตอนหลักสำหรับองค์กรในการรวบรวมและจัดโครงสร้างข้อมูลเพื่อให้เริ่มเข้าใจ ในช่วงไม่กี่ปีที่ผ่านมาได้เห็นการเกิดขึ้นของบริการและแพลตฟอร์มด้านคลังสินค้าจำนวนมากที่ทีมวิศวกรรมข้อมูลสามารถใช้เพื่อเริ่มต้นการจัดเก็บข้อมูลและการเดินทางของข้อมูล
วิทยาศาสตร์ข้อมูลเป็นความสามารถพื้นฐานสำหรับองค์กร
เมื่อหลายปีก่อน การวิเคราะห์ข้อมูลเชิงสถิติและบิ๊กดาต้าถูกมองว่าเป็นทักษะ "ผู้เชี่ยวชาญ" ที่ส่งต่อไปยังทีมวิเคราะห์ แต่สิ่งนี้เปลี่ยนไปเมื่อสองสามปีก่อน ในปัจจุบัน ทีมธุรกิจจำนวนมากต้องการให้สมาชิกในทีมใช้เครื่องมือวิเคราะห์เพื่อวิเคราะห์ข้อมูล
ในทำนองเดียวกัน วันนี้ มีการเคลื่อนไหวที่ทักษะด้านวิทยาศาสตร์ข้อมูลถูกสร้างขึ้นภายในทีมธุรกิจ ทีมธุรกิจกำลังเรียนรู้วิธีจัดการโครงการวิทยาศาสตร์ข้อมูล ความคาดหวัง และระยะเวลา และทักษะและการจัดการทีมแตกต่างจากทักษะในทีมพัฒนาซอฟต์แวร์แบบเดิมอย่างไร
โดยสรุปแล้ว ปี 2020 และอีกไม่กี่ปีข้างหน้าจะน่าตื่นเต้นมากสำหรับธุรกิจและทีมที่นำวิทยาศาสตร์ข้อมูลและงานที่เกี่ยวข้องมาใช้