Google Genie — โมเดล AI เจนเนอเรชั่นที่สร้างโลกเชิงโต้ตอบเต็มรูปแบบจากรูปภาพ | AI ในธุรกิจ #123
เผยแพร่แล้ว: 2024-05-23ลองจินตนาการถึงสถานการณ์แห่งอนาคตที่ระบบปัญญาประดิษฐ์ขั้นสูงทำให้รูปภาพ ภาพถ่าย หรือแม้แต่ภาพร่างที่เขียนด้วยลายมือมีชีวิตขึ้นมา โดยเปลี่ยนให้กลายเป็นความเป็นจริงเสมือนเชิงโต้ตอบที่สามารถเล่นได้เต็มรูปแบบ น่าทึ่งใช่มั้ย? แต่เทคโนโลยีก็มีอยู่แล้ว มีชื่อเรียกว่า Google Genie และเป็นโมเดล AI สุดล้ำที่สามารถเปลี่ยนโฉมหน้าของอุตสาหกรรมเกม การฝึกอบรมระบบ AI และแม้แต่หุ่นยนต์ได้ ต้องการทราบรายละเอียดของนวัตกรรมที่น่าตื่นเต้นนี้หรือไม่? อ่านต่อ.
Google Genie – สารบัญ
- Google Genie คืออะไร?
- ทำไม Genie ถึงมีนวัตกรรม?
- แอปพลิเคชันที่เป็นไปได้ของ Google Genie
- สรุป
Google Genie คืออะไร?
Google Genie (https://sites.google.com/view/genie-2024/) คือโมเดลโลกพื้นฐานที่พัฒนาโดย DeepMind เป็นโมเดล AI เจนเนอเรชันที่ได้รับการฝึกฝนจากฟุตเทจวิดีโอเกมแพลตฟอร์ม 2D ที่เผยแพร่ต่อสาธารณะมากกว่า 30,000 ชั่วโมง คุณสมบัติหลักของมันคือความสามารถในการสร้างสภาพแวดล้อมที่สามารถโต้ตอบและเล่นได้โดยตรงจากภาพเดียว ภาพถ่าย และแม้แต่ภาพร่างที่วาดด้วยมือ
ที่มา: Genie: สภาพแวดล้อมเชิงโต้ตอบทั่วไป (https://arxiv.org/abs/2402.15391)
สิ่งนี้เป็นไปได้อย่างไร? Genie ใช้เทคนิคการเรียนรู้แบบไม่มีผู้ดูแลในกระบวนการรับความสามารถในการควบคุมสภาพแวดล้อมอย่างแม่นยำโดยอาศัยวิดีโอฟุตเทจเพียงอย่างเดียว ไม่จำเป็นต้องติดแท็กการกระทำของมนุษย์ การใช้โมดูลการเขียนโค้ดการดำเนินการพิเศษจะจับการเปลี่ยนแปลงเล็กน้อยระหว่างเฟรมวิดีโอที่ต่อเนื่องกัน และแม็ปกับการแสดงการเคลื่อนไหวภายใน เช่น การกระโดดหรือการเลี้ยวซ้าย จากนั้นโมเดลไดนามิกจะสร้างเฟรมถัดไปตามลำดับตามการกระทำที่เข้ารหัสไว้
ด้วยเหตุนี้ Genie จึงสามารถสร้างสภาพแวดล้อมเกมแบบโต้ตอบที่ควบคุมได้อย่างเต็มที่จากข้อมูลภาพใดๆ การเคลื่อนไหวของผู้เล่นแต่ละคนจะสร้างเฟรมใหม่ที่ไม่เหมือนใครแบบเรียลไทม์ ทำให้เกิดเซสชันที่ราบรื่นและเล่นได้ นี่เป็นนวัตกรรมที่ยิ่งใหญ่จริงๆ ที่ช่วยให้เราสามารถสร้างโลกเชิงโต้ตอบทั้งหมดจากรูปภาพหรือข้อความได้
ทำไม Genie ถึงมีนวัตกรรม?
นวัตกรรมของ Genie อยู่ที่การผสมผสานองค์ประกอบสำคัญหลายประการไว้ในรุ่นเดียว:
- โมเดลวิดีโอทั่วไป เช่น Phenaki (https://phenaki.video/), TECO (https://wilson1yan.github.io/teco/) หรือ maskvit (https://arxiv.org/abs/2206.11894) ซึ่ง สามารถทำนายเฟรมในอนาคตของลำดับตามเฟรมอินพุตและข้อความ แต่ไม่มีความสามารถในการควบคุมแบบแอคทีฟ
- แบบจำลองโลกที่มุ่งเน้นไปที่การทำนายสภาวะแวดล้อมในอนาคตโดยอิงจากการกระทำของตัวแทน แต่ต้องใช้ข้อมูลที่มนุษย์ให้มา
- การเรียนรู้แบบไม่มีผู้ดูแล ซึ่งช่วยให้ Genie เรียนรู้ทั้งพลวัตของสิ่งแวดล้อมและพื้นที่การดำเนินการจากข้อมูลวิดีโอดิบเพียงอย่างเดียว โดยไม่ต้องมีป้ายกำกับการกระทำของมนุษย์
แม้ว่าแต่ละพื้นที่เหล่านี้จะมีการสำรวจมาก่อนแล้ว แต่ Genie ก็เป็นโมเดลแรกที่รวมพื้นที่เหล่านี้เข้าด้วยกันเพื่อเรียนรู้สภาพแวดล้อมที่ควบคุมได้โดยตรงจากฟุตเทจวิดีโอ วิธีการสอนโมเดลที่ไม่เคยมีมาก่อนโดยไม่มีการควบคุมดูแลโดยมนุษย์ถือเป็นนวัตกรรมสำคัญของ Genie เป็นการเปิดประตูสู่การใช้วิดีโอจำนวนมหาศาลบนอินเทอร์เน็ตเป็นแหล่งฝึกอบรมสำหรับโมเดล AI และทลายกำแพงที่เกี่ยวข้องกับความพร้อมใช้งานที่จำกัดของข้อมูลที่ติดป้ายกำกับ
การผสมผสานระหว่างโมเดลวิดีโอเชิงสร้างสรรค์ โมเดลโลก และการเรียนรู้แบบไม่มีผู้ดูแลในโซลูชันเดียวแสดงถึงความก้าวหน้าขั้นพื้นฐานในการพัฒนาปัญญาประดิษฐ์ Genie แสดงให้เห็นว่าระบบ AI ขั้นสูงสามารถเรียนรู้พฤติกรรมและสภาพแวดล้อมที่ซับซ้อนได้โดยตรงจากข้อมูลที่ไม่มีโครงสร้าง โดยไม่ต้องติดแท็กด้วยตนเอง นี่เป็นก้าวสำคัญบนเส้นทางสู่การบรรลุปัญญาประดิษฐ์ทั่วไป (AGI) ที่แท้จริง
ที่มา: Google Genie (https://sites.google.com/view/genie-2024/)
แอปพลิเคชันที่เป็นไปได้ของ Google Genie
ความสามารถของ Google Genie เป็นมากกว่าการสร้างวิดีโอเกม โมเดล AI ผู้บุกเบิกนี้สามารถค้นหาแอปพลิเคชันได้ในหลายสาขา:
- เครื่องมือสำหรับนักสร้างแอนิเมชั่น – เพียงอัปโหลดรูปภาพ ภาพร่าง หรือคำอธิบายข้อความสั้นๆ แล้ว Genie จะสร้างแอนิเมชั่นที่สอดคล้องกัน
- ทรัพยากรการฝึกอบรมไม่จำกัดสำหรับตัวแทน AI ด้วยความสามารถในการสรุปกับโดเมนใหม่ทั้งหมด Genie เสนอความท้าทายที่ไม่มีที่สิ้นสุดซึ่งระบบ AI ในอนาคตสามารถเรียนรู้ได้ จนถึงขณะนี้การขาดสภาพแวดล้อมการฝึกอบรมที่หลากหลายถือเป็นอุปสรรคสำคัญประการหนึ่งต่อการพัฒนาตัวแทน AI ทั่วไป
- การจำลองทางกายภาพสำหรับหุ่นยนต์ – การวิจัยแสดงให้เห็นว่า Genie ไม่เพียงแต่สามารถควบคุมหุ่นยนต์เสมือนเท่านั้น แต่ยังตระหนักถึงคุณสมบัติทางกายภาพของวัตถุที่เปลี่ยนรูปได้อีกด้วย สิ่งนี้อาจมีผลกระทบอย่างมากต่อการพัฒนาหุ่นยนต์และการจำลองทางกายภาพ
- การใช้งานในอุตสาหกรรมสร้างสรรค์ – จีนี่สามารถอำนวยความสะดวกในการสร้างสรรค์งานศิลปะจัดวางแบบอินเทอร์แอคทีฟ นิทรรศการเสมือนจริง หรือภาพยนตร์ เพียงอัปโหลดภาพร่าง จากนั้นโมเดลจะสร้างโลก 3 มิติที่ควบคุมได้อย่างสมบูรณ์ พร้อมสำหรับการสำรวจ
อย่างไรก็ตาม ไม่ควรมองข้ามความท้าทายและข้อจำกัดที่อาจเกิดขึ้นของเทคโนโลยีนี้ ในขั้นตอนการพัฒนาปัจจุบัน Genie ทำงานได้ดีที่สุดในโดเมนที่แคบ เช่น เกมแพลตฟอร์ม 2 มิติ การขยายไปสู่สภาพแวดล้อม 3 มิติที่ซับซ้อนมากขึ้นจะต้องมีการวิจัยและการเพิ่มประสิทธิภาพเพิ่มเติม นอกจากนี้ ยังมีความเสี่ยงที่เทคโนโลยีนี้จะถูกนำไปใช้ในทางที่ผิดเพื่อสร้างเนื้อหาที่เป็นอันตรายหรือเป็นอันตราย ดังนั้นจึงจำเป็นอย่างยิ่งที่จะต้องพัฒนากรอบการทำงานด้านจริยธรรมและกฎหมายที่แข็งแกร่งเพื่อควบคุมการพัฒนาและการใช้โมเดล AI ดังกล่าว
ที่มา: Google Genie (https://sites.google.com/view/genie-2024/)
สรุป
ด้วยการเปิดใช้การสร้างสภาพแวดล้อมแบบอินเทอร์แอกทีฟเต็มรูปแบบได้โดยตรงจากข้อมูลภาพ โดยไม่จำเป็นต้องแท็กการดำเนินการด้วยตนเอง Google Genie ถือเป็นความก้าวหน้าอย่างแท้จริงในด้านปัญญาประดิษฐ์เชิงสร้างสรรค์ โมเดลโลกขั้นพื้นฐานนี้ให้พลังในการแสดงภาพในรูปแบบของความเป็นจริงเสมือนที่สามารถเล่นได้ ซึ่งสามารถสำรวจและควบคุมโดยมนุษย์หรือตัวแทน AI
ศักยภาพของ Genie นั้นมหาศาล ตั้งแต่เครื่องมือสำหรับนักพัฒนาเกม ไปจนถึงแหล่งข้อมูลการฝึกอบรมที่ไม่จำกัดสำหรับ AI ไปจนถึงการจำลองทางกายภาพสำหรับหุ่นยนต์ นอกจากนี้ยังเป็นก้าวสำคัญบนเส้นทางสู่ AGI ในขณะที่โมเดลอย่าง Genie พัฒนาต่อไป ขอบเขตระหว่างโลกแห่งความเป็นจริงและโลกแห่งความเป็นจริงก็มีความคล่องตัวมากขึ้น
หากคุณชอบเนื้อหาของเรา เข้าร่วมชุมชนผึ้งที่ไม่ว่างของเราบน Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok
AI ในธุรกิจ:
- ภัยคุกคามและโอกาสของ AI ในธุรกิจ (ตอนที่ 1)
- ภัยคุกคามและโอกาสของ AI ในธุรกิจ (ตอนที่ 2)
- แอปพลิเคชัน AI ในธุรกิจ – ภาพรวม
- แชทบอทข้อความที่ช่วยเหลือโดย AI
- ธุรกิจ NLP วันนี้และพรุ่งนี้
- บทบาทของ AI ในการตัดสินใจทางธุรกิจ
- การกำหนดเวลาโพสต์บนโซเชียลมีเดีย เอไอสามารถช่วยได้อย่างไร?
- โพสต์โซเชียลมีเดียอัตโนมัติ
- บริการและผลิตภัณฑ์ใหม่ที่ทำงานด้วย AI
- จุดอ่อนของแนวคิดทางธุรกิจของฉันคืออะไร? เซสชั่นระดมความคิดด้วย ChatGPT
- การใช้ ChatGPT ในธุรกิจ
- นักแสดงสังเคราะห์ เครื่องสร้างวิดีโอ AI 3 อันดับแรก
- 3 เครื่องมือออกแบบกราฟิก AI ที่มีประโยชน์ AI เจนเนอเรชั่นในธุรกิจ
- นักเขียน AI ที่ยอดเยี่ยม 3 คนที่คุณต้องลองวันนี้
- สำรวจพลังของ AI ในการสร้างดนตรี
- นำทางโอกาสทางธุรกิจใหม่ด้วย ChatGPT-4
- เครื่องมือ AI สำหรับผู้จัดการ
- 6 ปลั๊กอิน ChatGTP ที่ยอดเยี่ยมที่จะทำให้ชีวิตของคุณง่ายขึ้น
- 3 กราฟิค AI Generatywna sztuczna inteligencja dla biznesu
- อนาคตของ AI ตาม McKinsey Global Institute จะเป็นอย่างไร
- ปัญญาประดิษฐ์ในธุรกิจ--บทนำ
- NLP หรือการประมวลผลภาษาธรรมชาติในธุรกิจคืออะไร
- การประมวลผลเอกสารอัตโนมัติ
- Google แปลภาษากับ DeepL 5 แอพพลิเคชั่นเครื่องแปลภาษาสำหรับธุรกิจ
- การดำเนินงานและการใช้งานทางธุรกิจของวอยซ์บอท
- เทคโนโลยีผู้ช่วยเสมือนหรือจะคุยกับ AI ได้อย่างไร?
- ระบบธุรกิจอัจฉริยะคืออะไร?
- ปัญญาประดิษฐ์จะมาแทนที่นักวิเคราะห์ธุรกิจหรือไม่?
- ปัญญาประดิษฐ์สามารถช่วย BPM ได้อย่างไร?
- AI และโซเชียลมีเดีย – พวกเขาพูดอะไรเกี่ยวกับเรา?
- ปัญญาประดิษฐ์ในการจัดการเนื้อหา
- AI สร้างสรรค์ของวันนี้และอนาคต
- Multimodal AI และการใช้งานในธุรกิจ
- การโต้ตอบใหม่ AI เปลี่ยนแปลงวิธีการใช้งานอุปกรณ์ของเราอย่างไร
- RPA และ API ในบริษัทดิจิทัล
- ตลาดงานในอนาคตและอาชีพที่จะเกิดขึ้น
- AI ใน EdTech 3 ตัวอย่างบริษัทที่ใช้ศักยภาพปัญญาประดิษฐ์
- ปัญญาประดิษฐ์และสิ่งแวดล้อม 3 โซลูชัน AI ที่จะช่วยคุณสร้างธุรกิจที่ยั่งยืน
- เครื่องตรวจจับเนื้อหา AI พวกเขาคุ้มค่าไหม?
- ChatGPT กับ Bard และ Bing AI chatbot ตัวไหนที่เป็นผู้นำการแข่งขัน?
- chatbot AI เป็นคู่แข่งในการค้นหาของ Google หรือไม่
- ChatGPT พร้อมท์ที่มีประสิทธิภาพสำหรับทรัพยากรบุคคลและการสรรหาบุคลากร
- วิศวกรรมศาสตร์ทันที วิศวกรพร้อมท์ทำอะไร?
- เครื่องกำเนิด AI Mockup เครื่องมือ 4 อันดับแรก
- AI และอะไรอีก? เทรนด์เทคโนโลยียอดนิยมสำหรับธุรกิจในปี 2024
- AI และจริยธรรมทางธุรกิจ เหตุใดคุณจึงควรลงทุนในโซลูชั่นที่มีจริยธรรม
- เมตาเอไอ คุณควรรู้อะไรบ้างเกี่ยวกับฟีเจอร์ที่รองรับ AI ของ Facebook และ Instagram
- กฎระเบียบของเอไอ คุณต้องรู้อะไรบ้างในฐานะผู้ประกอบการ?
- 5 การใช้งานใหม่ของ AI ในธุรกิจ
- ผลิตภัณฑ์และโครงการ AI - แตกต่างจากผลิตภัณฑ์และโครงการอื่นอย่างไร
- กระบวนการอัตโนมัติที่ได้รับความช่วยเหลือจาก AI จะเริ่มตรงไหน?
- คุณจะจับคู่โซลูชัน AI กับปัญหาทางธุรกิจได้อย่างไร
- AI ในฐานะผู้เชี่ยวชาญในทีมของคุณ
- ทีม AI กับการแบ่งบทบาท
- จะเลือกสาขาอาชีพใน AI ได้อย่างไร?
- การเพิ่มปัญญาประดิษฐ์ในกระบวนการพัฒนาผลิตภัณฑ์คุ้มค่าเสมอไปหรือไม่?
- AI ใน HR: ระบบการสรรหาบุคลากรอัตโนมัติส่งผลต่อ HR และการพัฒนาทีมอย่างไร
- 6 เครื่องมือ AI ที่น่าสนใจที่สุดในปี 2023
- 6 อุบัติเหตุทางธุรกิจที่ใหญ่ที่สุดที่เกิดจาก AI
- การวิเคราะห์วุฒิภาวะด้าน AI ของบริษัทเป็นอย่างไร
- AI สำหรับการปรับแต่ง B2B ในแบบของคุณ
- กรณีการใช้งาน ChatGPT 18 ตัวอย่างวิธีปรับปรุงธุรกิจของคุณด้วย ChatGPT ในปี 2024
- ไมโครเลิร์นนิง วิธีที่รวดเร็วในการรับทักษะใหม่
- การใช้งาน AI ที่น่าสนใจที่สุดในบริษัทต่างๆ ในปี 2024
- ผู้เชี่ยวชาญด้านปัญญาประดิษฐ์ทำอะไร?
- โครงการ AI นำมาซึ่งความท้าทายอะไรบ้าง
- เครื่องมือ AI 8 อันดับแรกสำหรับธุรกิจในปี 2567
- เอไอใน CRM AI เปลี่ยนแปลงอะไรในเครื่องมือ CRM
- พระราชบัญญัติ UE AI ยุโรปควบคุมการใช้ปัญญาประดิษฐ์อย่างไร
- โซระ. วิดีโอที่สมจริงจาก OpenAI จะเปลี่ยนธุรกิจอย่างไร
- ผู้สร้างเว็บไซต์ AI 7 อันดับแรก
- เครื่องมือที่ไม่ต้องเขียนโค้ดและนวัตกรรม AI
- การใช้ AI ช่วยเพิ่มประสิทธิภาพการทำงานของทีมของคุณได้มากแค่ไหน?
- จะใช้ ChatGTP เพื่อการวิจัยตลาดได้อย่างไร
- จะขยายขอบเขตการเข้าถึงของแคมเปญการตลาด AI ของคุณได้อย่างไร
- "เราทุกคนคือนักพัฒนา" นักพัฒนาพลเมืองสามารถช่วยบริษัทของคุณได้อย่างไร?
- AI ในการขนส่งและโลจิสติกส์
- AI แก้ Pain Point ทางธุรกิจอะไรบ้าง?
- ปัญญาประดิษฐ์ในสื่อ
- AI ในด้านธนาคารและการเงิน ลาย มอนโซ และแกร็บ
- AI ในอุตสาหกรรมการท่องเที่ยว
- AI ส่งเสริมให้เกิดเทคโนโลยีใหม่อย่างไร
- การปฏิวัติของ AI ในโซเชียลมีเดีย
- AI ในอีคอมเมิร์ซ ภาพรวมของผู้นำระดับโลก
- เครื่องมือสร้างภาพ AI 4 อันดับแรก
- เครื่องมือ AI 5 อันดับแรกสำหรับการวิเคราะห์ข้อมูล
- กลยุทธ์ AI ในบริษัทของคุณ - จะสร้างได้อย่างไร
- หลักสูตร AI ที่ดีที่สุด – 6 คำแนะนำที่ยอดเยี่ยม
- การเพิ่มประสิทธิภาพการฟังโซเชียลมีเดียด้วยเครื่องมือ AI
- IoT + AI หรือวิธีลดต้นทุนด้านพลังงานในบริษัท
- AI ในโลจิสติกส์ 5 เครื่องมือที่ดีที่สุด
- GPT Store – ภาพรวมของ GPT ที่น่าสนใจที่สุดสำหรับธุรกิจ
- LLM, GPT, RAG... คำย่อของ AI หมายถึงอะไร
- หุ่นยนต์ AI – อนาคตหรือปัจจุบันของธุรกิจ?
- ค่าใช้จ่ายในการนำ AI ไปใช้งานในบริษัทคือเท่าไร?
- AI สามารถช่วยอาชีพฟรีแลนซ์ได้อย่างไร?
- ทำงานอัตโนมัติและเพิ่มผลผลิต คำแนะนำเกี่ยวกับ AI สำหรับฟรีแลนซ์
- AI สำหรับสตาร์ทอัพ – เครื่องมือที่ดีที่สุด
- การสร้างเว็บไซต์ด้วย AI
- OpenAI, Midjourney, Anthropic, Hugging Face ใครเป็นใครในโลกของ AI?
- Eleven Labs และอะไรอีก? สตาร์ทอัพด้าน AI ที่มีแนวโน้มมากที่สุด
- ข้อมูลสังเคราะห์และความสำคัญต่อการพัฒนาธุรกิจของคุณ
- เครื่องมือค้นหา AI ยอดนิยม จะหาเครื่องมือ AI ได้ที่ไหน?
- วิดีโอเอไอ เครื่องกำเนิดวิดีโอ AI ล่าสุด
- AI สำหรับผู้จัดการ AI จะทำให้งานของคุณง่ายขึ้นได้อย่างไร
- มีอะไรใหม่ใน Google ราศีเมถุน? ทุกสิ่งที่คุณจำเป็นต้องรู้
- เอไอในโปแลนด์ บริษัท การประชุม และสัมมนา
- ปฏิทินเอไอ จะเพิ่มประสิทธิภาพเวลาของคุณในบริษัทได้อย่างไร?
- AI และอนาคตของการทำงาน จะเตรียมธุรกิจของคุณให้พร้อมรับการเปลี่ยนแปลงได้อย่างไร?
- การโคลนเสียง AI สำหรับธุรกิจ จะสร้างข้อความเสียงส่วนตัวด้วย AI ได้อย่างไร?
- การตรวจสอบข้อเท็จจริงและภาพหลอน AI
- AI ในการสรรหาบุคลากร – การพัฒนาสื่อการจัดหางานทีละขั้นตอน
- กลางการเดินทาง v6. นวัตกรรมในการสร้างภาพ AI
- AI ใน SMEs SMEs จะแข่งขันกับยักษ์ใหญ่ด้วย AI ได้อย่างไร?
- AI เปลี่ยนแปลงการตลาดที่มีอิทธิพลอย่างไร
- AI เป็นภัยคุกคามต่อนักพัฒนาจริงหรือ? เดวิน และ Microsoft AutoDev
- แชทบอท AI สำหรับอีคอมเมิร์ซ กรณีศึกษา
- สุดยอดแชทบอท AI สำหรับอีคอมเมิร์ซ แพลตฟอร์ม
- จะติดตามสิ่งที่เกิดขึ้นในโลก AI ได้อย่างไร?
- ฝึกฝน AI ก้าวแรกสู่การนำ AI มาประยุกต์ใช้กับธุรกิจของคุณต้องทำอย่างไร?
- ความฉงนสนเท่ห์ Bing Copilot หรือ You.com? เปรียบเทียบเครื่องมือค้นหา AI
- อาณาจักร โมเดลภาษาที่ก้าวล้ำจาก Apple?
- ผู้เชี่ยวชาญด้าน AI ในโปแลนด์
- Google Genie — โมเดล AI ที่สร้างโลกเชิงโต้ตอบเต็มรูปแบบจากรูปภาพ