รู้จักกับ Gemini โมเดล AI สุดล้ำจาก Google


รู้จักกับ Gemini โมเดล AI สุดล้ำจาก Google

การพัฒนาโมเดล Generative AI ของ Google ได้เริ่มต้นขึ้นตั้งแต่ปี 2012 โดยเริ่มจากการวิจัยและพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ที่ซึ่งโมเดล AI สามารถเรียนรู้ภาษามนุษย์และสร้างข้อความที่เหมือนกับมนุษย์ได้อย่างน่าเหลือเชื่อ ล่าสุดในปี 2023 ที่ผ่านมา Google ได้เปิดตัว Gemini ซึ่งเป็นแพลตฟอร์ม Generative AI ที่รวมเอาโมเดล Generative AI ต่างๆ ของ Google มาไว้ในที่เดียว ในบทความนี้ Cloud Ace Thailand ขอพาทุกท่านไปรู้จักกับโมเดล Gemini กัน!

รู้จัก Gemini ใน 90 วินาที

1. Welcome to the Gemini era

2. AI กับความสามารถแบบ Multimodal

3. ความสามารถสุดล้ำของ Gemini

4. พลังของ Gemini สู่การสร้างสรรค์โลก

1. Welcome to the Gemini era 

Gemini หรือ ‘เจมินาย’ เป็น AI แบบ Multimodal Transformer ของ Google ที่สามารถทำความเข้าใจข้อมูลได้หลากหลายประเภท ทั้งข้อความ รูปภาพ เสียง วิดีโอและโค้ด สามารถทำงานที่ซับซ้อนได้อย่างมีประสิทธิภาพ ซึ่งโมเดล AI เจนเนอเรชันก่อนหน้านี้ยังไม่สามารถทำได้

โดย Gemini 1.0 นี้ ได้เปิดตัวออกมา 3 รุ่น ตามลักษณะการใช้งาน ดังนี้

  1. Gemini Ultra: โมเดลขนาดใหญ่ สามารถทำงานที่มีความต่อเนื่องและซับซ้อนสูง เช่น การแก้ปัญหาที่ซับซ้อนและยังรองรับภาษามากกว่า Gemini Pro และ Gemini Nano
  2. Gemini Pro: โมเดลขนาดกลาง ที่รองรับการใช้งานทั่วไปในหลากหลายสเกล เช่น การเขียนโค้ดและการสร้างงานศิลปะ และได้รับการปรับให้เหมาะสมทั้งด้านต้นทุนและเวลา

  3. Gemini Nano: โมเดลขนาดเล็ก ที่ถูกปรับให้เหมาะกับการใช้งานบนอุปกรณ์สำหรับพกพา เช่น สมาร์ทโฟนและแท็บเล็ต สามารถทำงานต่างๆ ทั่วไป เช่น การแปลภาษา การตอบคำถาม และการเขียนเนื้อหา

โมเดล Gemini 3 รุ่น ตามลักษณะการใช้งาน

2. AI กับความสามารถแบบ Multimodal

ในยุคที่ข้อมูลมีมากมายมหาศาลและหลากหลายรูปแบบ ความสามารถในการเข้าใจและจัดการข้อมูลได้อย่างมีประสิทธิภาพจึงเป็นสิ่งสำคัญ ความสามารถแบบ Multimodal คือ ความสามารถของ AI ในการเข้าใจและจัดการข้อมูลได้หลากหลายประเภทพร้อมกัน ซึ่ง Gemini เรียนรู้ข้อมูลเหล่านี้ตั้งแต่เริ่มต้นและเปิดใช้งานการสร้างสรรค์ที่ซับซ้อนมากขึ้นโดยใช้ข้อมูลหลายรูปแบบ

ตัวอย่างของ AI ที่ใช้ความสามารถแบบ Multimodal เช่น

  • การแปลภาษา: สามารถเข้าใจทั้งความหมายของข้อความและเสียง ซึ่งช่วยให้การแปลภาษามีความถูกต้องและแม่นยำยิ่งขึ้น

  • การเขียนโค้ด: สามารถเข้าใจความสัมพันธ์ระหว่างภาพและโค้ด ซึ่งช่วยให้การเขียนโค้ดมีประสิทธิภาพยิ่งขึ้น

  • การสร้างงานศิลปะ: สามารถเข้าใจองค์ประกอบของภาพและเสียง ซึ่งช่วยให้การสร้างงานศิลปะมีความสร้างสรรค์ยิ่งขึ้น

ความสามารถแบบ Multimodal ของ AI

3. ความสามารถสุดล้ำของ Gemini 

Gemini ได้รับการออกแบบมาเพื่อจัดการข้อมูลแบบ Multimodal โดยการเรียนรู้จากชุดข้อมูลแบบหลายรูปแบบตั้งแต่ขั้นตอนการฝึกอบรม ทำให้สามารถจัดการข้อมูลแบบ Multimodal ได้อย่างเป็นธรรมชาติทั้งข้อมูลขาเข้า (Input) และขาออก (Output) ทั้งข้อความ เสียง รูปภาพ แผนภูมิ ภาพหน้าจอ PDF และวิดีโอ พร้อมสร้างผลลัพธ์ทั้งเป็นข้อความและรูปภาพ

นอกจากนี้ Gemini ยังได้รับการปรับให้เหมาะสมสำหรับงานบนอุปกรณ์เคลื่อนที่ ซึ่งจะช่วยปรับปรุงประสิทธิภาพของแอปพลิเคชันในชีวิตประจำวัน เช่น การจดจำเสียงและการประมวลผลภาพ ทำให้ชีวิตของเราสะดวกและมีประสิทธิภาพมากขึ้น

เพื่อพิสูจน์ประสิทธิภาพของ Gemini ขอเชิญไปชมผลทดสอบเปรียบเทียบระหว่าง Gemini กับ GPT-4 ในด้านงาน Multimidal และงานประมวลผลข้อความ ซึ่ง Google DeepMind ศูนย์วิจัยปัญญาประดิษฐ์ของ Google แสดงไว้บนเว็บไซต์อย่างเป็นทางการ

Gemini โดดเด่นเหนือ GPT- 4 เล็กน้อย โดยเฉพาะในงานรับรู้ภาพ (VQA2, TextVQA) และงานทำความเข้าใจเอกสาร (DocVQA) ซึ่งทิ้งห่างไปกว่า 2.5%

ความสามารถของ Gemini ในงานรับรู้ภาพ

นอกจากนี้ ในการบรรยายภาพวิดีโอ (VATEX) Gemini ทำคะแนนได้สูงกว่าประมาณ 6.7 คะแนน และ Gemini Pro เหนือกว่า Whisper v2 ใน GPT-4 ถึง 10.2 คะแนน ในการแปลเสียง (CoVoST 2)

ความสามารถของ Gemini ในด้านการบรรยายภาพวิดีโอและเสียง

ในด้านการประมวลผลข้อความ Gemini Ultra ยังคงทำผลงานโดดเด่นกว่า GPT-4 ในงานวัดความรู้ทั่วไป (MMLU) การใช้เหตุผล (Big-Bench Hard) และความเข้าใจในการอ่าน (DROP) แต่ GPT-4 กลับพลิกคว้าชัยชนะในงานการใช้เหตุผลสามัญสำนึก (HellaSwag) ด้านคณิตศาสตร์ (GSM8K) คู่คี่สูสีกันมาก ส่วนการสร้างโค้ด (HumanEval, Natural2Code) Gemini มีความแม่นยำสูงกว่า

ประเด็นน่าสนใจคือ แม้คะแนน HellaSwag ของ Gemini จะต่ำกว่า GPT-4 แต่รายงานทางเทคนิค (Gemini: A Family of Highly Capable Multimodal Models_report) กลับชี้ถึงความเป็นไปได้ที่ข้อมูลทดสอบ HellaSwag อาจมีความไม่เหมาะสมบางอย่าง ซึ่งอาจเป็นสาเหตุที่ทำให้ผลลัพธ์คลาดเคลื่อน

MMLU (Many Multimodal Language Understanding) ถือเป็นเกณฑ์ทดสอบความรู้และทักษะการแก้ปัญหาที่รอบด้านสำหรับโมเดลภาษาขนาดใหญ่ (LLM) แต่สิ่งที่น่าตื่นเต้นกว่านั้นคือ ผลลัพธ์ของ Gemini Ultra บน MMLU ที่ทะลุขีด 90% เป็นครั้งแรก นั่นหมายความว่า ในบางสาขาเฉพาะทางการทดสอบพบว่า Gemini Ultra สามารถตอบคำถามและแก้ปัญหาได้ถูกต้องแม่นยำเกินกว่าผู้เชี่ยวชาญระดับมนุษย์ถึง 89.8%

(อ้างอิง: https://arxiv.org/abs/2009.03300)

ความสามารถของ Gemini ในด้านการประมวลผลข้อความ

จากผลการทดสอบที่กล่าวมาข้างต้น พบว่า Gemini มีประสิทธิภาพเหนือกว่า GPT-4 และ GPT-4V เกือบทุกรายการ โดยเฉพาะอย่างยิ่งในงานประมวลผลข้อมูลแบบ Multimodal

4. พลังของ Gemini สู่การสร้างสรรค์โลก

Gemini จะผสานรวมเข้ากับผลิตภัณฑ์และบริการของ Google หลากหลายประเภท เพื่อสร้างจุดสัมผัสที่มากขึ้นสำหรับผู้ใช้ในการโต้ตอบ

  • Various Google services (มีให้บริการตามลำดับ)

Gemini ถูกรวมเข้ากับ Google Search และโฆษณาเพื่อยกระดับประสบการณ์ผู้ใช้โดยการปรับปรุงความแม่นยำและความเกี่ยวข้องของผลการค้นหา คาดว่าจะใช้สำหรับการปรับแต่งโฆษณาและการเพิ่มประสิทธิภาพเนื้อหา นอกจากนี้ยังมีให้บริการใน Chrome, Duet AI, Google Maps และอีกมากมาย

  • Google Pixel

Pixel 8 Pro รุ่นล่าสุดในซีรีส์ Google Pixel ได้รับการออกแบบมาเพื่อใช้งาน Gemini Nano บนอุปกรณ์และมอบประสบการณ์ใหม่ให้กับผู้ใช้ ตัวอย่างเช่น การจดจำเสียง การจัดระเบียบรูปภาพอัตโนมัติ และการสนับสนุนการสื่อสารที่มีประสิทธิภาพ

  • Gemini API สำหรับ Developers

Google ได้เปิดตัว Gemini API อย่างเป็นทางการเมื่อวันที่ 13 ธันวาคม 2023 ให้เหล่า Developer ได้ทดลองใช้งานผ่าน Google AI Studio และ Vertex AI ช่วยให้นักพัฒนาสามารถรวม Gemini Pro เข้ากับแอปพลิเคชันและบริการของตนเองได้ สิ่งนี้ทำให้นักพัฒนาสามารถมอบฟังก์ชันการทำงานที่สมบูรณ์และชาญฉลาดยิ่งขึ้นให้กับผู้ใช้

  • Google Bard

ด้วยการผสานรวม Gemini Pro เข้ากับ Bard ผู้ใช้จะสามารถใช้ประโยชน์จาก AI การสนทนาขั้นสูงยิ่งขึ้นสำหรับการแก้ไข การระดมความคิด การวางแผน และอื่นๆ สิ่งนี้ช่วยให้ผู้ใช้ทำงานได้อย่างสร้างสรรค์และมีประสิทธิภาพมากขึ้น นอกจากนี้ยังมีแผนการที่จะขยายไปยังข้อมูลที่หลากหลายรูปแบบและเพิ่มการรองรับภูมิภาคและภาษาใหม่ๆ ซึ่ง Bard Advanced หรือการผสานความสามารถรวมกับ Gemini Ultra คาดว่าจะเปิดตัวในปี 2024 ด้วยเช่นกัน

พลาดไม่ได้ ! กับแคมเปญ

Bring Bard to your business with Cloud Ace

หากคุณกำลังสนใจเริ่มต้นใช้งาน Generative AI แต่ไม่รู้เริ่มต้นอย่างไรดี ทดลองใช้งาน Generative AI ฟรี! ใน 1 เดือน กับ Cloud Ace Thailand เพื่อขับเคลื่อนโอกาสใหม่ๆ ในการทำธุรกิจ

Power of AI is in your hands!

หากคุณต้องการคำปรึกษา Cloud Ace Thailand พร้อมให้บริการที่จะสนับสนุนคุณตั้งแต่ การให้คำปรึกษา จนถึงการออกแบบระบบ ติดตั้งระบบ ย้ายระบบ ในฐานะ Google Cloud Partner ที่มีความเชี่ยวชาญ และได้รับรางวัล Google Cloud Partner of the year 4 ปีติดต่อกัน และได้รับรางวัล '2023 Google Cloud Sales Partner of the Year for Southeast Asia' ที่ผ่านมา

ติดต่อเรา th_sales@cloud-ace.com

.
.