ทิศทางใหม่ของการวิเคราะห์ข้อมูลใน Google Cloud 2025


ทิศทางใหม่ของการวิเคราะห์ข้อมูลใน Google Cloud 2025

เรากำลังก้าวเข้าสู่ยุคใหม่ของการวิเคราะห์ข้อมูลในปี 2025 โลกของเรามีข้อมูลที่เปลี่ยนแปลงไปอย่างรวดเร็วมากมาย รวมถึงเครื่องมือวิเคราะห์ข้อมูลและ AI กำลังจะเข้าถึงได้ง่ายมากขึ้นกว่าเดิม จากข้อมูลแนวโน้มในปี 2025 นี้ พบว่า 84% เชื่อว่า Generative AI ช่วยให้พวกเราลดเวลาที่ใช้ในการวิเคราะห์ข้อมูลเชิงลึก

วันนี้เราจะมาพูดถึงนวัตกรรมใหม่สำหรับเครื่องมือที่ใช้ในการวิเคราะห์ข้อมูลและการแสดงผลของ Google นั้นก็คือ Bigquery และ Looker ที่จะช่วยให้เราสามารถใช้ประโยชน์จากข้อมูลทั้งหมดที่เรามีอยู่ ด้วยผู้ช่วยอัจฉริยะอย่าง AI

Bigquery อย่างที่เรารู้กันคือ แพลตฟอร์มสำหรับวิเคราะห์ข้อมูลอย่างเต็มรูปแบบ ซึ่งตอนนี้รองรับการใช้งานสำหรับ AI โดยสามารถรวมข้อมูลหลายรูปแบบและประมวลผลแบบ serverless พร้อมกันได้อย่างมีประสิทธิภาพ

Gemini ใน BigQuery คือเครื่องมือที่ช่วยในการเตรียมข้อมูล, วิเคราะห์ข้อมูล และการทำงานด้าน data engineering โดยไม่ต้องเสียเวลา ทำให้กระบวนการต่างๆ ง่ายและเร็วขึ้น

Gemini ใน Looker ช่วยให้เราสร้างภาพรวมและรายงานได้ง่ายๆ โดยใช้โมเดลข้อมูลในการสร้าง visualization หรือ dashboard โดยอัตโนมัติ

พร้อมหรือยัง มาลงรายละเอียดกันเลยดีกว่า!

Multimodal analytics with new BigQuery and Vertex AI integrations 

BigQuery และ Vertex AI สามารถเชื่อมต่อกันโดยตรง ทำให้การเตรียมและวิเคราะห์ข้อมูลหลากหลายรูปแบบ เช่น เอกสาร, ไฟล์เสียง, และวิดีโอ เป็นไปอย่างราบรื่น BigQuery มาพร้อมฟีเจอร์ที่รองรับการวิเคราะห์ข้อมูลที่ไม่มีโครงสร้างได้หลากหลาย ผ่าน object tables และ APIs ของ Vertex AI เช่น Vision, Document AI และ Speech-to-Text ด้วยความสามารถเหล่านี้ องค์กรสามารถนำ AI มาประยุกต์ใช้ได้ง่ายขึ้น เช่น การสร้าง prompt จากข้อมูลใน BigQuery และการใช้ LLMs ในงานต่างๆ เช่น การวิเคราะห์อารมณ์, การจัดหมวดหมู่, การตรวจจับหัวข้อ, การแปลภาษา และอื่นๆ

Gemini in BigQuery for AI-powered assistance 

เราจะมาแสดงตัวอย่างของ Gemini ใน Bigquery ที่ช่วยให้ผู้ใช้อย่างเราตั้งคำถาม และออกคำสั่งให้สร้าง Visualization หรือ Report ตามแบบที่เรากำหนดเองได้

จากตัวอย่างนี้ เราได้จำลองให้ตัวเองเป็นนักวิเคราะห์ข้อมูลให้กับบริษัทที่ให้บริการเช่าจักรยาน เราสามารถใช้ Data Canvas ใหม่ของ Gemini ใน Bigquery เพื่อช่วยสำรวจชุดข้อมูล ดูการเดินทางที่ได้รับความนิยมมากที่สุด และยังสามารถสร้าง Visualization แบบที่เรากำหนดได้เองทั้งหมด โดยใช้แค่ภาษาที่ใช้พูดเขียนสั่งลงใน Interface เดียวกันอีกด้วย

ซึ่งอันนี้เป็นเพียงแค่ตัวอย่างเล็กน้อยที่เราเอามาให้ดู ทีนี้เราจะมาลองทำไปด้วยกันเลยดีกว่า!

Getting Started with GCP: Load Your First Dataset into BigQuery

1. เปิด Google Cloud Console

ก่อนอื่นเลยเราต้องมี Account Google ก่อนถึงจะสามารถเข้า Google Cloud console ได้

2. ต่อไปพอเข้ามาที่หน้า Google Cloud Console แล้ว เราจะต้องมี Project ก่อนที่จะสามารถใช้งานได้ ถ้าใครยังไม่มีก็ควรจะสร้าง Project มาก่อนนะ

Load example dataset ใน Analytics Hub

3. เราจะมาโหลด Dataset ตัวอย่างที่เราจะใช้ในวันนี้กัน ซึ่งใน GCP ก็จะมีให้เราโหลดใช้โดยที่เราไม่ต้องไปหาโหลดจากเว็ปข้างนอก นั้นก็คือ Analytics Hub ก่อนอื่นเลย เราต้องเปิดไปที่หน้า BigQuery เหมือนรูปตัวอย่างด้านล่างนี้

4. หลังจากนั้นเราจะเห็นคำว่า Explorer ตรงด้านบนซ้ายข้างๆ Explorer จะมี + ADD เราก็กดไปที่ตรงนั้นได้เลย

5. หลังจากกด + ADD เข้ามาจะขึ้นหน้าตาแบบนี้ เลื่อนลงมาแล้วกดเลือกที่ Analytics Hub

6. ก่อนที่เราจะเลือก Data Source ต้องเลือกเป็น Public ก่อน จากนั้นเลือก Location เป็น asia-southeast1 (Singapore) และต่อมาจึงเลือก Data Source ที่เป็นแบบฟรี รูปแบบที่เราจะใช้คือ Chainbase

ซึ่งข้อมูล Chainbase ของเราคือโครงสร้างข้อมูล Web3 ซึ่งก็คือข้อมูลที่เหมือนฐานข้อมูลขนาดยักษ์ที่รวบรวมข้อมูลต่างๆ ที่เกิดขึ้นบน Blockchain เช่น Bitcoin, Eterium และอื่นๆ มาเก็บไว้ในที่เดียวกันนั้นเอง 

7. จากนั้นกดไปที่ +SUBSCRIBE เพื่อเพิ่มข้อมูลนี้เข้าไปใน BigQuery ของเรา

Dataset in BigQuery

8. ตอนนี้เรามาดูใน BigQuery ของเราก็จะได้ Dataset ที่เอามาจาก Analytics Hub แล้ว! เราสามารถดูว่า table ของเรามี Schema อะไรบ้าง เป็น type อะไร หรือจะดู Detail ของแต่ละ table ก็ได้ และถ้าเกิดเราอยากดูตัวอย่างของ table กดที่ Preview ได้เลย โดยที่เราไม่ต้องมา query select *

เราจะมาพูดความหมายของ schema ใน table นี้ก่อน table ที่เราเลือกใช้เป็นตัวอย่างในวันนี้คือ table ที่ชื่อว่า chainbase_erc20_balances มาอธิบาย schema กันก่อนดีกว่า

Analyze with BigQuery data canvas

หลังจากที่เรามีข้อมูลแล้ว ต่อไปเราจะนำเสนอฟีเจอร์ใหม่ของ Gemini ใน BigQuery ที่จะช่วยเพิ่มประสิทธิภาพในการวิเคราะห์ข้อมูลของเรา ซึ่งฟีเจอร์นี้จะทำงานร่วมกับ Gemini และช่วยให้การวิเคราะห์มีความสะดวกและมีประสิทธิภาพมากยิ่งขึ้น นั่นก็คือ Data Canvas นั่นเอง

Data Canvas คือ Workflow สำหรับการวิเคราะห์ข้อมูลที่สามารถสร้าง DAGs (Directed Acyclic Graphs) ซึ่งเป็นโครงสร้างกราฟที่ไม่มีวงจร โดยประกอบไปด้วย โหนด (nodes) และ เส้นเชื่อม (edges) เพื่อแสดงลำดับขั้นตอนและการเชื่อมโยงระหว่างการทำงานในรูปแบบกราฟิก ช่วยให้เราเห็นภาพรวมของกระบวนการวิเคราะห์ได้อย่างชัดเจนและเข้าใจง่าย

9. ก่อนอื่นเลยเราจะกดที่จุดสามจุดที่อยู่ข้างๆ ชื่อ table ของเรา แล้วเลือกตามรูปด้านล่างนี้ Query in → Data canvas

10. เลือก Region เป็น asia-southeast1 (SIngapore)

และแล้วเราก็จะได้หน้าตาแบบนี้ออกมา!

11. ที่นี้เราจะลองใช้คำสั่ง Prompt ใน BigQuery Data canvas เพื่อหาข้อมูลสำรับสร้างหรือแก้ไข Query รวมถึงการสร้าง Chart โดยให้กดไปที่ QUERY แล้วเราจะได้หน้าต่างแบบนี้ขึ้นมา

12. เราจะลองมา Prompt ด้วยคำสั่ง “How many unique wallets are associated with each contract?” ก็คือเราอยากรู้ว่า แต่ละสัญญามี wallet ที่ไม่ซ้ำกันเท่าไหร่?

13. จากนั้นกดส่งมันก็จะสร้าง Query ตามที่เรา Prompt ตามตัวอย่างในรูปด้านล่างนี้

ข้อแนะนำเพิ่มเติม: จริงๆ เราสามารถ Prompt เป็นภาษาไทยได้เหมือนกันนะ แบบนี้เลย!

ทีนี้เราจะลองมาสร้าง Chart แบบง่ายๆ ผ่านตัว Data canvas กัน หลังจากเราได้ Query ไปแล้ว

14. กดไปที่ VISUALIZE มันจะขึ้นให้เราเลือกว่าต้องการแบบไหน ซึ่งจะมี bar chart, pie chart, line graph และ custom ทีนี้เราจะเลือกแบบ line graph กัน

เราก็จะได้ Line Graph ที่ดูง่ายขึ้นแบบอัตโนมัติ ทีนี้เราจะสังเกตเห็นว่า เราสามารถใช้ Prompt บอกได้เลยว่าอยากให้ Visualization ของเราหน้าตาเป็นยังไง เช่น ขอให้เรียงข้อมูลจากน้อยไปมาก หรือปรับแต่งรูปแบบกราฟตามที่ต้องการ เพื่อให้ง่ายต่อการเข้าใจ

และที่สำคัญนอกจากจะช่วยสร้าง Visualization ให้เราแล้ว เราสามารถขอให้มัน สรุป Insight จากกราฟของเราได้ด้วย โดยไม่ต้องมานั่งวิเคราะห์เอง เพียงแค่กด Generate Insights เท่านั้น ก็จะได้ผลสรุปออกมาอย่างรวดเร็ว

ผลลัพธ์ที่ได้ออกมานั้นดีมากๆ ฟีเจอร์นี้ช่วยสรุปทุกอย่างให้เราแบบครบถ้วนจากข้อมูลในกราฟโดยไม่ต้องคิดวิเคราะห์เยอะเลย ทำให้เราประหยัดเวลาได้มากจริงๆ แถมยังไม่ต้องเสียเวลาในการจดจำรายละเอียดเล็กๆ น้อยๆ ด้วย

Data Preparation in BigQuery

ต่อไปเรามาพูดถึงอีกฟีเจอร์หนึ่งที่น่าสนใจมากใน BigQuery นั่นคือ Data Preparation

ฟีเจอร์ Data Preparation นี้จะใช้ทรัพยากรจาก BigQuery Studio และใช้ Gemini ภายใน BigQuery ช่วยในการทำ Cleaning, Transforming และ Enhancing ข้อมูลของเราให้มีคุณค่ามากขึ้น ซึ่งก็หมายความว่าข้อมูลที่เราได้รับจะมีความสมบูรณ์และมีประโยชน์มากขึ้นสำหรับการวิเคราะห์หรือการตัดสินใจต่างๆ นั่นเอง

ในส่วนของ Data Preparation นี้จะทำผ่าน Dataform ซึ่งเป็นเครื่องมือที่ช่วยในการพัฒนา ทดสอบ ควบคุมเวอร์ชัน และตั้งเวลาการทำงานของ workflow SQL ที่ซับซ้อน สำหรับการแปลงข้อมูลใน BigQuery โดยที่ Dataform จะช่วยให้การจัดการข้อมูลต่างๆ เป็นระบบระเบียบและมีประสิทธิภาพมากยิ่งขึ้น

เรามาเริ่มกันเลยดีกว่า!

1. จาก Dataset ที่เรามีอยู่แล้วก็คือ chainbase ให้เปิดไปที่หน้า Bigquery เหมือนเดิม แล้วกดเลือกตามรูปภาพตัวอย่างด้านล่าง

2. จากนั้นเราก็จะได้หน้าตาแบบนี้มา ถ้าใครหาไม่เจอ สามารถดูตรง Resources ของเราจะมีคำว่า Data prepations และ Click จะเห็นข้อมูลของเราในรูปแบบ Data Preparation

3. จะเห็นว่าด้านขวามือจะมีคำแนะนำว่าเราควรจะทำอะไรเพื่อเตรียมพร้อมข้อมูลของเราให้ดีขึ้นกว่าเดิม ซึ่งถ้าเราอยากจะ Transform อันไหนที่ Gemini แนะนำมา เราก็สามารถกด Apply ได้เลย

4. เราสามารถเลือกที่จะเตรียมข้อมูลได้ด้วยตัวเองโดยที่ไม่ต้องใช้ Gemini ช่วยก็ได้เช่นกัน โดยกดไปที่ ADD STEP เราสามารถเลือกได้ว่าจะ Filter, Transformation, Join หรือ Destination ก็ได้เหมือนกัน

Introduction Data Preparation

Filter คือ การลบแถวผ่านการใช้คำสั่ง WHERE

Transformation คือ การทำ Cleansing และแปลงข้อมูลโดยใช้ SQL

  • ฟังก์ชันการเปลี่ยนประเภทของข้อมูล เช่น CAST

  • ฟังก์ชัน string เช่น SUBSTR, CONCAT, REPLACE, UPPER, LOWER และ TRIM

  • ฟังก์ชันวันที่และเวลา เช่น PARSE_DATE, TIMESTAMP, EXTRACT และ DATE_ADD

  • ฟังก์ชัน JSON เช่น JSON_EXTRACT

  • เราสามารถใช้ BigQuery SQL ในการแปลงได้ด้วยตัวเองได้ เช่น คณิตศาสตร์กับตัวเลข เช่น การแปลงวัตต์-ชั่วโมงเป็นกิโลวัตต์-ชั่วโมง

  • ฟังก์ชันอาร์เรย์ เช่น ARRAY_AGG, ARRAY_CONCAT และ UNNEST

  • ฟังก์ชัน window เช่น ROW_NUMBER, LAG, LEAD, RANK และ NTILE

Join คือ การรวมค่าจากสองแหล่ง ตารางต้องอยู่ในตำแหน่งเดียวกัน คอลัมน์ key การเข้าร่วมต้องมีชนิดข้อมูลเดียวกัน

  • Inner joins

  • Left joins

  • Right joins

  • Full outer joins

  • Cross Joins (ถ้าไม่ได้เลือกคอลัมน์ที่มี key ใช้ cross join)

นี่คือการใช้งาน Data Preparation แบบคร่าวๆ ถ้าอยากเรียนรู้เพิ่มเติมสามาารถเข้าไปที่ Document ของ Google ได้เลย

โอเคค วันนี้เราก็ได้เรียนรู้และทำความเข้าใจเกี่ยวกับการทำงานของ Generative AI ร่วมกับ BigQuery กันไปแล้ว หวังว่าเนื้อหานี้จะเป็นประโยชน์กับทุกคนไม่มากก็น้อย ครั้งหน้าจะมีเรื่องราวที่น่าสนใจอะไรอีก อย่าลืมติดตามกันนะ! :)

.
.