This website use cookies to ensure you get the best experience on our website
รู้จักการรวบรวมข้อมูล (data integration) ของ Google Cloud โดยใช้ Cloud Data Fusion เรียนรู้ความท้าทายในการรวบรวมข้อมูล และแพลตฟอร์มที่ใช้ในการรวบรวมข้อมูล (middleware) วิธีการช่วยในการรวมข้อมูลจากแหล่งที่มาและรูปแบบต่างๆ อย่างมีประสิทธิภาพ และสร้างข้อมูลเชิงลึกได้ รวมถึงองค์ประกอบหลักของ Cloud Data Fusion วิธีการทำงาน วิธีประมวลผลข้อมูลแบทช์ (batch data) และการสตรีมข้อมูล (streaming data) แบบเรียลไทม์ด้วยการออกแบบ visual pipeline การติดตาม metadata และ data lineage
อธิบายความจำเป็นในการรวบรวมข้อมูล (data integration)
ใช้ตัวเชื่อมต่อ (connector) เพื่อรวมข้อมูลจากแหล่งและรูปแบบต่างๆ
ตั้งค่า execution environment; ตรวจสอบและแก้ไขปัญหา
ทำงานร่วมกับ Wrangler เพื่อแปลงข้อมูล (data transformations)
เข้าใจความสัมพันธ์ระหว่าง metadata และ data lineage
ออกแบบและดำเนินการ pipeline การประมวลผลข้อมูลแบบแบตช์และเรียลไทม์
เข้าใจความสามารถที่ Cloud Data Fusion มีให้เป็นแพลตฟอร์มการรวมข้อมูล
รู้จักส่วนประกอบของ Cloud Data Fusion
Data Engineer
Data Analysts
MODULE | OBJECTIVE |
---|---|
1) Introduction to data integration and Cloud Data Fusion |
|
2) Building pipelines |
|
3) Designing complex pipelines |
|
4) Pipeline execution environment |
|
5) Building Transformations and Preparing Data with Wrangler |
|
6) Connectors and streaming pipelines |
|
7) Metadata and data lineage |
|
Instance Group เป็น Service หนึ่งที่อยู่บน Google Cloud Platform โดย Instance Group คือ กลุ่มของ VM Instance ที่สามารถมี VM ได้หลายเครื่องในหนึ่งกลุ่ม โดยเราจะมองว่า Instance Group คือก้อนๆหนึ่งที่มี VM หลายๆเครื่องอยู่ข้างใน เวลาจะจัดการหรือเปลียนแปลง VM ที่อยู่ข้างในสามารถจัดการได้ผ่าน Instance Group ที่เดียวเลย ทำให้ง่ายต่อการจัดการ
ในบทความนี้เราจะใช้ Github Actions สร้าง Release อัตโนมัติ ร่วมกับ Cloud Build ให้ build และ deploy อัตโนมัติทุกครั้งที่เรา push ขึ้น GitHub
วันนี้ทีม Cloud Ace ขอมาสรุปให้ฟังกันว่า Data Pipeline คืออะไร แล้วเราจะทำบน Google Cloud ต้องทำยังไง ใช้เครื่องมืออะไรบ้าง โดย Cloud Ace Thailand