Google Data Fusion สร้าง Pipeline แบบคนขี้เกียจโค้ดจนตัวเป็นขน

GCP Data Fusion
Google Data Fusion สร้าง Pipeline แบบคนขี้เกียจโค้ดจนตัวเป็นขน
ถ้าคุณเป็น Data Engineer แต่วันหนึ่งคุณดันขี้เกียจจะโค้ดสร้าง Data Pipeline หรือต้องการค้นหาวิธีใหม่ๆ ที่ง่ายกว่าเดิม Data Fusion อาจจะเป็นสิ่งที่พระเจ้าประทานมาให้คุณ

…ก่อนจะเข้าเนื้อหา

เรามาซ้อมเต้นท่า Fusion ของโกเท็นคูสเพื่อรำลึกความหลังวัยเด็กกันซักรอบก่อนละกัน (ใครเต้นเป็นอยู่แล้ว ข้ามได้เลย)

Data Fusion เป็น product สำเร็จรูปของ Google Cloud Platform (GCP) 

โดยความสามารถหลักๆ คือการสร้างและช่วยจัดการ Data Pipeline ทั้งแบบ Batch และ Streaming ซึ่งท่าพื้นฐานที่ ingest ข้อมูลจาก sources ต่างๆไม่ว่าจะ on-cloud databases (AWS, GCP, Azure) หรือ on-prem databases นำมาทำ transform ETL/ELT แล้วเอาข้อมูลลงไปเก็บใน Data Warehouse หรือ Data Lake ทั้งหมดสามารถทำจบได้ใน Data Fusion ตัวเดียว

Feature ใช้งานพื้นฐานของ Data Fusion แบ่งออกเป็น 3 อันหลักๆ

  1. Wrangler เอาไว้ทำ Data Wrangling เพื่อ transform ให้ข้อมูลอยู่ในรูปแบบพร้อมใช้
  2. Integrate ส่วนที่ใช้สร้าง Pipeline เรียกว่า Studio ที่มี UI ลาก-วาง
  3. Pipeline Monitor เอาไว้ดู Data Lineage ว่าข้อมูลเข้า-ออกจาก service แต่ละตัวเท่าไหร่
Google Data Fusion

หน้า Home ของ Data Fusion

Quickstart เริ่มแรกให้เราเลือกไปที่เมนู 

เริ่มกันที่ wrangler ก่อนเลย 
เนื่องจากเรายังไม่มีข้อมูลเลย เราจะต้องต่อ Data จาก Database หรืออัปโหลดจาก local ก่อน โดยเลือกใช้จากด้านซ้ายของหน้าจอได้เลย

GCP Data Fusion

ตัวอย่างนี้จะใช้ MySQL ที่ลงบน VM และเลือกใช้ข้อมูล titanic.csv จาก kaggle.com

ข้อมูล titanic.csv เป็นข้อมูลผู้โดยสารบนเรือไททานิก เช่น name, age, gender, socio-economic class, etc ถ้าอยากเห็นตัวอย่างสามารถเข้าไปโหลดมาดูจาก kaggle.com ได้เลย

1. Wrangler

หน้าจอนี้จะปรากฎเมื่อเรา upload ข้อมูลเข้า Data Fusion หรือ เชื่อมต่อกับ Database สำเร็จแล้ว เราสามารถดูความสมบูรณ์ของข้อมูล
( มี Null มั้ย? ) ที่ด้านขวาของจอ รวมถึง preview ข้อมูลบางส่วนขึ้นมาให้เราแก้ไขได้ผ่าน UI ได้แบบ real-time

Google Cloud Platform

ตัวอย่างนี้จะใช้ MySQL ที่ลงบน VM และเลือกใช้ข้อมูล titanic.csv จาก kaggle.com

Example 1 :

ใน column Cabin มีค่าที่เป็น null และเราต้องการแปลง null ทั้งหมดให้กลายเป็น ‘none’ ก็สามารถคลิก drop-down แล้วเติมค่าลงไปได้เลย

Cloud Data Fusion วิธีทำ
Example 2 :

ใน column Age มีค่า null อยู่เช่นกัน แต่เราจะเลือกกรองข้อมูลแถวที่ Age เป็น null ออกไป เราสามารถเลือกให้ Pipeline ส่งค่าแถวนี้เป็น error ได้ด้วย drop-down เช่นกัน

Google Cloud Data Fusion
Example 3 :

ใน column Name จะเป็นชื่อเต็ม ซึ่งคั่น FirstName กับ LastName ด้วย comma (,) เราสามารถแยกเป็น 2 column ได้ โดยเทคนิค parse-as-csv ซึ่งจะแยกข้อมูลแต่ละ field จาก comma จากนั้นก็เปลี่ยนชื่อ column ใหม่ที่ได้มาให้เป็น FirstName และ LastName

How to Google Cloud Data Fusion
จริงๆความสามารถของ drop-down
ใน wrangler ยังมีให้ใช้อีกเพียบเลย
อาจจะต้องไปลองเล่นดู
GCP - wrangler - ราคา
เมื่อทำการ transform ทั้งหมดเสร็จแล้ว
ก็ให้กดสร้าง Pipeline
เพื่อไปขั้นตอนถัดไปเลย
ซื้อ Google Cloud

2. Integrate

หน้าจอนี้จะเป็น Studio การสร้าง Pipeline ด้วย UI จะเห็นได้จากรูปภาพว่าตอนนี้ flow ข้อมูลจะเข้ามาจากกล่อง Database ไปยังกล่อง Wrangler แล้ว สิ่งที่ยังขาดคือปลายทางที่จัดเก็บ Data ของเรา

ตัวอย่าง เลือกที่จะเก็บ Data ที่ BigQuery : เลือกที่หัวข้อ Sink → BigQuery จะมีกล่อง BigQuery สร้างขึ้นมาให้ จากนั้นก็ลากเส้นจากกล่อง Wrangler เข้าหากล่อง BigQuery เท่านี้ก็ได้ Pipeline แล้ว

..เอ๊ะ ยังไม่ได้ ต้องใส่รายละเอียดด้วยว่า จะเอาเข้า Database อะไร Table ชื่ออะไร

ให้คลิกที่ Properties ในกล่อง BigQuery แล้วใส่ Ref Name (ชื่อที่ใช้ในการสื่อถึง task นี้ในตอนทำ data lineage) , Dataset (ชื่อ Dataset ใน BigQuery), Table (ชื่อ Table ใน BigQuery ถ้าเป็น Table ที่ยังไม่เคยมีก็จะสร้างขึ้นมาให้ใหม่เลย)

เมื่อเสร็จแล้วก็กดที่ปุ่ม Deploy ในหน้า Studio เพื่อเข้าสู่หน้า Pipeline Monitor ได้เลย

3. Monitor

หน้าจอนี้
จะเป็นการดูสถานะของ Pipeline
รวมถึงการสั่งให้มัน run  

ถ้าเป็นการ ingest ข้อมูลแบบ batch
เราสามารถเลือกที่จะ run แบบ schedule ตั้งค่าไว้ล่วงหน้าว่าจะให้รันตอนไหน ถี่แค่ไหน หรือ run แบบ manual ก็ได้ ให้จิ้มที่ปุ่มลูกศร Run สีเขียวสะท้อนแสงเบาๆ

ในการ run ครั้งแรกจะมีการเตรียม resources ของเครื่องประมาณ 3–5 นาที และเมื่อ run เสร็จแล้วก็จะมีการอัปเดตสถานะว่า Failed หรือ Succeeded รวมถึงแสดง Data Lineage ว่ามีข้อมูลเข้า-ออกแต่ละ task เท่าไหร่

และนี่ก็เป็นตัวอย่างง่ายๆ ของการทำ Pipeline ด้วย  Google Data Fusion  

ซึ่งถ้าเป็น Pipeline ที่ซับซ้อนกว่านี้ มีหลาย source กว่านี้ ก็สามารถทำได้ (ขอแค่เป็น data source ที่รองรับการ connection กับ Data Fusion ก็พอ) จะเห็นได้ว่า Google Data Fusion สามารถช่วยจัดการข้อมูลให้เป็นกระบวนการ หรือเรียกว่า Data Pipeline ช่วยให้การทำงานเกี่ยวกับข้อมูลสะดวกและรวดเร็วมากยิ่งขึ้น

หากคุณสนใจบริการหรือต้องการคำปรึกษาเพิ่มเติม
ติดต่อเราได้ที่ info@tangerine.co.th หรือโทร 02 285 5511
ท่านจะได้รับคำตอบจากผู้เชี่ยวชาญที่ได้รับการรับรองมาตรฐาน

Share on social media

Sirodom M.

Machine Learning Engineer @tangerine

Medium Blog
Tangerine Expertise

Related Solution

Expand Interests

All and More

  • All
  • Apigee
  • Application Development
  • Cisco
  • Converged Infrastructure
  • Dell EMC
  • Dialogflow (Chatbot)
  • Event
  • G Suite
  • Google Cloud
  • Google Cloud Platform
  • Google Maps Platform
  • Highlight
  • Hybrid Cloud & Multi Cloud
  • Knowledge
  • Networking
  • Productivity & Work Transformation
  • Security
  • Smart Business Analytics & AI
  • Storage & Data Protection
  • Success Story
  • VMware
  • Workspace
All
  • All
  • Apigee
  • Application Development
  • Cisco
  • Converged Infrastructure
  • Dell EMC
  • Dialogflow (Chatbot)
  • Event
  • G Suite
  • Google Cloud
  • Google Cloud Platform
  • Google Maps Platform
  • Highlight
  • Hybrid Cloud & Multi Cloud
  • Knowledge
  • Networking
  • Productivity & Work Transformation
  • Security
  • Smart Business Analytics & AI
  • Storage & Data Protection
  • Success Story
  • VMware
  • Workspace
Google Maps Platform
Google CloudGoogle Maps Platform

Protected: รู้หรือไม่? สถานที่ที่เราค้นหา จะมีการเรียกใช้งานว่า Place Details

There is no excerpt because this is a protected post.

G SuiteGoogle CloudHighlightWorkspace

Protected: สร้าง Bots ไว้ใช้ใน Google Workspace ง่ายๆ ด้วย Google Chat API

There is no excerpt because this is a protected post.

HighlightHybrid Cloud & Multi CloudVMware

Stop Phishing อัพเกรดความปลอดภัย ทางไซเบอร์ก่อนถูกแฮกข้อมูล

เคสการโจมตีด้วย Ransomware ของหน่วยงานราชการในไทย ที่เป็นข่าวเมื่อปีที่แล้ว โดนเรียกค่าไถ่
มูลค่ากว่า 63,000 ล้านบาท ตอนนี้องค์กรของคุณมีวิธีป้องกันอย่างไร Tangerine x VMware แชร์วิธีเพิ่มความปลอดภัยด้วยเทคนิค NGAV & Behavioral EDR สิ่งสำคัญที่ช่วยปกป้องข้อมูลในองค์กรผ่าน Cloud

HighlightHybrid Cloud & Multi CloudVMware

VMware Intrinsic Security รับมือภัยคุกคามในยุค Multi Cloud และ Container (Protect Network/Protect Endpoint/See Everything)

“By 2025, more than 85% of global organizations will be running containerized applications in production, which is a significant increase from fewer than 35% in 2019” [ GARTNER ]

G SuiteGoogle CloudHighlightWorkspace

ประกาศ! Google เปลี่ยน Drive File Stream & Backup and Sync ไปที่ Google Drive for Desktop

ปัจจุบัน Google Workspace มีวิธีการ Sync ข้อมูลบน Google Drive สู่ Computer สองวิธีคือ Drive File Stream สำหรับ Business user(Google Workspace user) และ Backup and Sync สำหรับ Consumer users

Scroll to Top

ติดต่อ tangerine

Tel: +66 2 2855511   |   Email: info@tangerine.co.th


This website uses cookies to ensure you get the best experience on our website. View Privacy Policy