Google Data Fusion สร้าง Pipeline แบบคนขี้เกียจโค้ดจนตัวเป็นขน

GCP Data Fusion
Google Data Fusion สร้าง Pipeline แบบคนขี้เกียจโค้ดจนตัวเป็นขน
ถ้าคุณเป็น Data Engineer แต่วันหนึ่งคุณดันขี้เกียจจะโค้ดสร้าง Data Pipeline หรือต้องการค้นหาวิธีใหม่ๆ ที่ง่ายกว่าเดิม Data Fusion อาจจะเป็นสิ่งที่พระเจ้าประทานมาให้คุณ

…ก่อนจะเข้าเนื้อหา

เรามาซ้อมเต้นท่า Fusion ของโกเท็นคูสเพื่อรำลึกความหลังวัยเด็กกันซักรอบก่อนละกัน (ใครเต้นเป็นอยู่แล้ว ข้ามได้เลย)

Data Fusion เป็น product สำเร็จรูปของ Google Cloud Platform (GCP) 

โดยความสามารถหลักๆ คือการสร้างและช่วยจัดการ Data Pipeline ทั้งแบบ Batch และ Streaming ซึ่งท่าพื้นฐานที่ ingest ข้อมูลจาก sources ต่างๆไม่ว่าจะ on-cloud databases (AWS, GCP, Azure) หรือ on-prem databases นำมาทำ transform ETL/ELT แล้วเอาข้อมูลลงไปเก็บใน Data Warehouse หรือ Data Lake ทั้งหมดสามารถทำจบได้ใน Data Fusion ตัวเดียว

Feature ใช้งานพื้นฐานของ Data Fusion แบ่งออกเป็น 3 อันหลักๆ

  1. Wrangler เอาไว้ทำ Data Wrangling เพื่อ transform ให้ข้อมูลอยู่ในรูปแบบพร้อมใช้
  2. Integrate ส่วนที่ใช้สร้าง Pipeline เรียกว่า Studio ที่มี UI ลาก-วาง
  3. Pipeline Monitor เอาไว้ดู Data Lineage ว่าข้อมูลเข้า-ออกจาก service แต่ละตัวเท่าไหร่
Google Data Fusion

หน้า Home ของ Data Fusion

Quickstart เริ่มแรกให้เราเลือกไปที่เมนู 

เริ่มกันที่ wrangler ก่อนเลย 
เนื่องจากเรายังไม่มีข้อมูลเลย เราจะต้องต่อ Data จาก Database หรืออัปโหลดจาก local ก่อน โดยเลือกใช้จากด้านซ้ายของหน้าจอได้เลย

GCP Data Fusion

ตัวอย่างนี้จะใช้ MySQL ที่ลงบน VM และเลือกใช้ข้อมูล titanic.csv จาก kaggle.com

ข้อมูล titanic.csv เป็นข้อมูลผู้โดยสารบนเรือไททานิก เช่น name, age, gender, socio-economic class, etc ถ้าอยากเห็นตัวอย่างสามารถเข้าไปโหลดมาดูจาก kaggle.com ได้เลย

1. Wrangler

หน้าจอนี้จะปรากฎเมื่อเรา upload ข้อมูลเข้า Data Fusion หรือ เชื่อมต่อกับ Database สำเร็จแล้ว เราสามารถดูความสมบูรณ์ของข้อมูล
( มี Null มั้ย? ) ที่ด้านขวาของจอ รวมถึง preview ข้อมูลบางส่วนขึ้นมาให้เราแก้ไขได้ผ่าน UI ได้แบบ real-time

Google Cloud Platform

ตัวอย่างนี้จะใช้ MySQL ที่ลงบน VM และเลือกใช้ข้อมูล titanic.csv จาก kaggle.com

Example 1 :

ใน column Cabin มีค่าที่เป็น null และเราต้องการแปลง null ทั้งหมดให้กลายเป็น ‘none’ ก็สามารถคลิก drop-down แล้วเติมค่าลงไปได้เลย

Cloud Data Fusion วิธีทำ
Example 2 :

ใน column Age มีค่า null อยู่เช่นกัน แต่เราจะเลือกกรองข้อมูลแถวที่ Age เป็น null ออกไป เราสามารถเลือกให้ Pipeline ส่งค่าแถวนี้เป็น error ได้ด้วย drop-down เช่นกัน

Google Cloud Data Fusion
Example 3 :

ใน column Name จะเป็นชื่อเต็ม ซึ่งคั่น FirstName กับ LastName ด้วย comma (,) เราสามารถแยกเป็น 2 column ได้ โดยเทคนิค parse-as-csv ซึ่งจะแยกข้อมูลแต่ละ field จาก comma จากนั้นก็เปลี่ยนชื่อ column ใหม่ที่ได้มาให้เป็น FirstName และ LastName

How to Google Cloud Data Fusion
จริงๆความสามารถของ drop-down
ใน wrangler ยังมีให้ใช้อีกเพียบเลย
อาจจะต้องไปลองเล่นดู
GCP - wrangler - ราคา
เมื่อทำการ transform ทั้งหมดเสร็จแล้ว
ก็ให้กดสร้าง Pipeline
เพื่อไปขั้นตอนถัดไปเลย
ซื้อ Google Cloud

2. Integrate

หน้าจอนี้จะเป็น Studio การสร้าง Pipeline ด้วย UI จะเห็นได้จากรูปภาพว่าตอนนี้ flow ข้อมูลจะเข้ามาจากกล่อง Database ไปยังกล่อง Wrangler แล้ว สิ่งที่ยังขาดคือปลายทางที่จัดเก็บ Data ของเรา

ตัวอย่าง เลือกที่จะเก็บ Data ที่ BigQuery : เลือกที่หัวข้อ Sink → BigQuery จะมีกล่อง BigQuery สร้างขึ้นมาให้ จากนั้นก็ลากเส้นจากกล่อง Wrangler เข้าหากล่อง BigQuery เท่านี้ก็ได้ Pipeline แล้ว

..เอ๊ะ ยังไม่ได้ ต้องใส่รายละเอียดด้วยว่า จะเอาเข้า Database อะไร Table ชื่ออะไร

ให้คลิกที่ Properties ในกล่อง BigQuery แล้วใส่ Ref Name (ชื่อที่ใช้ในการสื่อถึง task นี้ในตอนทำ data lineage) , Dataset (ชื่อ Dataset ใน BigQuery), Table (ชื่อ Table ใน BigQuery ถ้าเป็น Table ที่ยังไม่เคยมีก็จะสร้างขึ้นมาให้ใหม่เลย)

เมื่อเสร็จแล้วก็กดที่ปุ่ม Deploy ในหน้า Studio เพื่อเข้าสู่หน้า Pipeline Monitor ได้เลย

3. Monitor

หน้าจอนี้
จะเป็นการดูสถานะของ Pipeline
รวมถึงการสั่งให้มัน run  

ถ้าเป็นการ ingest ข้อมูลแบบ batch
เราสามารถเลือกที่จะ run แบบ schedule ตั้งค่าไว้ล่วงหน้าว่าจะให้รันตอนไหน ถี่แค่ไหน หรือ run แบบ manual ก็ได้ ให้จิ้มที่ปุ่มลูกศร Run สีเขียวสะท้อนแสงเบาๆ

ในการ run ครั้งแรกจะมีการเตรียม resources ของเครื่องประมาณ 3–5 นาที และเมื่อ run เสร็จแล้วก็จะมีการอัปเดตสถานะว่า Failed หรือ Succeeded รวมถึงแสดง Data Lineage ว่ามีข้อมูลเข้า-ออกแต่ละ task เท่าไหร่

และนี่ก็เป็นตัวอย่างง่ายๆ ของการทำ Pipeline ด้วย  Google Data Fusion  

ซึ่งถ้าเป็น Pipeline ที่ซับซ้อนกว่านี้ มีหลาย source กว่านี้ ก็สามารถทำได้ (ขอแค่เป็น data source ที่รองรับการ connection กับ Data Fusion ก็พอ) จะเห็นได้ว่า Google Data Fusion สามารถช่วยจัดการข้อมูลให้เป็นกระบวนการ หรือเรียกว่า Data Pipeline ช่วยให้การทำงานเกี่ยวกับข้อมูลสะดวกและรวดเร็วมากยิ่งขึ้น

หากคุณสนใจบริการหรือต้องการคำปรึกษาเพิ่มเติม
ติดต่อเราได้ที่ info@tangerine.co.th หรือโทร 02 285 5511
ท่านจะได้รับคำตอบจากผู้เชี่ยวชาญที่ได้รับการรับรองมาตรฐาน

Share on social media

Sirodom M.

Machine Learning Engineer @tangerine

Medium Blog
Tangerine Expertise

Related Solution

Expand Interests

All and More

  • All
  • Apigee
  • Application Development
  • Business Transformation
  • Cisco
  • Converged Infrastructure
  • Dell EMC
  • Dialogflow (Chatbot)
  • Event
  • G Suite
  • Google Cloud
  • Google Cloud Platform
  • Google Maps Platform
  • Google Workspace
  • Highlight
  • Huawei
  • Hybrid Cloud & Multi Cloud
  • Knowledge
  • Networking
  • Productivity & Work Transformation
  • Security
  • Smart Business Analytics & AI
  • Storage & Data Protection
  • Success Story
  • VMware
All
  • All
  • Apigee
  • Application Development
  • Business Transformation
  • Cisco
  • Converged Infrastructure
  • Dell EMC
  • Dialogflow (Chatbot)
  • Event
  • G Suite
  • Google Cloud
  • Google Cloud Platform
  • Google Maps Platform
  • Google Workspace
  • Highlight
  • Huawei
  • Hybrid Cloud & Multi Cloud
  • Knowledge
  • Networking
  • Productivity & Work Transformation
  • Security
  • Smart Business Analytics & AI
  • Storage & Data Protection
  • Success Story
  • VMware
end-to-end data management
Google CloudGoogle Cloud Platform

ก้าวสำคัญขององค์กรกับการจัดการ Data บน Google Cloud Platform ด้วย Dataplex

เรื่องของการจัดการ data ถือเป็นก้าวสำคัญของแต่ละองค์กรที่ต้องเรียนรู้นอกเหนือจากการนำไปใช้งานในเรื่อง business เช่น เรื่องของควบคุมคุณภาพข้อมูล (data quality), นโยบายและความปลอดภัยของแต่ละองค์กร (security & policy), การเข้าถึงข้อมูลโดยไม่ได้รับอนุญาต (data breach) ทั้งทางตรงและทางอ้อมเพราะว่าสิทธิ์ในการเข้าถึงอาจจะมากเกินไปก็ดี ไม่ได้ควบคุมก็ดี เป็นเรื่องที่องค์กรต้องคิดและวางแผนให้ครอบคลุมกับเรื่อง data management ครับ

PDPA Tools
HighlightStorage & Data Protection

Thailand’s PDPA tools by Tangerine x OneTrust

Shortcut สู่การเตรียมความพร้อมให้สอดรับกฎหมาย PDPA ที่จะเริ่มบังคับใช้กลางปี 2565 ให้เป็นไปมาตราฐานสากล ISO 27001 / 27701 ด้วย Thailand’s PDPA tools by Tangerine x OneTrust

G SuiteGoogle CloudGoogle Workspace

เจ้าของไฟล์ Google Drive ต้องรู้!!!

นโยบายใหม่ของ Google Drive ที่จะล็อคไฟล์ของคุณ หากเนื้อหาในไฟล์มีความรุนแรง และละเมิดนโยบายโปรแกรมที่กำหนด

Dell EMCHighlight

ปกป้องข้อมูลอันเป็นหัวใจขององค์กรจากการโจมตีทางไซเบอร์ (Cyber Attack)

การทำงานในปัจจุบันมีการปรับเปลี่ยนให้เข้ากับการใช้ชีวิตในยุค Next Normal ทุกคนสามารถทำงานได้ทุกที่ตลอดเวลา การทำงานดังกล่าวส่งผลให้มีการผลิตข้อมูลออกมาอย่างมหาศาล ซึ่งข้อมูลเป็นสิ่งที่มีความสำคัญอย่างยิ่งต่อองค์กร และเป็นหัวใจในการทำธุรกรรมเชิงพาณิชย์ ใครที่สามารถทำให้ข้อมูลของตนทันสมัย ทันต่อสถานการณ์ และมีความถูกต้องแม่นยำสำหรับการตัดสินใจของนักบริหารแล้ว ย่อมได้เปรียบกว่าผู้ที่ช้ากว่าหรือผู้ที่ไม่มีข้อมูลที่ถูกต้องในมือ

Highlight

เตรียมพร้อมรับมือ PDPA กันอย่างไร?

แทนเจอรีนผู้เชี่ยวชาญในการเป็นที่ปรึกษาด้านการคุ้มครองข้อมูลส่วนบุคคล และแนะแนวทางในการดำเนินการเกี่ยวกับการคุ้มครองข้อมูลส่วนบุคคลด้วยซอฟต์แวร์ของ OneTrust ที่สามารถนำมาปรับใช้ให้เหมาะกับหน่วยงานต่างๆ เพื่อนำมาใช้เป็นระบบบริหารจัดการข้อมูลส่วนบุคคล ที่รองรับข้อกฎหมายของ พรบ. คุ้มครองข้อมูลส่วนบุคคล (PDPA) โดยสามารถแบ่งออกเป็นระบบต่างๆ ดังนี้

Scroll to Top

ติดต่อ tangerine

Tel: +66 2 2855511   |   Email: info@tangerine.co.th




      This website uses cookies to ensure you get the best experience on our website. View Privacy Policy