BLOGS

ก้าวสำคัญขององค์กรกับการจัดการ Data บน Google Cloud Platform ด้วย Dataplex

Thakorn.T • 05/01/2022
Google Cloud Solutions Specialist

เรื่องของการจัดการ data ถือเป็นก้าวสำคัญของแต่ละองค์กรที่ต้องเรียนรู้นอกเหนือจากการนำไปใช้งานในเรื่อง business เช่น เรื่องของควบคุมคุณภาพข้อมูล (data quality), นโยบายและความปลอดภัยของแต่ละองค์กร (security & policy), การเข้าถึงข้อมูลโดยไม่ได้รับอนุญาต (data breach) ทั้งทางตรงและทางอ้อมเพราะว่าสิทธิ์ในการเข้าถึงอาจจะมากเกินไปก็ดี ไม่ได้ควบคุมก็ดี เป็นเรื่องที่องค์กรต้องคิดและวางแผนให้ครอบคลุมกับเรื่อง data management ครับ

Data Fabric คืออะไร?

Data Fabric เป็นแนวคิดในการออกแบบกระบวนการเชื่อมโยงของ data เสมือนเป็นผืนผ้าที่ถักทอร้อยแต่ละชั้นข้อมูลเป็นผืนเดียวกันเพื่อที่เราจะสามารถควบคุมข้อมูลหรือสนับสนุนการทำงานได้อย่างเหมาะสม

Google Data Fabric

Dataplex คืออะไร? และช่วยพวกเราได้อย่างไร?

Dataplex คือ intelligent data fabric ที่ช่วยในเรื่องการจัดการแบบศูนย์กลาง (centrally manage), monitor, การทำ data governance ทั้งบน data lakes, data warehouses และ data marts รวมถึงเรื่องการใช้งานเครื่องมือด้าน analytics และ data science ให้ปลอดภัยและมีคุณภาพยิ่งขึ้นในที่เดียว แม้ว่าข้อมูลจะถูกจัดเก็บแบบกระจาย (distributed data) ก็ตาม

Dataplex มาพร้อมกับการบูรณาการประสบการณ์ในการใช้เครื่องมือด้านการวิเคราะห์บน Google Cloud ต่างๆ รวมถึงการ built-in data intelligence เข้ามาโดยใช้ Google AI เราจึงไม่จำเป็นต้องเสียเวลาในเรื่องเตรียม infrastructure หรือระบบให้สอดคล้องในการทำ data fabric มากนัก การ save เวลา save cost เหล่านี้ ทำให้เรา focus ที่การ drive business ของแต่ละองกรได้อย่างเต็มที่

Resources & Assets บน Google Cloud

Resources & Assets บน Google Cloud

แต่ละองค์กรจะมี assets ต่างๆ ไม่ว่าจะเป็น Data Warehouses, Data Lakes หรือ Data Marts ที่มีการเก็บข้อมูลหลากหลายประเภท เช่น sale transactions, customer profile, LoB data และ logs ขึ้นอยู่กับการใช้งานว่าจะใช้ analytic tools แบบไหนหรือไป process data ต่ออย่างไร

Integrated Analytics Experience

Dataplex จะเข้ามาครอบ assets เหล่านี้เพื่อประโยชน์ในการจัดการ data เบ็ดเสร็จในที่เดียว (Unified Data Management) และนำเอาเครื่องมือวิเคราะห์ข้อมูลต่างๆ (Integrated Analytics Experience) มาอยู่ในตัวเองด้วย

ในเรื่องของ Logical Data Organization หรือ High-Level Design จะแบ่ง level ของ Data Lakes ลงมาเป็น Data Zone ซึ่งในแต่ละ zone จะมี Assets เช่น Cloud Storage, BigQuery ที่เป็น source ข้อมูลสำหรับวิเคราะห์ business ทีม business analyst หรือแม้แต่ data scientist มีสิทธิ์ในการเข้าถึง data ในแต่ละ zone พวกเขาจะเข้าถึง assets ต่างๆ ที่แต่ละ zone เตรียมให้ โดยไม่จำเป็นต้องรู้ว่า data ที่แท้จริงถูกจัดเก็บไว้ที่ใด เพียงแค่มีสิทธิ์ในเข้าถึงเพื่อใช้งานก็เพียงพอแล้ว วิธีนี้จะเอื้ออำนวยในเรื่องการทำ policy และ security ครอบ assets อีกทั้งยังสะดวกแก่ Data Steward หรือ Security Admin ในควบคุมเพราะหากมี assets ก้อนใหม่เข้ามาใน zone ดังกล่าว ก็จะถูก apply policy ของ zone นั้นๆ ไปด้วยโดยอัตโนมัติ

Logical Data Organization

Dataplex ช่วยในเรื่อง Data Quality ทำให้ทีม Data Analytic & Data Science สามารถใช้ data ได้อย่างมั่นใจ

Dataplex ช่วยในเรื่อง Data Quality

ความแตกต่างของ Dataplex ที่เป็น key differentiation คือ data intelligence 

ที่ Google ใช้เทคโนโลยี AI จัดการ metadata ทั้งในรูปแบบ structured และ unstructured data ในการทำ data quality check รวมถึงการทำ indexing บน metastore เพื่อประโยชน์ในการ search & discovery data ให้มองเห็น data แบบ landscape ทำให้รู้ว่า data ที่เราจะนำไปใช้ทำรายงานหรือโมเดลต่างๆ นั้นอยู่ที่ใด มีคุณภาพสูง-ต่ำอย่างไร พอจะนำไปใช้ต่อได้หรือไม่ ทำให้พวกเขาสามารถนำข้อมูลไปใช้วิเคราะห์ได้อย่างมั่นใจมากยิ่งขึ้น

Dataplex เข้าถึง Analytics Data ได้ในที่เดียว

เราสามารถเข้าถึงข้อมูลบน BigQuery หรือ Spark ผ่าน Analytic Environment บน Dataplex ได้

ผู้ที่เป็น Data Admin สามารถ configure environments ต่างๆ ให้เป็นไปตาม data governance ไม่ว่าจะเป็นเรื่อง IAM, provisioning, monitoring, scaling หรือ shutdown environment เหล่านั้นได้

ผู้ที่ใช้ data ทั่วไป เช่น data scientist, data analyst, data engineers สามารถเข้าถึง Notebook หรือ SQL Workbench ได้ในการใช้ BigQuery, Spark, SparkSQL เพื่อ query, ทำ schedule notebook หรือ script ต่างๆ และยังสามารถ share ให้กับ users ท่านอื่น ซึ่งประสบการณ์ที่ดีเหล่านี้ถูกรวมเอาไว้ใน Dataplex ที่เดียว

Conclusion

Google Dataplex

จากความสามารถต่างๆ ทำให้ Dataplex เป็นดั่ง single pane of glass ช่วยในเรื่องการทำ end-to-end data management และ governance ที่จบครบในตัวเองและง่ายสำหรับทุกคนที่ใช้ Google Cloud Platform และสนับสนุนให้งานด้าน analytics และ AI/ML ราบรื่นโดยไม่ต้องกังวลในเรื่อง data quality และ security & policy ได้เป็นอย่างดีครับ

สำหรับใครที่สนใจในเรื่องของ Google Cloud Platform หรือ Service อื่นๆ
ด้าน Data Analytics, AI/Machine Learning อาทิ Vision AI, OCR, Text to Speech
Tangerine มีผู้เชี่ยวชาญคอยให้คำปรึกษา สามารถติดต่อได้ที่
อีเมล marketing@tangerine.co.th หรือโทร 094-999-4263 ได้ทันที

สอบถามข้อมูลเพิ่มเติม
Blog Form (#23)

ทั้งนี้ ข้าพเจ้าได้อ่านและศึกษารายละเอียด นโยบายการคุ้มครองข้อมูลส่วนบุคคลของบริษัท แทนเจอรีน จำกัด ที่ให้ไว้ที่ Tangerine Privacy Center โดยตลอดอย่างดีแล้ว