ก้าวสำคัญขององค์กรกับการจัดการ Data บน Google Cloud Platform ด้วย Dataplex
Data Fabric คืออะไร?
Data Fabric เป็นแนวคิดในการออกแบบกระบวนการเชื่อมโยงของ data เสมือนเป็นผืนผ้าที่ถักทอร้อยแต่ละชั้นข้อมูลเป็นผืนเดียวกันเพื่อที่เราจะสามารถควบคุมข้อมูลหรือสนับสนุนการทำงานได้อย่างเหมาะสม
Dataplex คืออะไร? และช่วยพวกเราได้อย่างไร?
Dataplex คือ intelligent data fabric ที่ช่วยในเรื่องการจัดการแบบศูนย์กลาง (centrally manage), monitor, การทำ data governance ทั้งบน data lakes, data warehouses และ data marts รวมถึงเรื่องการใช้งานเครื่องมือด้าน analytics และ data science ให้ปลอดภัยและมีคุณภาพยิ่งขึ้นในที่เดียว แม้ว่าข้อมูลจะถูกจัดเก็บแบบกระจาย (distributed data) ก็ตาม
Dataplex มาพร้อมกับการบูรณาการประสบการณ์ในการใช้เครื่องมือด้านการวิเคราะห์บน Google Cloud ต่างๆ รวมถึงการ built-in data intelligence เข้ามาโดยใช้ Google AI เราจึงไม่จำเป็นต้องเสียเวลาในเรื่องเตรียม infrastructure หรือระบบให้สอดคล้องในการทำ data fabric มากนัก การ save เวลา save cost เหล่านี้ ทำให้เรา focus ที่การ drive business ของแต่ละองกรได้อย่างเต็มที่
Resources & Assets บน Google Cloud
แต่ละองค์กรจะมี assets ต่างๆ ไม่ว่าจะเป็น Data Warehouses, Data Lakes หรือ Data Marts ที่มีการเก็บข้อมูลหลากหลายประเภท เช่น sale transactions, customer profile, LoB data และ logs ขึ้นอยู่กับการใช้งานว่าจะใช้ analytic tools แบบไหนหรือไป process data ต่ออย่างไร
Dataplex จะเข้ามาครอบ assets เหล่านี้เพื่อประโยชน์ในการจัดการ data เบ็ดเสร็จในที่เดียว (Unified Data Management) และนำเอาเครื่องมือวิเคราะห์ข้อมูลต่างๆ (Integrated Analytics Experience) มาอยู่ในตัวเองด้วย
ในเรื่องของ Logical Data Organization หรือ High-Level Design จะแบ่ง level ของ Data Lakes ลงมาเป็น Data Zone ซึ่งในแต่ละ zone จะมี Assets เช่น Cloud Storage, BigQuery ที่เป็น source ข้อมูลสำหรับวิเคราะห์ business ทีม business analyst หรือแม้แต่ data scientist มีสิทธิ์ในการเข้าถึง data ในแต่ละ zone พวกเขาจะเข้าถึง assets ต่างๆ ที่แต่ละ zone เตรียมให้ โดยไม่จำเป็นต้องรู้ว่า data ที่แท้จริงถูกจัดเก็บไว้ที่ใด เพียงแค่มีสิทธิ์ในเข้าถึงเพื่อใช้งานก็เพียงพอแล้ว วิธีนี้จะเอื้ออำนวยในเรื่องการทำ policy และ security ครอบ assets อีกทั้งยังสะดวกแก่ Data Steward หรือ Security Admin ในควบคุมเพราะหากมี assets ก้อนใหม่เข้ามาใน zone ดังกล่าว ก็จะถูก apply policy ของ zone นั้นๆ ไปด้วยโดยอัตโนมัติ
Dataplex ช่วยในเรื่อง Data Quality ทำให้ทีม Data Analytic & Data Science สามารถใช้ data ได้อย่างมั่นใจ
ความแตกต่างของ Dataplex ที่เป็น key differentiation คือ data intelligence
ที่ Google ใช้เทคโนโลยี AI จัดการ metadata ทั้งในรูปแบบ structured และ unstructured data ในการทำ data quality check รวมถึงการทำ indexing บน metastore เพื่อประโยชน์ในการ search & discovery data ให้มองเห็น data แบบ landscape ทำให้รู้ว่า data ที่เราจะนำไปใช้ทำรายงานหรือโมเดลต่างๆ นั้นอยู่ที่ใด มีคุณภาพสูง-ต่ำอย่างไร พอจะนำไปใช้ต่อได้หรือไม่ ทำให้พวกเขาสามารถนำข้อมูลไปใช้วิเคราะห์ได้อย่างมั่นใจมากยิ่งขึ้น
Dataplex เข้าถึง Analytics Data ได้ในที่เดียว
เราสามารถเข้าถึงข้อมูลบน BigQuery หรือ Spark ผ่าน Analytic Environment บน Dataplex ได้
ผู้ที่เป็น Data Admin สามารถ configure environments ต่างๆ ให้เป็นไปตาม data governance ไม่ว่าจะเป็นเรื่อง IAM, provisioning, monitoring, scaling หรือ shutdown environment เหล่านั้นได้
ผู้ที่ใช้ data ทั่วไป เช่น data scientist, data analyst, data engineers สามารถเข้าถึง Notebook หรือ SQL Workbench ได้ในการใช้ BigQuery, Spark, SparkSQL เพื่อ query, ทำ schedule notebook หรือ script ต่างๆ และยังสามารถ share ให้กับ users ท่านอื่น ซึ่งประสบการณ์ที่ดีเหล่านี้ถูกรวมเอาไว้ใน Dataplex ที่เดียว
Conclusion
จากความสามารถต่างๆ ทำให้ Dataplex เป็นดั่ง single pane of glass ช่วยในเรื่องการทำ end-to-end data management และ governance ที่จบครบในตัวเองและง่ายสำหรับทุกคนที่ใช้ Google Cloud Platform และสนับสนุนให้งานด้าน analytics และ AI/ML ราบรื่นโดยไม่ต้องกังวลในเรื่อง data quality และ security & policy ได้เป็นอย่างดีครับ
สำหรับใครที่สนใจในเรื่องของ Google Cloud Platform หรือ Service อื่นๆ
ด้าน Data Analytics, AI/Machine Learning อาทิ Vision AI, OCR, Text to Speech
Tangerine มีผู้เชี่ยวชาญคอยให้คำปรึกษา สามารถติดต่อได้ที่
อีเมล marketing@tangerine.co.th หรือโทร 08-6788-4690 ได้ทันที
Share on social media
Related Solution
All and More
- All
- Apigee
- Application Development
- Business Transformation
- Cisco
- Converged Infrastructure
- Data Analytics
- Dell EMC
- Dell Technologies
- Dialogflow (Chatbot)
- Event
- G Suite
- Google Cloud
- Google Cloud Platform
- Google Maps Platform
- Google Workspace
- Highlight
- Huawei
- Hybrid Cloud & Multi Cloud
- Knowledge
- Networking
- Productivity & Work Transformation
- Security
- Smart Business Analytics & AI
- Storage & Data Protection
- Success Story
- Tenable
- Thales
- VMware
- All
- Apigee
- Application Development
- Business Transformation
- Cisco
- Converged Infrastructure
- Data Analytics
- Dell EMC
- Dell Technologies
- Dialogflow (Chatbot)
- Event
- G Suite
- Google Cloud
- Google Cloud Platform
- Google Maps Platform
- Google Workspace
- Highlight
- Huawei
- Hybrid Cloud & Multi Cloud
- Knowledge
- Networking
- Productivity & Work Transformation
- Security
- Smart Business Analytics & AI
- Storage & Data Protection
- Success Story
- Tenable
- Thales
- VMware
Data Studio Tips! จะรู้ได้อย่างไรว่าใครควรใช้ Data Studio ในองค์กรเราบ้าง?
หลายองค์กรเริ่มมีการปรับตัวมาใช้ Business Intelligence แทนที่ Google Sheets หรือ Excel ในมุมของการทำ report กัน โดยมักจะใช้ Data Studio สำหรับทำ Dashboard เนื่องจากฟรีไม่มีค่าใช้จ่ายแล้ว ยังใช้งานง่ายตอบโจทย์ธุรกิจค่อนข้างครบถ้วน ซึ่งเราก็ต้องการที่จะ Build ให้องค์กรของเราใช้ Dashboard ที่ทางทีม BI สร้างมาให้กับทุกคน แต่คำถามต่อมาคือเราจะทราบได้อย่างไรว่าใครในองค์กรเราใช้ Data Studio กันบ้างล่ะ วันนี้ทาง Tangerine มีทริคดีๆ มาเล่าให้ฟังกัน
Smart Workplace Technology: ตัวช่วยในการทำงานแบบ Hybrid ให้ดียิ่งขึ้น!
หลาย ๆ องค์กร ต้องต้องปรับตัวเข้ากับการทำงานแบบ Hybrid Work ทั้ง Work From Home หรือ Work From Anywhere เนื่องจากสถานการณ์บังคับจากเหตุการณ์แพร่เชื้อโควิด แต่อย่างไรก็ตามปัญหาที่ตามมาคือ เกิดการเปลี่ยนแปลงวัฒนธรรมองค์กร และการมีส่วนร่วมของคนในองค์กร (Engagement) ที่ลดน้อยลงอย่างชัดเจน สิ่งที่องค์กรต้องเตรียมพร้อมคือ การสร้าง Hybrid Workplace (แบ่งการทำงานทั้งที่ออฟฟิศและที่บ้าน) เพื่อรองรับรูปแบบที่เปลี่ยนไป และรองรับวิกฤตการณ์ที่อาจเกิดขึ้นอีกครั้ง
เตรียมรับมือภัยร้าย BlackByte Ransomware ให้องค์กรอย่างมีประสิทธิภาพ
นับตั้งแต่รัฐบาลได้เริ่มออกมาตรการล็อกดาวน์ องค์กรต่าง ๆ ก็ไม่มีทางเลือกอื่นนอกจากต้องสนับสนุนให้สามารถทำงานได้จากระยะไกลหรือการทำงานที่บ้าน ในจุดนี้เองจึงทำให้องค์กรจะต้องมีพื้นฐานการป้องกันภัยคุกคามทางไซเบอร์ออกเป็นสองกลุ่ม ดังนี้
เสริมการปกป้อง Virtual Environment ด้วย Workload Security
ในช่วงที่ผ่านมาเรามักจะได้ยินข่าวการโจมตีข้อมูลภายในองค์กร หรือการเรียกค่าไถ่ข้อมูล โดยที่ Hacker จะหาช่วงโหว่ต่าง ๆ เพื่อเข้าถึงข้อมูลในศูนย์ข้อมูลขององค์กร แล้วสร้างความเสียหายกับระบบงานทำให้ไม่สามารถใช้งานได้ และเรียกค่าไถ่จากองค์กรเพื่อให้ข้อมูล หรือระบบกลับมาใช้งานได้อีกครั้ง ในกรณีที่มีการสำรองข้อมูลไว้ก็จะช่วยให้กู้คืนข้อมูลกลับมาใช้งานได้ แต่อาจจะไม่ใช่ข้อมูลล่าสุด
รู้จักกับ BigLake ส่วนผสมที่ลงตัวของ Data Lake และ Data Warehouse
นับตั้งแต่โลกให้ความสนใจกับ Big Data คงไม่มีใครไม่เคยได้ยินคำว่า Data Lake นี่ไม่ใช่เรื่องใหม่ และมีมานานกว่า 10 ปีแล้ว หากให้ย้อนเวลาพาท่านผู้อ่านกลับไปราว ๆ 20 ปีก่อนที่ Data Lake จะเกิดขึ้น เราคงคุ้นเคยกับคำว่า “การทำเหมืองข้อมูลหรือ Data Mining” เสียมากกว่า นั่นคือยุคแรกที่เราเริ่มขุดเหมืองเพื่อหา Insight กัน