รู้จักกับ BigLake ส่วนผสมที่ลงตัวของ Data Lake และ Data Warehouse

รู้จักกับ BigLake ส่วนผสมที่ลงตัวของ Data Lake และ Data Warehouse
นับตั้งแต่โลกให้ความสนใจกับ Big Data คงไม่มีใครไม่เคยได้ยินคำว่า Data Lake นี่ไม่ใช่เรื่องใหม่ และมีมานานกว่า 10 ปีแล้ว หากให้ย้อนเวลาพาท่านผู้อ่านกลับไปราว ๆ 20 ปีก่อนที่ Data Lake จะเกิดขึ้น เราคงคุ้นเคยกับคำว่า “การทำเหมืองข้อมูลหรือ Data Mining” เสียมากกว่า นั่นคือยุคแรกที่เราเริ่มขุดเหมืองเพื่อหา Insight กัน

เลือกหัวข้อที่สนใจ

ดูเหมือนคำว่าเหมืองข้อมูลจะค่อนข้างดูเก่ามาก ถ้าเรียกว่า Data Warehouse คงจะเข้าใจคำนี้กันมากกว่า ใช่แล้ว Data Warehouse มีมาตั้งแต่ปี 1980 เลยก็ว่าได้ เราเรียนรู้ที่จะกลั่นข้อมูลออกมาเป็นความรู้ (Knowledge) ไปใช้ต่อ เพื่อประโยชน์ทางธุรกิจ แต่ถ้า Data Warehouse มันตอบจบครบขนาดนั้น คงไม่มี Data Lake เกิดขึ้น

Data Lake เกิดขึ้นราวปี 2011 เพื่ออุดข้อจำกัดบางอย่างของ Data Warehouse เช่น การเก็บข้อมูลที่อยู่ในรูป Unstructure แบบไร้โครงสร้าง เช่น รูปภาพ, เสียงที่บันทึกต่าง ๆ  เหตุผลเพื่อต้องการสกัดข้อมูลเหล่านั้นไปใช้กับการทำ AI/ML กับข้อมูลอันมหาศาล ที่เหล่านักทำข้อมูลต่างใช้ Hadoop, Spark เพื่อเล่นกับ Lake ของพวกเขา

นักทำข้อมูลมีหลายบทบาท บางทีเป็น Data Engineer บางครั้งเป็น Data Scientist หรือไม่ก็ Data Analyst พวกเขาใช้แหล่งข้อมูลที่มีโครงสร้าง หรือรูปแบบการเก็บข้อมูลที่แตกต่างกัน เช่น Data Analyst เขามักจะวิเคราะห์ข้อมูลอยู่บน Business Intelligence แหล่งข้อมูลของพวกเขามาจาก Data Mart บน Data Warehouse ซึ่งใช้ SQL ในการ Query ข้อมูลออกมา ในขณะที่ Data Scientist เขาจะเน้นทำ Machine Learning Model เป็นหลัก อาจจะใช้ SparkML ในการ Train Model ก็ได้ ซึ่งข้อมูลเหล่านี้จะเป็นไฟล์ Parquet อยู่บน Lake

เราพยายามที่จะใช้ประโยชน์จาก Data Source เดียวกัน แต่ดูเหมือนไม่ได้ตรงไปตรงมาเช่นนั้น เพราะบางครั้งเราก็ใช้ข้อมูลจาก Data Lake บางครั้งเราก็ใช้ข้อมูลจาก Data Warehouse ซึ่งช่องว่างตรงนี้ที่เป็น Gap ทำให้ Data lake มีความซ้ำซ้อน เพราะข้อมูลเดียวกันถูกเก็บซ้ำซ้อน และกระจัดกระจายหลายที่ แล้วเราจะเชื่อข้อมูลจากที่ใดว่านี่คือข้อมูลที่ถูกต้อง เป็น Single Source of Truth ปัญหานี้ ทำให้ Lakehouse เกิดขึ้น

Lakehouse คืออะไร?

หลายท่านคงพอเดาได้ว่า Lakehouse เกิดจากการรวมคำระหว่างคำว่า Data Lake กับ Data Warehouse คือทำให้เป็นที่เดียวที่ใช้ข้อมูลจากแหล่งเดียวกัน ไม่ว่าเราจะทำ Machine Learning จะทำ BI เป็น Dashboard / Report ไม่ต้องกลัวว่า Data จะไม่ตรงกันหรือ Performance จะไม่เทียบเท่า Data Lake

ซึ่ง BigQuery ที่เราทราบกันดีว่าเก่งที่สุดในเรื่อง Cloud Data Warehouse ของโลก ณ ปัจจุบันนี้ รองรับเทคโนโลยีของ Lakehouse

BigLake คืออะไร?

Google Cloud Platform

เดิมที่เจ้าตัว BigQuery เองสามารถอ่านข้อมูล Text Files จำนวนมากไม่ว่าจะเป็น Parquest, ORC, Avro, JSON, CSV ที่กระจายอยู่บน Lake มาเป็น Table บน Data Warehouse ได้เลย ซึ่งนับว่าเป็นการทำ Lakehouse อยู่แล้ว

แต่ BigLake ที่เกิดขึ้นมาใหม่บน BigQuery นั้นทำให้ Data Lake และ Data Warehouse เป็นหนึ่งเดียวกันอย่างสมบูรณ์ และยังได้เรื่องของการทำ Fine-grained Access Control หรือควบคุมสิทธิ์แต่ละคนได้อย่างละเอียด ทั้งข้อมูลที่อยู่บน Google Cloud เองหรืออยู่บน Amazon S3 และ Azure Data Lake Storage Gen2 ได้ และทำให้เราจำกัดการเข้าถึง Rows หรือ Columns ที่มีความ Sensitive ตาม PDPA ได้

ดังนั้น นักทำข้อมูลทุก Role ไม่จำเป็นต้องได้รับสิทธิ์เต็มที่ในการอ่านข้อมูลบน Data Lake พวกเขาใช้ประโยชน์ข้อมูลเหล่านี้ผ่าน BigLake บน BigQuery ก็เพียงพอ ซึ่งการจำกัดสิทธิ์แบบนี้บน Data Lake ที่ข้อมูลอยู่ในรูป Text Files หลายร้อยหลายพันไฟล์ค่อนข้างทำได้ลำบาก

วิธีเริ่มใช้ BigLake

BigLake เป็นเหมือน External Table ที่ BigQuery ไม่ได้เก็บข้อมูลอยู่บน Storage ตัวเอง เช่นเดียวกับ External Table อื่น ๆ ดังนั้นวิธีการเพิ่ม Connection ตรงนี้ไม่ต่างกัน เรามาดูขั้นตอนไปพร้อม ๆ กันเลยดีกว่า

1. สร้าง Big Lake Connection บน BigQuery Web UI

  • ไปที่ + Add data เลือก External Data Source
  • เลือก Connection Type เป็น Cloud Resource (for BigLake Tables)
  • ตั้งชื่อ Connection ให้เรียบร้อย

2. ให้สิทธิ์ Connection ที่สร้างขึ้นใหม่ในการอ่านข้อมูลจาก Cloud Storage

2.1 จาก Connection ที่เราสร้างขึ้นมาใหม่ Copy Service Account นี้ไป Grant สิทธิ์บน IAM

Google Cloud Platform

2.2 ให้สิทธิ์ Service Account นี้เป็น Storage Object Viewer

Google Cloud Platform

3. สร้าง BigLake Table

Google Cloud Platform
  1. เราสามารถไปที่ Dataset ใดก็ได้จากนั้นเลือก Create Table
  2. ที่ Source เลือกเป็น Google Cloud Storage แล้วกรอกข้อมูลไฟล์บน GCS
  3. ที่ Destination เลือกเป็น External Table จะมีช่องให้เราเลือกว่า Use Cloud Resource Connection to Crate Authorized External Table และเลือก BigLake Connection ID ที่เราสร้างขึ้นมา

4. เราก็จะได้ BigLake Table บน Dataset ที่เราเลือกดังภาพ

ซึ่งตรงนี้เราสามารถทำ Column Level Security ได้โดย Edit Schema แล้ว Add Policy ที่สร้างขึ้น Data Catalog เพื่อจำกัดการเข้าถึง Column ที่ Sensitive เช่น เลขบัตรประชาชน, เลขบัตรเครดิตได้

Google Cloud Platform

เป็นอย่างไรบ้างกับการทำ Lakehouse บน Google Cloud ด้วย BigLake นั้นง่ายมาก ขั้นตอนน้อย แต่ผลลัพธ์นั้นยิ่งใหญ่ เราสามารถใช้ BigLake เป็น Data Source สำหรับทำ Model ด้วย SparkML หรือ 

Query ด้วย SparkQL ก็ได้ รวมถึงยังสามารถใช้ Data Studio, Tableau, Looker หรือ BI อื่น ๆ มาต่อที่ Table นี้ได้โดยตรงอีก และมั่นใจได้ว่า Row หรือ Column ที่เรามี Policy ครอบคลุม และไม่อยากให้ผู้ไม่เกี่ยวข้องมา Query จะไม่หลุดออกไปแน่นอน เรียกได้ว่า Data Analyst และ Data Scientist ถูกใจสิ่งนี้

แทนเจอรีนเชี่ยวชาญในด้าน Digital & Cloud Technologies
ให้บริการครบวงจรระดับ Enterprise IT Solutionsทั้งองค์กรภาครัฐและเอกชนจำนวนมากให้เติบโตอย่างต่อเนื่อง
สนับสนุนต่อยอดการดำเนินธุรกิจให้สอดคล้องกับยุค Digital Transformation และครอบคลุมในทุกมิติ

ปรึกษาข้อมูลเพิ่มเติม Google Cloud Platform สำหรับองค์กร รวมถึงสิทธิพิเศษต่าง ๆ

ได้ที่ marketing@tangerine.co.th หรือโทร 094-999-4263 

Share on social media

Thakorn.T

Cloud Data Analytics & AI Engineer

Tangerine Expertise

Related Solution

Expand Interests

All and More

  • All
  • Apigee
  • Application Development
  • Business Transformation
  • Cisco
  • Converged Infrastructure
  • Data Analytics
  • Dell EMC
  • Dell Technologies
  • Dialogflow (Chatbot)
  • Event
  • G Suite
  • Google Cloud
  • Google Cloud Platform
  • Google Maps Platform
  • Google Workspace
  • Highlight
  • Huawei
  • Hybrid Cloud & Multi Cloud
  • Knowledge
  • Networking
  • Productivity & Work Transformation
  • Security
  • Smart Business Analytics & AI
  • Storage & Data Protection
  • Success Story
  • Tenable
  • Thales
  • VMware
All
  • All
  • Apigee
  • Application Development
  • Business Transformation
  • Cisco
  • Converged Infrastructure
  • Data Analytics
  • Dell EMC
  • Dell Technologies
  • Dialogflow (Chatbot)
  • Event
  • G Suite
  • Google Cloud
  • Google Cloud Platform
  • Google Maps Platform
  • Google Workspace
  • Highlight
  • Huawei
  • Hybrid Cloud & Multi Cloud
  • Knowledge
  • Networking
  • Productivity & Work Transformation
  • Security
  • Smart Business Analytics & AI
  • Storage & Data Protection
  • Success Story
  • Tenable
  • Thales
  • VMware
Security

ป้องกันภัยคุกคามทางไซเบอร์ผ่านเทคโนโลยี Web Browser Isolation

จากสถานการณ์ Covid-19 ในปัจจุบันนี้ทำให้รูปแบบการทำงานของแต่ละองค์กรมีการปรับเปลี่ยนไปเพื่อลดความเสี่ยงในกรณีที่พนักงานจะต้องเข้ามาทำงานร่วมกันที่สำนักงาน จึงเกิดการทำงานแบบ Work from Home กันมากขึ้น และด้วยเหตุนี้เองการทำงานในรูปแบบของ Work from Home นั้นก็มีความเสี่ยงที่จะทำให้เกิดภัยคุกคามบนเครื่อง Endpoint ได้อย่างเช่น เครื่องโน้ตบุ๊ค, อุปกรณ์มือถือ เป็นต้น

Google CloudGoogle Maps PlatformHighlight

Solution Library ตัวช่วยในการออกแบบระบบงานด้านแผนที่เพื่อธุรกิจ

นักพัฒนาโปรแกรมที่เรียกใช้ Google Maps Platform บางท่านอาจจะมีความสงสัยในการออกแบบระบบงานด้านแผนที่ เช่น ถ้าอยากจะได้งานด้านแผนที่ตามที่ได้วางแผนไว้ จะต้องเรียกใช้งาน API Service อะไร หรือเขียน Source Code ยังไง เพื่อให้การทำงานดูสมบูรณ์แบบมากที่สุด

GMP API
Google CloudGoogle Maps PlatformHighlight

Locator Plus Solution ตัวช่วยสำหรับระบบงานด้านแผนที่ในธุรกิจของคุณเพียงไม่กี่คลิก

สวัสดีผู้ใช้งาน Google Maps Platform ทุกท่าน มาในครั้งนี้ทาง Tangerine กลับมาด้วยบทความที่เป็น Blog Series โดยมีเนื้อหาทั้งหมด 4 บทความที่จะค่อยๆ ปล่อยออกมาให้ทุกท่านได้รับความรู้ และเทรนเทคโนโลยีของ Google Maps Platform ในเรื่องของ Solution Library

Application_Modernization benefits
HighlightHybrid Cloud & Multi CloudVMware

เจาะ 3 กลยุทธ์ที่ Transform องค์กรสู่ยุคแห่ง Application Modernization

ปัจจุบัน Kubernetes เป็นเครื่องมือที่แพร่หลาย ช่วยให้องค์กรสามารถสร้างเรียกใช้ และจัดการแอปพลิเคชันบนระบบ Cloud ได้อย่างมีประสิทธิภาพ VMware ได้ผสานรวม Kubernetes เข้ากับ vSphere และมีการริเริ่มที่น่าตื่นเต้นหลายอย่างที่จะช่วยให้องค์กรพัฒนา Modernize Application

Check คนเข้าดู Dashboard อย่างละเอียด
Data AnalyticsGoogle CloudHighlight

Data Studio Tips! รู้งี้ทำนานแล้ว ติดตามพฤติกรรมการเข้าชม Dashboard ของเราด้วย Google Analytics

ต่อยอดจากเทคนิคที่แล้วที่ทำให้เราทราบว่าใครในองค์กรเราบ้างใช้ Data Studio วันนี้ Tangerine มีอีกหนึ่งเทคนิคในการติดตามดูพฤติกรรมการดูรายงานของผู้ใช้ต่างๆ เมื่อเรา public ออกมาให้ทีมอื่นๆ หรือแม้กระทั่งประชาชนทั่วไปให้ทราบถึง demographic ของพวกเขา, device ที่เขาใช้ หรือข้อมูลต่างๆ ซึ่งจะช่วยเราเข้าใจผู้ชมและปรับปรุงรายงานของเราให้ตรงผู้ชมมากขึ้น

Scroll to Top

ติดต่อ tangerine

Tel: +66 2 2855511   |   Email: info@tangerine.co.th





      This website uses cookies to ensure you get the best experience on our website. View Privacy Policy