Data Analytics & Artificial Intelligence
ในการทำ Data Warehouse สิ่งสำคัญที่จะลำเลียงข้อมูลมาลงเหมืองข้อมูลได้ ก็คือ Data Pipeline ซึ่งส่วนใหญ่จะเป็นข้อมูลที่เป็นลักษณะ Incremental กล่าวคือมี Record เกิดขึ้นใหม่ อาทิ Sale Transactions หรือ Logs ต่าง ๆ ก็จัดการได้ไม่ยากนัก แต่ Challenge ที่มักพบกับข้อมูลที่ไม่ได้เป็น Incremental กล่าวคือข้อมูลที่ไปแก้ใน Record เดิม ๆ อาทิ ราคาหุ้นที่เปลี่ยน, แต้มสมาชิกคงเหลือในบัญชี ที่จำเป็นต้อง sync ระหว่าง Database ต้นทาง และ Data Warehouse ใน Record เดิมเช่นกัน มิเช่นนั้นจะทำให้ Data มีความแตกต่างจนอาจทำให้เกิดความผิดพลาดได้ ซึ่งเราจะแก้ปัญหาเหล่านี้ด้วยกระบวนการ CDC ครับ
Data Analytics & Artificial Intelligence
บทความใน EP2 ที่ผ่านมาจะเป็นการติดตั้ง Oracle เพื่อเตรียมพร้อมให้ Datastream เชื่อมต่อมาครับ โดยในบทความนี้ผู้เขียนจะสาธิตถึงวิธีการสร้าง profile ที่เชื่อมต่อจาก Datastream และสร้าง Streaming Pipeline มาลงยัง BigQuery
Data Analytics & Artificial Intelligence
จากบทความที่แล้วผู้อ่านทุกท่านก็พอมีความเข้าใจมากขึ้นในกระบวนการ CDC รวมถึงขั้นตอนในการทำ data pipeline จาก Oracle มายัง BigQuery กันบ้างแล้ว สำหรับบทความนี้เราจะเริ่มจำลองตัว Oracle ขึ้นมาโดยการเตรียมลง Oracle บน Google Cloud กันครับ
Data Analytics & Artificial Intelligence
ปฎิเสธไม่ได้เลยว่าพระเอกชูโรงของ Google ในกลุ่มงาน Data คือ BigQuery ซึ่งถือว่าเป็นหัวใจสำคัญในการทำงานด้านการวิเคราะห์และปัญญาประดิษฐ์ (Data Anlytics & AI) และเป็นส่วนสำคัญพื้นฐานใน Data Warehouse Modernization Solution และจากงาน Data Cloud & AI Summit เมื่อ 29 มีนาคม 2023 ที่ผ่านมา BigQuery ก็ได้ประกาศออก Editions ใหม่ที่ทำให้การทำงานด้าน Data Cloud ยืดหยุ่นกับโมเดลที่ควบคุมและคาดการณ์ Cost ได้ดียิ่งขึ้นกว่าเดิม
Data Analytics & Artificial Intelligence
สำหรับนักวิเคราะห์ข้อมูล ปัญหาที่มักจะพบคือการนำเข้าข้อมูลจากหลายๆ แหล่งนั้นมีโครงสร้างที่แตกต่างกัน และ Data Warehouse ที่จะสามารถประมวลผลและรองรับโครงสร้างของข้อมูลได้ทุกประเภทในปัจุบันแทบจะไม่มีเครื่องมือใดเลย แต่ช้าก่อนบน Google Cloud Platform มี Data Warehouse ที่สามารถรองรับข้อมูลได้ทุกโครงสร้างทั้ง Structured Data, Semi-Structured Data และ Unstructured Data นั่นก็คือ BigQuery นั่นเอง
Data Analytics & Artificial Intelligence
Security เป็นเรื่องสำคัญพื้นฐานขององค์กรที่ต้องมีการกำกับดูแลให้เป็นไปตามนโยบายของแต่ละแห่ง รวมถึงต้องสอดคล้องกับ PDPA ในปัจจุบันด้วย เมื่อพูดถึงเรื่อง security แต่เดิมอาจฟังดูเหมือนเป็นเรื่องของ application หรือ infrastructure เพียงอย่างเดียว แต่ปัจจุบันนั้น data กลับมีค่าและสำคัญยิ่งกว่า จึงจำเป็นต้องมี security มากำกับดูแลไม่ต่างกัน
Data Analytics & Artificial Intelligence
เคยมีปัญหากับการต้องใช้งาน Table บน BigQuery ร่วมกับคนอื่นมั้ย? ถ้าใครไม่มี อยากให้ลองจินตนาการดูง่ายๆ ว่าถ้าเรามี Table ที่มี user หลากหลายกลุ่มมาใช้งานร่วมกัน แต่ต้องการให้บางคนเข้าถึงข้อมูลแค่บาง Column(s) เท่านั้น วันนี้จะพาทุกคนมารู้จัก “Policy tag” ที่จะมาช่วยแก้ปัญหานี้กัน!