Data Analytics & Artificial Intelligence
CDC ข้อมูลจาก Oracle ไป BigQuery ง่ายนิดเดียวด้วย Datastream (ฉบับจับมือสอน EP.1/3)
ในการทำ Data Warehouse สิ่งสำคัญที่จะลำเลียงข้อมูลมาลงเหมืองข้อมูลได้ ก็คือ Data Pipeline ซึ่งส่วนใหญ่จะเป็นข้อมูลที่เป็นลักษณะ Incremental กล่าวคือมี Record เกิดขึ้นใหม่ อาทิ Sale Transactions หรือ Logs ต่าง ๆ ก็จัดการได้ไม่ยากนัก แต่ Challenge ที่มักพบกับข้อมูลที่ไม่ได้เป็น Incremental กล่าวคือข้อมูลที่ไปแก้ใน Record เดิม ๆ อาทิ ราคาหุ้นที่เปลี่ยน, แต้มสมาชิกคงเหลือในบัญชี ที่จำเป็นต้อง sync ระหว่าง Database ต้นทาง และ Data Warehouse ใน Record เดิมเช่นกัน มิเช่นนั้นจะทำให้ Data มีความแตกต่างจนอาจทำให้เกิดความผิดพลาดได้ ซึ่งเราจะแก้ปัญหาเหล่านี้ด้วยกระบวนการ CDC ครับ