資料湖採用率上升的原因之一是它們能夠處理來自不同資料來源的大量資料、大規模轉換資料並提供有價值的見解。然而,這種能力是以複雜性為代價的。
這就是數據沿襲發揮作用的地方。
在本文中,我們回顧了開源解決
方案LakeFS的一些基本功能,這些功能有助於以最低的成本快速實現沿襲,並使用您在管理程式碼時已經熟悉的 資料版本控制概念。
什麼是資料沿襲?
資料沿襲是追蹤資料從其來源
到最終目的地的過程。它幫助資料從業者了解資料在整個生命週期中如何轉換、儲存和使用。
如果沒有有效的資料 西班牙 WhatsApp 號碼數據 沿襲策略,解決問題並確保資料品質是非常困難的任務。此外,在法規和合規標準的推動下,對資料實踐的日益嚴格的審查需要可靠的審計追蹤來概述資料處理活動。
因此,如今,沿襲是資料湖架
構的關鍵組成部分,可用於:
合規性-透過提供資料處理活動的稽核追蹤來證明合規性。
效率-透過識別自動化流程和提高效率的機會來優化資料處理工作流程。
協作-透過提供對資料的共同理解,促進資料工程師和其他利害關係人之間的溝通和決策。
LakeFS 是什麼?LakeFS是一個開源
可擴充、零拷貝的資料湖資料版本控制系統。 LakeFS 系統使用類似 Git 的語意(例如分支、提交、合併和回溯),幫助資料從業人員 從技術到語意不忘使用者體驗和 合作並始終確保資料的可管理性、品質和可重複性。
LakeFS 支援管理 以及任何其他具有 S3 介面的物件儲存(例如 MinIO 或 Dell ECS)中的資料。
該平台與標準編排工具和計算引
擎等流行的數據框架順利整合。它使用元資 清潔新聞 料來管理資料版本,並支援所有物件儲存中的任何資料格式、任何資料大小。
為什麼可擴展的資料版本控
制對於資料沿襲很有用?
採用「Git for data」方法的優點在於,現在您可以利用您熟悉的程式碼最佳實踐並將其用於資料。
在本部落格中,我將引導您逐步完成筆記本,幫助您了解如何在具有 LakeFS 的資料湖上使用類似 Git
的操作透過使用不同的分支
和提交進行攝取和轉換來實現沿襲。
實現資料湖的資料沿襲 – 逐步指南
也許數據沿襲幫助回答的最常見的「過於簡單化」的問題是:
轉換之前的原始資料是什麼樣的?
通常,它的措辭是“這是我的錯嗎?或者我只是得到了錯誤的數據?
為了回答這個問題,我們將利用LakeFS 範例儲存庫data-lineage中的範例筆記本。