資料湖泊
資料湖泊(英語:data Lake)是指以檔案以其原始格式(如BLOB或檔案等)儲存的數據儲存庫或是系統[1] 。資料湖泊多半會將所有的資料統一儲存,包括源系統資料、感測器資料、社會資料等資料的原始副本[2],也包括用於報表、視覺化、資料分析和機器學習等流程之轉換後資料。資料湖泊也可能包括關聯式資料庫的結構化資料(行與列)、半結構化的資料(CSV、紀錄檔、XML、 JSON)及非結構化資料 (電子郵件、檔案、PDF)及二進制資料(圖像、音訊、影片)等[3]。資料湖泊可能是「on premises」(指在組織的資料中心裡),也可能放在雲端(使用Amazon、微軟或是Google的雲端服務)。
構建不良的資料湖泊又稱為資料沼澤。使用者或是無法訪問這樣的資料湖泊,或是資料湖泊內的資料沒什麼價值。[4][5]
背景
[編輯]據稱此術語由James Dixon為了與資料市集對比而提出,當時他是Pentaho的技術長。[6]資料市集相對較小,包含從原始資料提取出來的有價值的屬性。[7]在推廣資料湖泊的時候,他認為,資料市集有幾個原生的問題,例如資訊孤島。普華永道稱,資料湖泊可以"解決資料孤島。"[8] 在其資料湖泊研究中,他們指出,企業"開始使用一個單一的、基於Hadoop的儲存庫來存放和提取資料。"
Hortonworks, 谷歌, Oracle, Microsoft, Zaloni, 天睿動力的技術,Cloudera和亞馬遜都有資料湖泊的產品。 [9]
範例
[編輯]許多公司使用Azure Data Lake和 亞馬遜雲服務 Lake Formation之類的雲端儲存服務,或者Apache Hadoop之類的分散式檔案系統 [10] 學術界對於資料湖泊的興趣也正在興起。比如,Cardiff 大學的個人資料湖泊,它定位於管理個人巨量資料,提供收集,管理和分享個人資料的單一入口。
早期的資料湖泊(Hadoop 1.0)在批次資料處理方面能力有限,僅有(MapReduce) 這一個資料處理範式。資料湖泊的訪問者必須具備用Java實現MapReduce的能力,以及掌握一些高層工具,比如Apache Pig和Apache Hive(他們本身是面向批次處理的)。
批評
[編輯]大多數情況下,管理不善的資料湖泊被稱為「數據沼澤」。[11]
在2015年6月,David Needle表示"所謂的資料湖泊"是"一個(相比之下)更具爭議性的方法來管理巨量資料"。[12]
普華永道也在它們的研究中謹慎地指出,並不是所有的資料湖泊行動都是成功的。他們參照Sean Martin,劍橋語意的技術長的話:
“ | 我們看見顧客們創造大型資料墳場,把所有的資料都扔進 Hadoop distributed file system (HDFS) 里,希望以後能派上用場。但是資料從此就失去了蹤跡。 最主要的挑戰不是創造資料湖泊,而是能從中獲益。[8] |
” |
普華永道描述那些在建立資料湖泊方面取得成功的公司能找出對組織重要的那些資料和元資料,逐步讓他們的資料湖泊趨向成熟。對於資料湖泊的另一項批評是,這一概念模糊和任意。它指的是不適合進入傳統的資料倉儲架構的任何工具或資料管理實踐。資料湖泊已被稱為一種特定的技術。資料湖泊已被標記為一個原始資料儲存庫或ETL解除安裝樞紐。資料湖泊已被定義為一個自助分析服務的中央樞紐。資料湖泊這一概念涵蓋了太多意義,因此這個術語的價值存疑。[13]
麥肯錫指出資料湖泊應該被視為一種在企業內部提供業務價值的服務模式,而不是技術成果。[14]
參考文獻
[編輯]- ^ The growing importance of big data quality. [2019-12-20]. (原始內容存檔於2019-12-20).
- ^ What is a data lake?. aws.amazon.com. [12 October 2020]. (原始內容存檔於2023-04-05).
- ^ Campbell, Chris. Top Five Differences between DataWarehouses and Data Lakes. Blue-Granite.com. [19 May 2017]. (原始內容存檔於2017-09-15).
- ^ Olavsrud, Thor. 3 keys to keep your data lake from becoming a data swamp. CIO. [2017-07-05]. (原始內容存檔於2017-07-10) (英語).
- ^ Newman, Daniel. 6 Steps To Clean Up Your Data Swamp. Forbes. [2017-07-05]. (原始內容存檔於2017-08-03).
- ^ Woods, Dan. Big data requires a big architecture. Tech. Forbes. 21 July 2011 [2019-12-20]. (原始內容存檔於2019-09-02).
- ^ Dixon, James. Pentaho, Hadoop, and Data Lakes. James Dixon’s Blog. James. [7 November 2015]. (原始內容存檔於2019-12-20).
If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.
- ^ 8.0 8.1 Stein, Brian; Morrison, Alan. Data lakes and the promise of unsiloed data (pdf) (報告). PricewaterhouseCooper.
- ^ Weaver, Lance. Why Companies are Jumping into Data Lakes. blog.equinox.com. [19 May 2017]. (原始內容存檔於2019-12-20).
- ^ Tuulos, Ville. Petabyte-Scale Data Pipelines with Docker, Luigi and Elastic Spot Instances. 22 September 2015 [2019-12-20]. (原始內容存檔於2019-05-02).
- ^ 3 keys to keeping your data lake from becoming a data swamp. CIO. [2024-05-24]. (原始內容存檔於2023-12-09) (英語).
- ^ Needle, David. Hadoop Summit: Wrangling Big Data Requires Novel Tools, Techniques. Enterprise Apps. eWeek. 10 June 2015 [1 November 2015].
Walter Maguire, chief field technologist at HP's Big Data Business Unit, discussed one of the more controversial ways to manage big data, so-called data lakes.
[失效連結] - ^ Are Data Lakes Fake News?. Sonra. 2017-08-08 [2017-08-10]. (原始內容存檔於2018-08-21).
- ^ A smarter way to jump into data lakes | McKinsey. www.mckinsey.com. [2024-05-24]. (原始內容存檔於2024-05-24).