热门问题
时间线
聊天
视角
Apache Beam
编程模型 来自维基百科,自由的百科全书
Remove ads
Apache Beam是一個開源統一編程模型,用於定義和執行數據處理管道,包括ETL、批處理和流(連續)處理。[2] Beam流水線是使用提供的SDK之一定義的,並在Beam支持的一個運行器(分布式處理後端)中執行,包括Apache Apex、Apache Flink、Apache Gearpump(孵化中)、Apache Samza、Apache Spark和Google Cloud Dataflow。[3]
它被稱為「大數據的超級API」。[4]
Remove ads
歷史
Apache Beam[3]是數據流模型文件的一種實現。[5]數據流模型基於以前關於Google的分布式處理抽象的工作,特別是FlumeJava[6]和Millwheel。[7][8]
Google於2014年發布了數據流模型的開放式SDK,以及在本地(非分布式)和Google雲平台服務中執行數據流的環境。
2016年,Google向Apache軟件基金會捐贈了核心SDK以及本地運行程序的實現,以及用於訪問Google雲平台數據服務的一組IO(數據連接器)。其他公司和社區成員為現有的分布式執行平台提供了運行器,以及新的將Beam Runners與現有數據庫、鍵值存儲和消息系統集成的IO。此外,還提出了新的DSL,以支持Beam模型之上的特定領域需求。
Remove ads
參見
- Apache軟件基金會的項目列表
參考文獻
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads