热门问题
时间线
聊天
视角

Apache Beam

编程模型 来自维基百科,自由的百科全书

Apache Beam
Remove ads

Apache Beam是一个开源统一编程模型,用于定义和执行数据处理管道,包括ETL批处理流(连续)处理[2] Beam流水线是使用提供的SDK之一定义的,并在Beam支持的一个运行器(分布式处理后端)中执行,包括Apache Apex英语Apache ApexApache Flink、Apache Gearpump(孵化中)、Apache Samza英语Apache SamzaApache Spark和Google Cloud Dataflow。[3]

事实速览 原作者, 开发者 ...

它被称为“大数据的超级API”。[4]

Remove ads

历史

Apache Beam[3]是数据流模型文件的一种实现。[5]数据流模型基于以前关于Google的分布式处理抽象的工作,特别是FlumeJava[6]和Millwheel。[7][8]

Google于2014年发布了数据流模型的开放式SDK,以及在本地(非分布式)和Google云平台服务中执行数据流的环境。

2016年,Google向Apache软件基金会捐赠了核心SDK以及本地运行程序的实现,以及用于访问Google云平台数据服务的一组IO(数据连接器)。其他公司和社区成员为现有的分布式执行平台提供了运行器,以及新的将Beam Runners与现有数据库、键值存储和消息系统集成的IO。此外,还提出了新的DSL,以支持Beam模型之上的特定领域需求。

时间线

更多信息 版本, 释放日期 ...
Remove ads

参见

参考文献

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads