Apache Spark

Apache Spark
开发者	Apache软件基金会, 加州大学柏克莱分校AMPLab, Databricks
当前版本	4.0.1（2025年9月2日；稳定版本）;
原始码库	github.com/apache/spark;
编程语言	Scala, Java, Python
操作系统	Linux, Mac OS, Microsoft Windows
类型	数据分析, 机器学习算法
许可协议	Apache许可协议 2.0
网站	spark.apache.org

Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在执行完工作后将中介资料存放到磁碟中，Spark使用了存储器内运算技术，能在资料尚未写入硬盘时即在存储器内分析运算。Spark在存储器内执行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍，即便是执行程序于硬盘时，Spark也能快上10倍速度。^[2]Spark允许用户将资料加载至集群存储器，并多次对其进行查询，非常适合用于机器学习算法。^[3]

事实速览 开发者, 当前版本 ...

使用Spark需要搭配集群管理员和分布式存储系统。Spark支持独立模式（本地Spark集群）、Hadoop YARN或Apache Mesos的集群管理。^[4] 在分布式存储方面，Spark可以和 Alluxio、HDFS^[5]、 Cassandra^[6] 、OpenStack Swift和Amazon S3等接口搭配。 Spark也支持伪分布式（pseudo-distributed）本地模式，不过通常只用于开发或测试时以本机文件系统取代分布式存储系统。在这样的情况下，Spark仅在一台机器上使用每个CPU核心执行程序。

在2014年有超过465位贡献者投入Spark开发^[7]，让其成为Apache软件基金会以及大数据众多开源项目中最为活跃的项目。

[2]

[3]

[1]

[4]

[5]

[6]

[7]

Apache Spark

历史

项目构成要素

Spark核心和弹性分布式资料集（RDDs）

Spark SQL

Spark Streaming

MLlib

GraphX

特色

参考资料

外部链接

Wikiwand - on