Apache Spark

Apache Spark 是一个开源集群计算框架，最初由加州大学伯克利分校 AMPLab 开发。与 Hadoop 的两阶段基于磁盘的 MapReduce 范例相比，Spark 的内存原语在某些应用中可提供高达 100 倍的性能提升。通过允许用户程序将数据加载到集群内存中并重复查询，Spark 非常适合机器学习算法。

安装

安装 apache-spark^AUR 软件包。

配置

一些环境变量在 /etc/profile.d/apache-spark.sh 中设置。

ENV	值	描述
PATH	`$PATH:/opt/apache-spark/bin`	Spark 二进制文件

如果你的 shell 阻止 /etc/profile.d，你可能需要调整你的 PATH 环境变量

export PATH=$PATH:/opt/apache-spark/bin

启用 R 支持

R 软件包 sparkR 随软件包分发，但在安装过程中未构建。要从 R 连接到 Spark，你必须首先通过运行以下命令构建软件包

# $SPARK_HOME/R/install-dev.sh

如 $SPARK_HOME/R/README.md 中所述。你可能还希望按照 $SPARK_HOME/R/DOCUMENTATION.md 中的说明构建软件包文档。

一旦 sparkR R 软件包构建完成，你就可以使用 /usr/bin/sparkR 连接。