Apache Spark
Apache Spark 是一个开源集群计算框架,最初由加州大学伯克利分校 AMPLab 开发。与 Hadoop 的两阶段基于磁盘的 MapReduce 范例相比,Spark 的内存原语在某些应用中可提供高达 100 倍的性能提升。通过允许用户程序将数据加载到集群内存中并重复查询,Spark 非常适合机器学习算法。
安装
安装 apache-sparkAUR 软件包。
配置
一些环境变量在 /etc/profile.d/apache-spark.sh
中设置。
ENV | 值 | 描述 |
---|---|---|
PATH | $PATH:/opt/apache-spark/bin
|
Spark 二进制文件 |
如果你的 shell 阻止 /etc/profile.d
,你可能需要调整你的 PATH
环境变量
export PATH=$PATH:/opt/apache-spark/bin
启用 R 支持
R 软件包 sparkR 随软件包分发,但在安装过程中未构建。要从 R 连接到 Spark,你必须首先通过运行以下命令构建软件包
# $SPARK_HOME/R/install-dev.sh
如 $SPARK_HOME/R/README.md
中所述。你可能还希望按照 $SPARK_HOME/R/DOCUMENTATION.md
中的说明构建软件包文档。
一旦 sparkR R 软件包构建完成,你就可以使用 /usr/bin/sparkR
连接。