大象教程
首页
Spark
Hadoop
HDFS
MapReduce
Hive
Spark 教程
Spark 教程
Spark 基本架构及运行原理
Spark 安装(本地模式)
Spark 安装(集群模式)
Spark Shell 的使用
使用Intellij idea编写Spark应用程序(Scala+Maven)
使用Intellij idea编写Spark应用程序(Scala+SBT)
SparkContext
Spark Stage
Spark Executor
Spark RDD
Spark RDD 的创建方式
Spark RDD 缓存机制
Spark 键值对 RDD
Spark RDD 基本操作
Spark RDD 依赖关系图
Spark Map 和 FlatMap 的比较
Spark DAG
Spark 集群管理器
Spark spark-submit 提交应用程序
Spark 共享变量
Spark SQL
Spark SQL 教程
Spark SQL 数据类型
Spark SQL DataFrame
Spark SQL 数据源
Spark SQL SparkSession
Spark SQL DataSet
RDD、DataFrame和DataSet的区别
Spark Streaming
Spark Streaming 教程
Spark Streaming DStream
Spark Streaming 检查点(checkpoint)
Spark GraphX
Spark GraphX 教程
Spark GraphX 图操作
Spark GraphX 算法实例
PySpark 教程
PySpark 教程
PySpark 环境设置
PySpark SparkContext
PySpark RDD
PySpark 广播和累加器
PySpark SparkConf
PySpark SparkFiles
PySpark 存储级别
PySpark MLlib
PySpark 序列化器
#Spark 安装(本地模式) ##运行环境 - 操作系统:Ubuntu 14.04或者以上版本(其他Linux系统也可以,例如CentOS,RedHat等等) - Spark:Spark 2.4及以上 ##系统安装 如果是用的是windows或者Mac操作系统,可以用虚拟机安装Ubuntu系统。 ##提前准备 ####安装Java 7 安装python-software-properties `$sudo apt-get install python-software-properties` 新增仓库 `$sudo add-apt-repository ppa:webupd8team/java` 更新源列表 `$sudo apt-get update` 安装Java `$sudo apt-get install oracle-java7-installer` ##安装Apach Spark **下载Spark** 可以从下面链接下载,在packge type那一栏选择“Pre-built for Hadoop 2.6 and Later” Spark下载链接:http://spark.apache.org/downloads.html 或者,可以从下面链接直接下载: http://mirror.fibergrid.in/apache/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz **解压Spark** `$tar xzf spark-1.6.1-bin-hadoop2.6.tgz` 解压后的目录为“spark-1.6.1-bin-hadoop2.6”,该目录保存着所有脚本和配置文件。 **配置设置** 编辑.bashrc。 在用户home目录下的.bashrc文件增加以下参数: ```bash export JAVA_HOME=
(eg: /usr/lib/jvm/java-7-oracle/) export SPARK_HOME=
(eg: /home/dataflair/spark-1.6.1-bin-hadoop2.6/) ``` ##执行Spark Shell 在Spark的Home目录(spark-1.6.1-bin-hadoop2.6)执行下面命令启动Spark Shell `$bin/spark-shell.sh` Spark Shell启动后,就可以开始操作Spark了 ####Spark UI 这是 Spark 应用的 GUI 图形界面,在本地模式下,Spark Shell 以应用程序的形式运行。这个图形界面提供了关于stage、存储、环境变量和 executor 的相关细节。 http://localhost:4040 ####Spark 命令以及操作 安装完Apache Spark后,就可以用Spark shell执行各种操作,比例转换和行动操作,创建RDD。Spark的shell命令可以参考这篇文章。
加我微信交流吧