https://github.com/databricks/learning-spark/blob/master/bin/fakelogs.sh
scala语法相关
val
value,值. 定义时立即求值. (饿汉求值). 只求一次.
var
variable,变量. 定义时立即求值. 可改变赋值. 只求一次.
def
define. 每次使用时才求值.(惰性求值). 求N次
lazy val
懒求值. 第一次使用时求值,但只求一次.
退出cli
:q 或 sys.exit
查看版本:
scala –version
scala中文乱码问题:
http://www.runoob.com/w3cnote/mac-scala-chinese-show.html
#spark-submit作业提交相关:
- 提交
python
和jar
都是使用spark-submit
命令; --master
可以接受的值:当一直申请不到资源的时候,要使用1
2
3
4
5
6
7spark://host:port
mesos://host:post
yarn
local
local[N]
local[*]
yarn-clusteryarn-cluster
.
格式:
1
spark-submit [options] <app jar|python file> [app options]
`
`可以接受的值:
1
2client : 驱动程序放到本地机器
master : 驱动程序放到集群上其他参数:
1
2
3
4
5
6
7--class 运行java或scala程序时的主类
--name 显示的应用名
--jars 需要上传并放到应用classpath中的jar包的列表
--files 需要放到应用工作目录中的文件列表(如数据文件)
--py-files 需要添加到pythonpath中的文件,可以包含.py,.egg以及.zip文件
--executor-memory 执行器进程使用的内存量,字节为单位,可指定后缀
--driver-memory 驱动器进程使用的内存量,字节为单位,可指定后缀
1 | $ZEP_SPARK_HOME/bin/spark-submit --master yarn-cluster $SPARK_HOME/examples/src/main/python/wordcount.py /user/fengmq01/test/input.txt |
spark streaming
DStream
DStream由很多RDD组成,每个时间段的数据构成一个RDD.
1 | val lines = ssc.socketTextStream("dx-pipe-cpu1-pm", 9092) |