Below you will find pages that utilize the taxonomy term “Spark”
Posts
安装 PySpark
安装 PySpark pip pip install pyspark tarball Spark tarball 中已包含 PySpark,可直接使用。也可在解包后使用 Python 脚本安装,以 spark-2.4.5-bin-hadoop2.7 为例:
tar -xzf spark-2.4.5-bin-hadoop2.7 python spark-2.4.5-bin-hadoop2.7/python setup.py install
Posts
Pyspark Deploy Mode and Log Level
启动模式 local 使用一个 Worker 线程本地化运行 Spark(默认)。多用于开发测试,不需要构建集群。
standalone 连接到指定的 Spark 单机版集群(Spark standalone cluster)的 Master,不需要构建集群。
yarn 以客户端或集群模式直接连接 yarn 集群。
mesos 客户端直接连接 mesos 集群。
参数 local local:使用一个 Worker 线程本地运行(默认) local[n]:使用 n 个 Worker 线程本地运行 local[*]:使用机器 CPU 核心数个 Worker 线程本地运行 standalone spark://host:port 连接到制定的 Spark 单机集群的 Master。必须使用 Master 所配置的端口,默认端口为 7077。
yarn 默认以客户端模式连接到 yarn 集群,集群位置由环境变量 HADOOP_CONF_DIR 决定。
Spark 2.0 以前,yarn 分为 yarn-client 与 yarn-cluster。
Spark 2.0 之后,使用 –deploy-mode=client|cluster 参数设置连接模式。
mesos mesos://host:port 连接到指定的 Mesos 集群。host 为 Mesos Master。必须使用 Master 配置的端口,默认为5050。