Pyspark Shell on Spark es muy problemático y solo se puede ingresar en la línea de comando. Además del envío de Spark, también puede usar Jupyter Notebook.
Ejecutar ipython
Primer configuración de variables de entorno
Agregue las siguientes dos líneas a/etc/perfil:
export PYSPARK_SUBMIT_ARGS="--master spark://192.168.175.128:7070 pyspark-shell"
export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/build:$PYTHONPATH
Si informa los errores de Py4j, puede agregar otra línea:
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH
Open Notebook
$ jupyter notebook
Pyspark inicializado
import os
execfile(os.path.join(os.environ["SPARK_HOME"], 'python/pyspark/shell.py'))
Se deben obtener variables SC
In [2]: sc
Out[2]: <pyspark.context.SparkContext at 0x10a982b10>
Otra forma
Establecer variables de entorno
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS=notebook
y luego corre directamente
pyspark
El cuaderno se abre automáticamente, las variables SC se pueden obtener automáticamente