반응형
Apache Spark는 대규모 데이터 처리 및 분산 컴퓨팅을 지원하는 프레임워크로, Python과 함께 사용할 수 있는 API인 PySpark를 제공합니다. PySpark를 활용하면 Spark 클러스터에서 Python 코드를 실행하고, 병렬 처리를 활용할 수 있습니다.
Spark에서 Python(Python + Spark) 사용 방식
1) PySpark 사용 (Python API)
PySpark는 Python에서 Spark 작업을 실행할 수 있도록 지원하는 API입니다.
- PySpark를 이용하면 Spark의 RDD, DataFrame, SQL 기능을 활용 가능
- Spark 클러스터 환경에서 병렬 데이터 처리 가능
from pyspark.sql import SparkSession
# SparkSession 생성
spark = SparkSession.builder.appName("PySparkExample").getOrCreate()
# 데이터 생성
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])
# DataFrame 출력
df.show()
실행 방법 (Spark 클러스터에서 실행)
spark-submit my_script.py
2) spark-submit을 이용한 Python 스크립트 실행
Spark 클러스터에서는 Python 스크립트를 spark-submit을 사용하여 실행할 수 있습니다.
spark-submit --master yarn --deploy-mode cluster my_script.py
- --master yarn: YARN 클러스터 모드에서 실행
- --deploy-mode cluster: 클러스터 모드에서 실행
- my_script.py: 실행할 Python 스크립트
3) Jupyter Notebook + PySpark 사용
Jupyter Notebook 환경에서도 PySpark를 사용할 수 있습니다.
- PySpark 설치 (로컬 환경)
pip install pyspark
2. Jupyter Notebook 실행 후 PySpark 사용
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("JupyterSpark").getOrCreate()
df = spark.read.csv("data.csv", header=True, inferSchema=True)
df.show()
반응형
'IT > Spark' 카테고리의 다른 글
PySpark 관련 유투브 (0) | 2025.02.08 |
---|---|
Spark Submit (0) | 2025.02.07 |
PySpark (0) | 2025.02.07 |
Spark 2.4 / 3.0 비교 (0) | 2025.02.04 |
Spark 공부 관련 유투브 (0) | 2025.02.04 |