본문 바로가기

IT/Spark

Apache Spark 클러스터에서 Python 처리

반응형

Apache Spark는 대규모 데이터 처리 및 분산 컴퓨팅을 지원하는 프레임워크로, Python과 함께 사용할 수 있는 API인 PySpark를 제공합니다. PySpark를 활용하면 Spark 클러스터에서 Python 코드를 실행하고, 병렬 처리를 활용할 수 있습니다.

 

Spark에서 Python(Python + Spark) 사용 방식

1) PySpark 사용 (Python API)

PySpark는 Python에서 Spark 작업을 실행할 수 있도록 지원하는 API입니다.

  • PySpark를 이용하면 Spark의 RDD, DataFrame, SQL 기능을 활용 가능
  • Spark 클러스터 환경에서 병렬 데이터 처리 가능
from pyspark.sql import SparkSession

# SparkSession 생성
spark = SparkSession.builder.appName("PySparkExample").getOrCreate()

# 데이터 생성
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])

# DataFrame 출력
df.show()

 

실행 방법 (Spark 클러스터에서 실행)

spark-submit my_script.py

 

2) spark-submit을 이용한 Python 스크립트 실행

Spark 클러스터에서는 Python 스크립트를 spark-submit을 사용하여 실행할 수 있습니다.

spark-submit --master yarn --deploy-mode cluster my_script.py
  • --master yarn: YARN 클러스터 모드에서 실행
  • --deploy-mode cluster: 클러스터 모드에서 실행
  • my_script.py: 실행할 Python 스크립트

3) Jupyter Notebook + PySpark 사용

Jupyter Notebook 환경에서도 PySpark를 사용할 수 있습니다.

  1. PySpark 설치 (로컬 환경)
pip install pyspark

 

  2. Jupyter Notebook 실행 후 PySpark 사용

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("JupyterSpark").getOrCreate()
df = spark.read.csv("data.csv", header=True, inferSchema=True)
df.show()
반응형

'IT > Spark' 카테고리의 다른 글

PySpark 관련 유투브  (0) 2025.02.08
Spark Submit  (0) 2025.02.07
PySpark  (0) 2025.02.07
Spark 2.4 / 3.0 비교  (0) 2025.02.04
Spark 공부 관련 유투브  (0) 2025.02.04