Apache Spark 클러스터에서 Python 처리

Apache Spark는 대규모 데이터 처리 및 분산 컴퓨팅을 지원하는 프레임워크로, Python과 함께 사용할 수 있는 API인 PySpark를 제공합니다. PySpark를 활용하면 Spark 클러스터에서 Python 코드를 실행하고, 병렬 처리를 활용할 수 있습니다.

Spark에서 Python(Python + Spark) 사용 방식

1) PySpark 사용 (Python API)

PySpark는 Python에서 Spark 작업을 실행할 수 있도록 지원하는 API입니다.

PySpark를 이용하면 Spark의 RDD, DataFrame, SQL 기능을 활용 가능
Spark 클러스터 환경에서 병렬 데이터 처리 가능

from pyspark.sql import SparkSession

# SparkSession 생성
spark = SparkSession.builder.appName("PySparkExample").getOrCreate()

# 데이터 생성
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])

# DataFrame 출력
df.show()

실행 방법 (Spark 클러스터에서 실행)

spark-submit my_script.py

2) spark-submit을 이용한 Python 스크립트 실행

Spark 클러스터에서는 Python 스크립트를 spark-submit을 사용하여 실행할 수 있습니다.

spark-submit --master yarn --deploy-mode cluster my_script.py

--master yarn: YARN 클러스터 모드에서 실행
--deploy-mode cluster: 클러스터 모드에서 실행
my_script.py: 실행할 Python 스크립트

3) Jupyter Notebook + PySpark 사용

Jupyter Notebook 환경에서도 PySpark를 사용할 수 있습니다.

PySpark 설치 (로컬 환경)

pip install pyspark

2. Jupyter Notebook 실행 후 PySpark 사용

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("JupyterSpark").getOrCreate()
df = spark.read.csv("data.csv", header=True, inferSchema=True)
df.show()

'IT > Spark' 카테고리의 다른 글

PySpark 관련 유투브 (0)	2025.02.08
Spark Submit (0)	2025.02.07
PySpark (0)	2025.02.07
Spark 2.4 / 3.0 비교 (0)	2025.02.04
Spark 공부 관련 유투브 (0)	2025.02.04

블로그

Apache Spark 클러스터에서 Python 처리

Spark에서 Python(Python + Spark) 사용 방식

'IT > Spark' 카테고리의 다른 글

티스토리툴바

Apache Spark 클러스터에서 Python 처리

Spark에서 Python(Python + Spark) 사용 방식

'IT > Spark' 카테고리의 다른 글

'IT/Spark' Related Articles

티스토리툴바