본문 바로가기

반응형

IT/NiFi

(5)
Apache NiFi 소개 및 특징 Apache NiFi는 데이터 흐름을 자동화하고 관리하는 데이터 통합 플랫폼입니다. 데이터 수집, 변환, 전송 및 모니터링을 위한 강력한 도구로, 다양한 데이터 소스와 타겟 간의 실시간 데이터 흐름을 손쉽게 제어할 수 있습니다. 본래 NSA에서 개발한 후 2014년 Apache Software Foundation에 기부되었으며, 현재 오픈소스로 제공됩니다. Apache NiFi의 주요 특징• GUI 기반의 데이터 흐름 설계 ✔︎ 사용자가 직관적인 드래그 앤 드롭(Drag & Drop) 방식으로 데이터 흐름을 설계 가능• 다양한 데이터 포맷 및 프로토콜 지원 ✔︎ JSON, XML, CSV, Avro, Parquet 등 다양한 형식을 처리할 수 있음 ✔︎ HTTP, FTP, Kafka, MQT..
NiFi - 크론탭 Apache NiFi에서 크론탭(Crontab) 형식으로 잡을 실행하려면 Run Schedule을 크론 표현식으로 설정해야 합니다.이를 통해 특정 시간이나 주기에 맞춰 프로세서를 실행할 수 있습니다.1. NiFi UI에서 특정 프로세서를 선택주기적으로 실행할 프로세서를 선택합니다. (GenerateFlowFile, ExecuteSQL, InvokeHTTP 등)2. Scheduling Strategy를 CRON Driven으로 변경프로세서를 더블 클릭하여 설정 창을 엽니다.Settings 탭에서 Scheduling Strategy를 CRON Driven으로 변경합니다.3. Run Schedule에 크론 표현식 입력크론 표현식을 입력하여 원하는 주기로 실행되도록 설정합니다.형식Seconds Minutes H..
NiFi - Active Thread Dead Apache NiFi에서 프로세서가 활성 스레드를 유지한 채 멈추거나 응답하지 않는 경우, 이는 스레드가 교착 상태에 빠졌거나 무한 루프에 들어갔을 가능성이 있습니다. 1. NiFi UI를 통한 스레드 종료 (NiFi 1.7.0 이상 버전) NiFi 1.7.0부터는 UI를 통해 실행 중인 스레드를 직접 종료할 수 있는 기능이 추가되었습니다.문제가 발생한 프로세서를 선택하고, ‘중지’를 시도한 후에도 스레드가 계속 실행 중이라면, 프로세서를 우클릭하여 ‘Terminate’ 옵션을 선택하여 해당 스레드를 강제 종료할 수 있습니다.이 기능은 스레드에 인터럽트를 발생시키고, 프로세서의 인스턴스를 새로 생성하여 문제를 해결합니다.  2. 로그 파일 확인 및 정리프로세서가 예상치 못한 동작을 보일 경우, nifi..
Apache Airflow Apache Airflow 정의Apache Airflow는 워크플로우(workflow)를 작성, 스케줄링 및 모니터링하는 오픈소스 플랫폼입니다. 복잡한 데이터 파이프라인을 관리할 수 있도록 설계되었으며, DAG(Directed Acyclic Graph, 방향 비순환 그래프) 개념을 사용하여 작업(task) 간의 의존성을 정의합니다.Airflow는 Python 기반으로 개발되었으며, ETL(Extract, Transform, Load), 데이터 파이프라인 자동화, 머신러닝 모델 배포, DevOps 작업 등 다양한 분야에서 사용됩니다.Apache Airflow 주요 특징1. DAG(Directed Acyclic Graph) 기반모든 워크플로우는 DAG(방향 비순환 그래프) 구조로 구성됩니다.DAG 안에는 여..
NiFi - FlowFile Repository와 Content Repository 설정 설정방법FetchHDFS 프로세서를 통해 가져온 큐의 파일 지속 시간을 설정하려면 NiFi에서 FlowFile Repository와 Content Repository 설정을 적절히 조정해야 합니다.이 설정은 NiFi의 파일 큐에서 데이터를 얼마나 오래 유지할지를 결정합니다.FetchHDFS 프로세서의 설정NiFi에서 FetchHDFS 프로세서를 선택하고 설정 화면으로 들어갑니다.파일을 가져온 후의 FlowFile을 보관하려면, 파일의 전송 속성 및 큐 연결 속성을 적절히 설정해야 합니다.Success Relationship: 파일이 성공적으로 가져온 후 큐에 보관됩니다.큐가 연결된 다음 프로세서가 데이터를 얼마나 빠르게 처리하느냐에 따라 큐 지속 시간이 영향을 받을 수 있습니다.큐 지속 시간 설정NiFi..

반응형