파일 카빙 개념 및 기법 종류

2025. 2. 28. 15:58IT/기술사

반응형

파일 카빙(File Carving)파일 시스템의 메타데이터(파일 테이블, 디렉터리 구조) 없이 손상된 데이터 또는 삭제된 파일을 복구하는 기술입니다. 파일 시스템이 손상되거나 파일이 삭제된 경우에도, 디스크 또는 저장 장치의 원시 데이터(raw data)를 분석하여 특정 파일 형식을 찾아내는 기술을 의미합니다.

파일 카빙이 필요한 상황

  • 파일이 삭제되었지만 파일 시스템에서 여전히 잔여 데이터가 남아있는 경우
  • 디스크가 손상되었거나 포맷되었지만 데이터가 복구 가능할 때
  • 법적 증거를 수집하는 디지털 포렌식(Forensics) 과정에서 삭제된 파일을 복구할 때
  • 랜섬웨어 공격 또는 악성코드 감염 후 데이터 복구가 필요한 경우

 파일 카빙 기법의 4가지 종류 및 특징


파일 카빙 기법은 헤더-풋터 기반, 바이트 시퀀스 기반, 컨텍스트 기반, 머신러닝 기반으로 나뉩니다.

파일 카빙 기법 설명
헤더-풋터(Header-Footer) 기반 카빙 파일의 헤더(시작 부분)와 풋터(끝 부분) 패턴을 찾아 복구
구조화된 파일(PDF, JPEG, ZIP 등)에 적합
정확도가 높으나 조각난 파일(fragmented files) 복구가 어려움
바이트 시퀀스(Byte Sequence) 기반 카빙  파일 내부의 특정 바이트 패턴을 분석하여 파일을 재구성
파일 구조 없이 특정 문자열, 서명(signature) 등을 기반으로 분석
비정형 데이터 파일 복구 가능
컨텍스트(Context) 기반 카빙 파일이 저장된 컨텍스트(파일 배치, 연관성, 메타데이터) 를 고려하여 복구
단순 헤더/풋터 분석을 넘어 파일의 흐름까지 분석
단편화된 파일 복구 가능하지만 분석 시간이 길어질 수 있음
머신러닝(Machine Learning) 기반 카빙 AI가 파일 구조를 학습하고, 비정형 데이터도 인식하여 복구
기존 카빙 방식보다 정밀하지만, 학습 데이터가 필요함
다양한 파일 형식 복구 가능

파일 카빙 기법별 상세 설명


헤더-풋터 기반 카빙

1. 원리
  • 대부분의 파일 형식은 파일 시작 부분(헤더, Header) 과 파일 끝 부분(풋터, Footer) 을 명확히 정의하고 있음
  • 파일 시스템을 무시하고 원시 데이터에서 헤더와 풋터를 찾아 연결하여 파일을 복구하는 방식

2. 예시
  • JPEG 파일 복구
  • JPEG 헤더 :  FF D8 FF E0 (파일 시작), 풋터: FF D9 (파일 끝) 
  • 이러한 시그니처를 찾으면 해당 데이터를 복구

3.  장점과 단점
  • 장점 : 비교적 정확도가 높고, 특정 파일 형식에 대해 신뢰도가 높음
  • 단점 : 파일이 조각난 경우(파일 조각화, Fragmentation) 복구가 어려움


바이트 시퀀스 기반 카빙

1. 원리
  • 특정한 바이트 패턴(특징적인 데이터 시퀀스)을 찾아서 파일을 복원하는 방법
  • 헤더-풋터 분석 없이도 특정한 데이터 패턴을 분석하여 파일을 복구

2. 예시
  • ZIP 파일의 특정 문자열 "PK"(50 4B) 를 검색하여 ZIP 파일을 복구
  • 특정 악성코드 패턴을 분석하여 삭제된 바이러스 파일을 찾을 때 사용

3. 장점과 단점
  • 장점 : 다양한 파일 형식 복구 가능, 구조화되지 않은 파일도 복구 가능
  • 단점 : 특정 바이트 패턴이 겹칠 경우 오탐 가능성 존재


컨텍스트 기반 카빙

1. 원리
  • 단순한 헤더-풋터 매칭이 아닌 파일이 저장된 위치, 파일 조각 간의 관계, 주변 데이터 패턴 등을 분석하여 파일을 복원하는 방식
  • 파일이 조각난 경우에도 복구 가능

2. 예시
  • 디지털 포렌식에서 단편화된 문서(PDF, DOCX 등)를 복구 
  • 로그 데이터, 임시 파일 조각을 연결하여 파일 재구성

3. 장점과 단점
  • 장점 : 조각난 파일까지 복구 가능, 보다 정밀한 분석 가능
  • 단점 : 연산 비용이 크고 복구 속도가 느릴 수 있음


머신러닝 기반 카빙

1. 원리
  • 딥러닝 및 머신러닝 모델을 활용하여 파일 패턴을 학습하고 복구하는 방식
  • 기존의 서명 기반 분석보다 더 넓은 범위의 파일 복구 가능

2. 예시
  • AI가 JPEG, PNG, ZIP 등 파일의 특징을 학습한 후, 손상된 파일이 어느 형식인지 자동으로 식별하여 복구
  • 다크웹 등에서 삭제된 문서 및 이미지 파일을 복원하는 데 활용

3. 장점과 단점
  • 장점 : 다양한 파일 유형 복구 가능, 고급 분석 및 자동화 가능
  • 단점 : 학습 데이터가 필요하며, 모델 훈련에 시간이 걸림


파일 카빙 기법별 비교 정리

기법 특징 적합한 파일 유형 단점
헤더-풋터 기반 카빙 파일의 시작과 끝 시그니처를 찾아 복구 JPEG, PNG, ZIP, PDF  파일 조각화 시 복구 어려움
바이트 시퀀스 기반 카빙 특정 바이트 패턴을 찾아 복원 모든 파일 유형 오탐 가능성 존재
컨텍스트 기반 카빙 파일의 전체적 구조와 관계를 고려하여 복구  조각난 파일, 문서 파일(PDF, DOCX) 연산 비용이 높고 느릴 수 있음
머신러닝 기반 카빙 AI가 파일 패턴을 학습하여 자동 복구 다양한 파일 형식 학습 데이터가 필요

파일 카빙의 활용 분야

  • 디지털 포렌식 : 범죄 수사 과정에서 삭제된 파일 복구
  • 데이터 복구 :  손상된 하드디스크, USB, 메모리 카드에서 파일 복원
  • 랜섬웨어 복구: 암호화되거나 손상된 파일을 복구하는 데 활용
  • 악성코드 분석: 삭제된 악성코드 파일을 복구하여 공격 경로 분석

파일 카빙은 삭제된 파일을 복원하는 핵심 기술로, 디지털 포렌식, 데이터 복구, 보안 분야에서 필수적으로 사용됩니다.
각 카빙 기법은 파일 구조, 복구 목적, 성능 요구 사항에 따라 적절히 선택하여 활용해야 합니다.

 

반응형