본문 바로가기

IT/WEB, WAS

robots.txt 파일을 이용한 웹 크롤링 여부 판단

반응형

robots.txt 파일을 사용하여 웹 크롤러(특히 Googlebot 등 검색 엔진 크롤러)가 사이트를 크롤링하는지 확인하는 방법은 다음과 같습니다.

1. robots.txt 파일의 위치
  • 웹사이트의 robots.txt 파일은 항상 루트 디렉터리에 위치해야 합니다.
  • 예를 들어, 사이트 도메인이 https://example.com이면 robots.txt 파일은 다음 위치에 있어야 합니다:

https://example.com/robots.txt

  • 이 파일은 공개적으로 접근 가능해야 하며, 웹 크롤러들은 이를 먼저 읽고 허용된 페이지를 크롤링합니다.

2. robots.txt에서 크롤러 확인 방법
  • robots.txt 파일을 직접 확인하여 특정 크롤러(Googlebot 등)의 크롤링 허용 여부를 판단할 수 있습니다.
  • 예제 1: 모든 크롤러 차단

User-agent: *
Disallow: /

• User-agent: * → 모든 크롤러를 의미
• Disallow: / → 사이트 전체 크롤링 금지

  • 예제 2: Googlebot만 허용하고 다른 크롤러 차단

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

• Googlebot은 모든 페이지 접근 가능
• 다른 모든 크롤러는 차단


  • 예제 3: 특정 디렉터리 차단

User-agent: Googlebot
Disallow: /private/
Disallow: /admin/

• Googlebot이 /private/ 및 /admin/ 디렉터리는 크롤링하지 않음


3. Googlebot이 robots.txt 따르는지 확인하는 방법

1) 직접 robots.txt 확인
  • 웹 브라우저에서 다음 URL을 열어 robots.txt 파일을 확인합니다

https://example.com/robots.txt

위 파일에 User-agent: Googlebot이 있고 Disallow: /가 설정되어 있다면 Googlebot이 해당 사이트를 크롤링하지 않습니다.

2) Google Search Console에서 확인
  • Google Search Console의 robots.txt 테스터를 사용하여 Googlebot이 해당 사이트를 크롤링할 수 있는지 확인할 수 있습니다.

더보기

    1. Google Search Console 접속
    2. “URL 검사” 도구 사용
    3. 사이트의 robots.txt 설정을 확인하여 Googlebot이 차단되었는지 확인

3) Googlebot의 요청 로그 확인
  • 서버의 로그 파일에서 Googlebot이 robots.txt를 가져가는지 확인할 수도 있습니다.
  • Googlebot은 사이트를 크롤링하기 전에 먼저 robots.txt 가져갑니다.

  • 예제 : Apache 로그에서 Googlebot 요청 확인

더보기

66.249.66.1 - - [19/Feb/2025:12:34:56 +0000] "GET /robots.txt HTTP/1.1" 200 -
66.249.66.1 - - [19/Feb/2025:12:35:00 +0000] "GET /index.html HTTP/1.1" 200 -

  • GET /robots.txt 요청이 있으면 Googlebot이 크롤링 전에 robots.txt를 확인했음을 의미

반응형

4. 크롤러가 robots.txt를 무시하는 경우
  • 공식 검색 엔진 크롤러(Googlebot, Bingbot 등)는 robots.txt 규칙을 따르지만, 악성 크롤러는 이를 무시하고 웹사이트를 크롤링할 수 있습니다.
  • robots.txt는 보안 기능이 아니므로 민감한 데이터 보호용으로 사용하면 안 됩니다.
     → 중요한 데이터는 robots.txt가 아니라 로그인 보호, HTTP 헤더 차단, 방화벽(WAF) 설정 등을 사용해야 합니다


관련 블로그

 

HTTP 헤더 정보를 통한 웹 크롤러 여부 판단

웹 서버는 HTTP 헤더 정보를 활용하여 클라이언트가 웹 크롤러인지 아닌지를 판단할 수 있습니다. 이를 위한 주요 방법들은 다음과 같습니다.1. User-Agent 확인   • 대부분의 웹 크롤러는 User-Agent

make2t.tistory.com

 

스크래핑(Scraping)과 API(Application Programming Interface) 기술

스크래핑과 API 기술 비교스크래핑(Scraping)과 API(Application Programming Interface)는 데이터를 수집하고 활용하는 두 가지 주요 기술입니다.두 기술은 데이터의 접근 방식, 활용 방법, 효율성 측면에서

make2t.tistory.com

 

반응형