robots.txt 파일을 사용하여 웹 크롤러(특히 Googlebot 등 검색 엔진 크롤러)가 사이트를 크롤링하는지 확인하는 방법은 다음과 같습니다.
1. robots.txt 파일의 위치
• 웹사이트의 robots.txt 파일은 항상 루트 디렉터리에 위치해야 합니다.
• 예를 들어, 사이트 도메인이 https://example.com이면 robots.txt 파일은 다음 위치에 있어야 합니다:
https://example.com/robots.txt
• 이 파일은 공개적으로 접근 가능해야 하며, 웹 크롤러들은 이를 먼저 읽고 허용된 페이지를 크롤링합니다.
2. robots.txt에서 크롤러 확인 방법
• robots.txt 파일을 직접 확인하여 특정 크롤러(Googlebot 등)의 크롤링 허용 여부를 판단할 수 있습니다.
• 예제 1: 모든 크롤러 차단
User-agent: *
Disallow: /
• User-agent: * → 모든 크롤러를 의미
• Disallow: / → 사이트 전체 크롤링 금지
• 예제 2: Googlebot만 허용하고 다른 크롤러 차단
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
• Googlebot은 모든 페이지 접근 가능
• 다른 모든 크롤러는 차단
• 예제 3: 특정 디렉터리 차단
User-agent: Googlebot
Disallow: /private/
Disallow: /admin/
• Googlebot이 /private/ 및 /admin/ 디렉터리는 크롤링하지 않음
3. Googlebot이 robots.txt 따르는지 확인하는 방법
1) 직접 robots.txt 확인
• 웹 브라우저에서 다음 URL을 열어 robots.txt 파일을 확인합니다
https://example.com/robots.txt
위 파일에 User-agent: Googlebot이 있고 Disallow: /가 설정되어 있다면 Googlebot이 해당 사이트를 크롤링하지 않습니다.
2) Google Search Console에서 확인
• Google Search Console의 robots.txt 테스터를 사용하여 Googlebot이 해당 사이트를 크롤링할 수 있는지 확인할 수 있습니다.
1. Google Search Console 접속
2. “URL 검사” 도구 사용
3. 사이트의 robots.txt 설정을 확인하여 Googlebot이 차단되었는지 확인
3) Googlebot의 요청 로그 확인
• 서버의 로그 파일에서 Googlebot이 robots.txt를 가져가는지 확인할 수도 있습니다.
• Googlebot은 사이트를 크롤링하기 전에 먼저 robots.txt 가져갑니다.
• 예제 : Apache 로그에서 Googlebot 요청 확인
66.249.66.1 - - [19/Feb/2025:12:34:56 +0000] "GET /robots.txt HTTP/1.1" 200 -
66.249.66.1 - - [19/Feb/2025:12:35:00 +0000] "GET /index.html HTTP/1.1" 200 -
• GET /robots.txt 요청이 있으면 Googlebot이 크롤링 전에 robots.txt를 확인했음을 의미
4. 크롤러가 robots.txt를 무시하는 경우
• 공식 검색 엔진 크롤러(Googlebot, Bingbot 등)는 robots.txt 규칙을 따르지만, 악성 크롤러는 이를 무시하고 웹사이트를 크롤링할 수 있습니다.
• robots.txt는 보안 기능이 아니므로 민감한 데이터 보호용으로 사용하면 안 됩니다.
→ 중요한 데이터는 robots.txt가 아니라 로그인 보호, HTTP 헤더 차단, 방화벽(WAF) 설정 등을 사용해야 합니다
관련 블로그
HTTP 헤더 정보를 통한 웹 크롤러 여부 판단
웹 서버는 HTTP 헤더 정보를 활용하여 클라이언트가 웹 크롤러인지 아닌지를 판단할 수 있습니다. 이를 위한 주요 방법들은 다음과 같습니다.1. User-Agent 확인 • 대부분의 웹 크롤러는 User-Agent
make2t.tistory.com
스크래핑(Scraping)과 API(Application Programming Interface) 기술
스크래핑과 API 기술 비교스크래핑(Scraping)과 API(Application Programming Interface)는 데이터를 수집하고 활용하는 두 가지 주요 기술입니다.두 기술은 데이터의 접근 방식, 활용 방법, 효율성 측면에서
make2t.tistory.com
'IT > WEB, WAS' 카테고리의 다른 글
robots.txt 를 이용한 웹 크롤링 규칙 설정 (5) | 2025.02.26 |
---|---|
반응형 웹과 적응형 웹의 비교 (2) | 2025.02.24 |
HTTP 헤더 정보를 통한 웹 크롤러 여부 판단 (0) | 2025.02.23 |
제우스 WAS에서 역방향 DNS 조회로 크롤러 필터링 적용하는 방법 (1) | 2025.02.20 |
역방향 DNS 조회(Reverse DNS Lookup)로 웹 크롤링 확인하는 방법 (0) | 2025.02.20 |