robots.txt 파일을 이용한 웹 크롤링 여부 판단

robots.txt 파일을 사용하여 웹 크롤러(특히 Googlebot 등 검색 엔진 크롤러)가 사이트를 크롤링하는지 확인하는 방법은 다음과 같습니다.

1. robots.txt 파일의 위치
• 웹사이트의 robots.txt 파일은 항상 루트 디렉터리에 위치해야 합니다.
• 예를 들어, 사이트 도메인이 https://example.com이면 robots.txt 파일은 다음 위치에 있어야 합니다:

https://example.com/robots.txt

• 이 파일은 공개적으로 접근 가능해야 하며, 웹 크롤러들은 이를 먼저 읽고 허용된 페이지를 크롤링합니다.

2. robots.txt에서 크롤러 확인 방법
• robots.txt 파일을 직접 확인하여 특정 크롤러(Googlebot 등)의 크롤링 허용 여부를 판단할 수 있습니다.
• 예제 1: 모든 크롤러 차단

User-agent: *
Disallow: /

• User-agent: * → 모든 크롤러를 의미
• Disallow: / → 사이트 전체 크롤링 금지

• 예제 2: Googlebot만 허용하고 다른 크롤러 차단

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

• Googlebot은 모든 페이지 접근 가능
• 다른 모든 크롤러는 차단

• 예제 3: 특정 디렉터리 차단

User-agent: Googlebot
Disallow: /private/
Disallow: /admin/

• Googlebot이 /private/ 및 /admin/ 디렉터리는 크롤링하지 않음

3. Googlebot이 robots.txt 따르는지 확인하는 방법

1) 직접 robots.txt 확인
• 웹 브라우저에서 다음 URL을 열어 robots.txt 파일을 확인합니다

https://example.com/robots.txt

위 파일에 User-agent: Googlebot이 있고 Disallow: /가 설정되어 있다면 Googlebot이 해당 사이트를 크롤링하지 않습니다.

2) Google Search Console에서 확인
• Google Search Console의 robots.txt 테스터를 사용하여 Googlebot이 해당 사이트를 크롤링할 수 있는지 확인할 수 있습니다.

1. Google Search Console 접속
2. “URL 검사” 도구 사용
3. 사이트의 robots.txt 설정을 확인하여 Googlebot이 차단되었는지 확인

3) Googlebot의 요청 로그 확인
• 서버의 로그 파일에서 Googlebot이 robots.txt를 가져가는지 확인할 수도 있습니다.
• Googlebot은 사이트를 크롤링하기 전에 먼저 robots.txt 가져갑니다.

• 예제 : Apache 로그에서 Googlebot 요청 확인

66.249.66.1 - - [19/Feb/2025:12:34:56 +0000] "GET /robots.txt HTTP/1.1" 200 -
66.249.66.1 - - [19/Feb/2025:12:35:00 +0000] "GET /index.html HTTP/1.1" 200 -

• GET /robots.txt 요청이 있으면 Googlebot이 크롤링 전에 robots.txt를 확인했음을 의미

4. 크롤러가 robots.txt를 무시하는 경우
• 공식 검색 엔진 크롤러(Googlebot, Bingbot 등)는 robots.txt 규칙을 따르지만, 악성 크롤러는 이를 무시하고 웹사이트를 크롤링할 수 있습니다.
• robots.txt는 보안 기능이 아니므로 민감한 데이터 보호용으로 사용하면 안 됩니다.
→ 중요한 데이터는 robots.txt가 아니라 로그인 보호, HTTP 헤더 차단, 방화벽(WAF) 설정 등을 사용해야 합니다

'IT > WEB, WAS' 카테고리의 다른 글

robots.txt 를 이용한 웹 크롤링 규칙 설정 (5)	2025.02.26
반응형 웹과 적응형 웹의 비교 (2)	2025.02.24
HTTP 헤더 정보를 통한 웹 크롤러 여부 판단 (0)	2025.02.23
제우스 WAS에서 역방향 DNS 조회로 크롤러 필터링 적용하는 방법 (1)	2025.02.20
역방향 DNS 조회(Reverse DNS Lookup)로 웹 크롤링 확인하는 방법 (0)	2025.02.20

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

블로그

robots.txt 파일을 이용한 웹 크롤링 여부 판단

관련 블로그

'IT > WEB, WAS' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

robots.txt 파일을 이용한 웹 크롤링 여부 판단

관련 블로그

'IT > WEB, WAS' 카테고리의 다른 글

'IT/WEB, WAS' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역