robots.txt는 웹 사이트 관리자가 로봇이 액세스하고 싶지 않은 웹 사이트의 일부를 선언하거나 검색 엔진에 지정된 컨텐츠 만 포함하도록 지정할 수있는 일반 텍스트 파일입니다. Robots.txt에 대한 기본 소개
robots.txt는 웹 사이트 관리자가 로봇이 액세스하고 싶지 않은 웹 사이트의 일부를 선언하거나 검색 엔진에 지정된 컨텐츠 만 포함하도록 지정할 수있는 일반 텍스트 파일입니다.
검색 로봇 (일부 검색 스파이더)이 사이트를 방문하면 먼저 사이트의 루트 디렉토리에 Robots.txt가 있는지 확인합니다. 존재하는 경우 검색 로봇은 파일의 내용에 따라 액세스 범위를 결정합니다. 파일이 존재하지 않으면 검색 로봇이 링크를 따라 크롤링됩니다.
또한 robots.txt는 사이트의 루트 디렉토리에 배치해야하며 파일 이름은 모두 소문자 여야합니다.
robots.txt 문법 작성 문법먼저, robots.txt 예제 : http://www.csswebs.org/robots.txt를 살펴 보겠습니다.
위의 특정 주소를 방문하면 robots.txt의 특정 내용을 다음과 같이 볼 수 있습니다.
# robots.txt 파일 http://www.csswebs.org
# 모든 로봇이 도메인을 거미합니다
사용자 에이전트 : *
허용 :
위의 텍스트는 모든 검색 로봇이 www.csswebs.org 사이트의 모든 파일에 액세스 할 수 있음을 의미합니다.
특정 구문 분석 : # 이후의 텍스트는 설명 정보입니다. 사용자 에이전트 : 검색 로봇의 이름을 따릅니다. *인 경우 일반적으로 모든 검색 로봇을 나타냅니다. 허용 : 뒤에있는 파일 디렉토리에 액세스 할 수 없습니다.
아래에는 robots.txt의 특정 사용법을 나열하겠습니다.
모든 로봇 액세스를 허용하십시오사용자 에이전트 : *
허용 :
또는 빈 파일/robots.txt 파일을 만들 수 있습니다
모든 검색 엔진은 웹 사이트의 일부에 액세스 할 수 없습니다.사용자 에이전트 : *
허용 : /
모든 검색 엔진은 웹 사이트의 여러 부분에 액세스 할 수 없습니다 (다음 예에서 Directories 01, 02, 03)사용자 에이전트 : *
허용 : /01 /
허용 : /02 /
허용 : /03 /
검색 엔진에 대한 액세스 비활성화 (다음 예제의 Badbot)사용자 에이전트 : Badbot
허용 : /
특정 검색 엔진에만 액세스 할 수 있습니다 (다음 예제의 크롤러)사용자 에이전트 : 크롤러
허용 :
사용자 에이전트 : *
허용 : /
또한 확장 설명을 제공하고 일부 로봇 메타를 소개해야한다고 생각합니다.
로봇 메타 태그는 주로 특정 페이지를 목표로합니다. 다른 메타 태그 (예 : 사용 된 언어, 페이지 설명, 키워드 등)와 마찬가지로 로봇 메타 태그는 페이지의 <head> </head>에도 배치되며 검색 엔진에 페이지의 내용을 크롤링하는 방법을 알려주는 데 사용됩니다.
로봇 메타 태그 작성 방법 :
로봇 메타 태그에는 상단과 소문자 사이에 차이가 없습니다. 이름 = 로봇은 모든 검색 엔진을 의미하며 특정 검색 엔진의 이름 = baiduspider로 작성할 수 있습니다. 컨텐츠 부분에는 지침으로 분리 된 INDEX, NOINDEX, FOULD 및 NOFOLLOW의 네 가지 명령어 옵션이 있습니다.
인덱스 명령은 검색 로봇에 페이지를 가져 오라고 지시합니다.
다음 명령은 검색 로봇이 페이지의 링크를 따라 계속 크롤링 할 수 있음을 나타냅니다.
로봇 메타 태그의 기본값은 인덱스 및 잉크 토미를 제외하고 따릅니다. 그것을 위해, 기본값은 색인 및 Nofollow입니다.
이런 식으로 네 가지 조합이 있습니다.
meta name = robots content = index, 다음 >를 따르십시오
meta name = 로봇 내용 = noindex, 다음 >를 따르십시오
meta name = robots content = index, nofollow >
meta name = 로봇 내용 = noindex, nofollow >
~에
meta name = robots content = index, conford >를 < meta name = robots content = all >으로 작성할 수 있습니다.
meta name = robots content = noindex, nofollow > > < meta name = robots content = none >로 작성할 수 있습니다.
현재 대부분의 검색 엔진 로봇은 robots.txt의 규칙을 준수하는 것으로 보이며 로봇 메타 태그의 경우 현재 지원이 많지 않지만 점차 증가하고 있습니다. 예를 들어, 유명한 검색 엔진 Google은이를 완전히 지원하며 Google은 Google이 웹 페이지 스냅 샷을 유지하는지 여부를 제한하기 위해 명령 아카이브를 추가했습니다. 예를 들어:
meta name = googlebot content = index, follow, noArchive >