워드프레스 How to create robots.txt

How to create robots.txt

284
0

robots

SEO를 위해서 robots.txt파일은 아주 중요합니다.

예전에는 가만히 앉아만 있어도 크롤러 들이 웹사이트의 내용을 알아서 가져같지만 요새는 robots.txt파일 사이트 맵을 만들어야 됩니다. robots.txt파일의 역할은 검색봇에게 우리사이트는 어느 디렉토리만 가져가고 가져가지 말아야 될 디렉토리 목록, 그리고 사이트 맵은 어디 있으니 참고하라는 일종의 안내문 역할을 한다고 볼 수 있습니다. 하지만 어디까지나 검색봇에게 일종의 안내문 역할을 하는 것일 뿐 보안이나 이런것하고는 상관 없으니 주의 하시기 바랍니다.

그럼 두가지 robots.txt파일을 살펴 보겠습니다.

구글의 robots.txt 파일 입니다. http://www.google.com/robots.txt

본인의 사이트 cuspis.net의 robots.txt

User-agent: *
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-
Allow: /wp-content/uploads/

Sitemap: http://cuspis.net/sitemap-home.xml
Sitemap: http://cuspis.net/sitemap-posttype-post.xml
Sitemap: http://cuspis.net/sitemap-taxonomy-category.xml
Sitemap: http://cuspis.net/sitemap-taxonomy-post_tag.xml

구글을 위한 작성 가이드 https://support.google.com/webmasters/answer/6062608?hl=en&ref_topic=6061961&rd=1

robots.txt 작성 규칙

User-agent : [the name of the robot the following rule applies to]

Disallow : [the URL path you want to block]

Allow: [the URL path in of a subdirectory, within a blocked parent directory, that you want to unblock]

로봇 배제 표준 사용의 예

만약 robots.txt 파일이 존재하지 않는다면 웹 사이트는 기본으로 검색이 되도록 열려있는 상태입니다.
문서 접근 완전 허용: 검색 로봇이 모든 문서에 접근하도록 허용.

User-agent: *         # User-agent에서 *는 모든 로봇을 지칭합니다.
Allow: /              # 모든 디렉토리에서 로봇의 접근을 허용합니다.

문서 접근 완전 차단: 검색 로봇이 모든 문서에 접근하지 못하도록 차단.

User-agent: *
Disallow: /           # 모든 디렉토리에서 로봇의 접근을 차단합니다.

문서 접근 부분 차단: 구글 검색 로봇에 대하여 /search, /tmp 이하의 모든 페이지에 검색 로봇의 접근 차단.

User-agent: Googlebot
Disallow: /search
Disallow: /tmp/

 

robots.txt는 텍스트 파일로 작성해야 되고, 사이트의 최상위 디렉토리나 도메인 루트에 robots.txt로 저장해야 됩니다. robots.txt파일이 없을 경우 디폴트 세팅은 모든 크롤러에 대해서 모든 디렉토리를 차단시키는 것입니다.

robots.txt 파일은 보안 또는 개인정보 관리를 위한 도구가 아니며 검색 로봇의 수집범위를 정하는 규칙입니다. 중요한 디렉토리나 파일 이름을 Disallow로 명시할 경우 악성 봇은 해당 파일만 수집해 갈 수 도 있기 때문에 Allow나 Disallow을 사용시 제한된 방법으로 사용하거나 패스워드로 해당 디렉토리를 보호 해야 됩니다.