User-Agent: *
Disallow: /
robots.txt를 무시하는걸까요? 아니면 제대로 인식을 못하고 실수로?
구글의 Matt Cutts씨가 아래와 같이 답변하고 있습니다.
Uncrawled URLs in search results
요점은 이렇습니다.
구글은 결코 robots.txt를 무시하거나 이해를 못하는건 아닙니다.
단지 특정조건하에서는 robots.txt가 차단한 페이지를 검색결과에 내보내는 경우가 있습니다.
대부분의 경우는 차단한 페이지가 외부로부터 많은 링크를 받고 있는 경우 입니다.
링크를 받고 있다는건 그 페이지를 참조로 하는(검색하는) 유저가 많다는 얘기입니다.
구글에게 있어서 많은 유저가 원하고 있는 정보를 제공한다는건 아주 중요한 요소입니다.
robots.txt로 차단되어 있다 하더라도 그 페이지가 아주 관련성이 많은 페이지로부터 의미있는 외부링크에 의해서 어떤 정보를 제공하고 있는 페이지인가가 인식되어진다면 검색결과로써 제공이 가능하다는 얘기입니다.
대신에 검색결과에 제공되는건 URL뿐입니다.
여기서 알고넘어가야할게있는데,
robots.txt의 Disallow명령은 검색엔진 로봇이 그 페이지의 내용을 수집못하게 하기위해 접속을 막는 역할입니다.
검색결과에 등장하지 못하게 하는게 본래의 목적이 아니다라는 얘기입니다.
보통의 경우는 검색엔진의 로봇이 그 페이지의 내용(정보)를 수집못하게 되는 관계로 검색결과에도 등장 못하게되는 결과로 이어지는것 뿐입니다.
때문에 구글의 로봇은 robots.txt를 무시하는것도 명령의 의미를 이해 못하는것도 아닙니다.
robots.txt의 명령에 따라서 정보를 수집안합니다.
그치만 검색결과에 그 페이지가 등장하는건 robots.txt와 관계없이 외부링크의 영향이라는 얘기입니다.
그렇기 때문에 검색결과에는 URL만이 표시되면 타이틀도 설명문도 제공되지 않습니다.
왜냐?
robots.txt의 명령에 따라서 정보를 수집안했기 때문입니다.
URL은 페이지의 정보를 수집안하더라도 외부링크정보만으로 알수 있기때문에 제공되어집니다.
실은 구글은 아주 똑똑한놈입니다.
그럼, 검색결과에 안나오게 하려면 어떻게 해야하나요?
<meta name="robots" content="noindex">를 삽입함으로해서 해당 페이지의 URL을 인덱싱못하게 할 수 있습니다.
그러나 동시에 robots.txt에서 차단설정을 하면 구글 로봇은 차단설정을 우선으로 하기 때문에 페이지 내용을 보지않게 됩니다.
결과, <meta name="robots" content="noindex">를 읽지않게 됩니다.
<meta name="robots" content="noindex">를 설치할 경우는 robots.txt 차단설정을 해제할 필요가 있습니다.
robots.txt에서 인덱싱을 차단하는 명령도 가능합니다.
아래와같이 표기하면 됩니다.
User-Agent: *
Noindex: /passpr/
그러면 로봇은 /passpr/이하의 페이지에 접속은 하지만 검색결과에는 등장하지 않게 됩니다.
"내용을 보기만 하고 비밀로 해줘" 라는 의미입니다.
이미 인덱싱되어진 페이지를 검색결과에서 삭제하려면,
robots.txt로 차단설정을 한뒤, 구글의 웹마스터툴을 이용해서 URL삭제신청을 하면 됩니다.
아주 중요한, 절대 일반인에게 보여주고 싶지 않은, 검색결과에 나타나게하고 싶지 않은 페이지라면 서버의 화일을 삭제를 하거나, 일부 관계자만이 볼 수 있게 패스워드 설정을 하면 됩니다.
인터넷은 기본적으로 "공개"의 공간입니다.
비밀은 소중하게 신중하게 관리합시다!
(Θ∀Θ)
※위의 내용은 스즈키켄이치씨의 블로그로부터 일부를 인용하고 있습니다.
http://www.suzukikenichi.com
0 件のコメント:
コメントを投稿