2012年3月9日金曜日

미국의 구글이 팬더업데이트 3.3을 실시

구글이 2011년2월부터 실시하고 있는 컨텐츠품질평가에 관한 알고리즘, 팬더업데이트라고 불리이우는 알고리즘 업데이트가 지난 2012년2월27일에 실시되었습니다.

이번 업데이트는 통상 11번째의 공식 업데이트로 Panda Update 3.3입니다.

검색기능에 관한 개선내용을 리스트업한 레포트 Search Quality Highlights 안에 팬더업데이트를 실시되었다고 기재되어있습니다.

정확한 업데이트 내용을 기재되어있지 않지만 컨텐츠평가에 있어서 더욱 정확한 판단이 가능하도록 업데이트했다고 하고있습니다.

일본은 작년부터 팬더업데이트가 SEO업계는 물론 웹마케팅관련업계의 이슈로 작용하고 있습니다.
아직 일부이긴 합니다만 컨텐츠가 충실하지않은(외부링크에 의존하고있는) 상태로 상위에 위치하던 사이트가 눈에 띄게 랭크다운하고 있는 사실이 알려지고 있습니다.

아직 일본 한국 중국에는 정식으로 적용되었다는 발표는 없습니다만,
컨텐츠를 중요시하는 내용에 대해서는 팬더업데이트 관계없이 구글의 기본적인 생각입니다.
한국에 정식으로 적용되지 않았다고 해서 컨텐츠를 소홀히 하는 일이 없도록,
웹마스터들의 분발이 필요하겠습니다. (Θ∀Θ)

2012年3月7日水曜日

robots.txt로 차단한 페이지가 검색결과에 나오는건 왜일까?

아래와 같이 `로봇 배제'(robot exclusion)를 위해 robots.txt를 설치했음에도 불구하고 차단한 페이지가 검색결과에 등장하는 경우가 있습니다.

User-Agent: *
Disallow: /

robots.txt를 무시하는걸까요? 아니면 제대로 인식을 못하고 실수로?


구글의 Matt Cutts씨가 아래와 같이 답변하고 있습니다.

Uncrawled URLs in search results


요점은 이렇습니다. 
구글은 결코 robots.txt를 무시하거나 이해를 못하는건 아닙니다.

단지 특정조건하에서는 robots.txt가 차단한 페이지를 검색결과에 내보내는 경우가 있습니다. 
대부분의 경우는 차단한 페이지가 외부로부터 많은 링크를 받고 있는 경우 입니다.

링크를 받고 있다는건 그 페이지를 참조로 하는(검색하는) 유저가 많다는 얘기입니다. 
구글에게 있어서 많은 유저가 원하고 있는 정보를 제공한다는건 아주 중요한 요소입니다.

robots.txt로 차단되어 있다 하더라도 그 페이지가 아주 관련성이 많은 페이지로부터 의미있는 외부링크에 의해서 어떤 정보를 제공하고 있는 페이지인가가 인식되어진다면 검색결과로써 제공이 가능하다는 얘기입니다.
대신에 검색결과에 제공되는건 URL뿐입니다.

여기서 알고넘어가야할게있는데,
robots.txt의 Disallow명령은 검색엔진 로봇이 그 페이지의 내용을 수집못하게 하기위해 접속을 막는 역할입니다. 
검색결과에 등장하지 못하게 하는게 본래의 목적이 아니다라는 얘기입니다.

보통의 경우는 검색엔진의 로봇이 그 페이지의 내용(정보)를 수집못하게 되는 관계로 검색결과에도 등장 못하게되는 결과로 이어지는것 뿐입니다.
때문에 구글의 로봇은  robots.txt를 무시하는것도 명령의 의미를 이해 못하는것도 아닙니다.
robots.txt의 명령에 따라서 정보를 수집안합니다.
그치만 검색결과에 그 페이지가 등장하는건 robots.txt와 관계없이 외부링크의 영향이라는 얘기입니다.
그렇기 때문에 검색결과에는 URL만이 표시되면 타이틀도 설명문도 제공되지 않습니다.
왜냐?
robots.txt의 명령에 따라서 정보를 수집안했기 때문입니다.
URL은 페이지의 정보를 수집안하더라도 외부링크정보만으로 알수 있기때문에 제공되어집니다.
실은 구글은 아주 똑똑한놈입니다. 

그럼, 검색결과에 안나오게 하려면 어떻게 해야하나요?
<meta name="robots" content="noindex">를 삽입함으로해서 해당 페이지의 URL을 인덱싱못하게 할 수 있습니다.
그러나 동시에 robots.txt에서 차단설정을 하면 구글 로봇은 차단설정을 우선으로 하기 때문에 페이지 내용을 보지않게 됩니다.
결과, <meta name="robots" content="noindex">를 읽지않게 됩니다.
<meta name="robots" content="noindex">를 설치할 경우는 robots.txt 차단설정을 해제할 필요가 있습니다.

robots.txt에서 인덱싱을 차단하는 명령도 가능합니다.
아래와같이 표기하면 됩니다.

User-Agent: *
Noindex: /passpr/  

그러면 로봇은 /passpr/이하의 페이지에 접속은 하지만 검색결과에는 등장하지 않게 됩니다.
"내용을 보기만 하고 비밀로 해줘" 라는 의미입니다.  

이미 인덱싱되어진 페이지를 검색결과에서 삭제하려면,
robots.txt로 차단설정을 한뒤, 구글의 웹마스터툴을 이용해서 URL삭제신청을 하면 됩니다.

아주 중요한, 절대 일반인에게 보여주고 싶지 않은, 검색결과에 나타나게하고 싶지 않은 페이지라면  서버의 화일을 삭제를 하거나, 일부 관계자만이 볼 수 있게 패스워드 설정을 하면 됩니다.

인터넷은 기본적으로 "공개"의 공간입니다.
비밀은 소중하게 신중하게 관리합시다!
(Θ∀Θ)

※위의 내용은 스즈키켄이치씨의 블로그로부터 일부를 인용하고 있습니다.
http://www.suzukikenichi.com