Site icon 엘스트림

구글 크롤링 실패 색인 실패 시 대처 방법 (403에러)

오늘은 시간이 조금 남아서 블로그 상태를 점검을 했다.

그런데 문제를 발견했다. 구글에서 크롤링 즉 색인이 되지 않는게 아닌가? 네이버 쪽으로만 유입이 되고 있었다. 그 간 방치해두고 있었더니 여러 문제가 있었나 보다.

구글이나 네이버 검색 창에서 site:사이트주소 를 치면 내 블로그나 웹페이지가 색인이 잘되고 있는지 아닌지 알 수 있다.

구글에서 크롤링이 되질 않아 구글 웹마스터 도구에 등록을 하고 색인 상황을 살펴보려고 했다.

크롤링이란?

웹을 검색하기 전에 검색엔진이 스파이더라고 불리우는 크로울러가 인터넷에 연결된 웹사이트의 링크를 돌아다니며 검색 결과를 위한 자료를 수집한다.

색인이란?

이렇게 크롤링 된 자료를 구글로 가져와서 저장한다. 이렇게 저장된 정보의 페이지들을 색인이라 한다. 검색 할 때는 이 색인에서 찾아서 결과를 보여준다.

그런데 웹사이트의 소유권을 확인하려고 하는데 도통 되질 않는게 아닌가? 이게 무슨…

결론부터 말하자면 호스팅 업체에서 내 사이트로 국외 트래픽이 많이 발생해서 국외 트래픽만 차단해놨다고 한다. 나한테 말도 없이… 그래서 구글에서 전혀 검색이 되질 않았던 것이다. (그것도 작년 6월부터…) 사실 이 부분은 나도 화가 났지만 국외 트래픽이 내 쪽으로 유입되는 문제는 나도 잘 모르는 문제라서 이해하기로 했다. 아마 블로그를 만든지가 오래되었고 여러 사이트 들과 연결이 되었기 때문에 외국의 스팸 트래픽이 유입되고 있는 듯 하다. 하지만 그렇게 많은 수준은 아닌데??

웹마스터에 연결하기 위한 삽질의 과정을 간단하게 포함하자면 다음과 같다.

– 구글의 인증 html 파일을 루트에 올리고 인증 받으려 했음 -> 크롤링 실패

– 헤더 파일에 구글 인증 코드 스니펫을 삽입 -> 실패

– 워드프레스 플러그인으로 구글 인증 코드를 삽입 -> 실패

– robots.txt 를 직접 작성하여 루트에 업로드 -> 실패

– 호스팅 업체의 DNS(도메인 네임 시스템)에 인증 코드를 TXT로 직접 등록 ->성공

그래도 크롤러가 403 접근 권한 에러를 내며 실패…(으아악!)

– 호스팅 업체에 전화 -> 최종 해결. (진작에 전화할걸)

이렇게 웹마스터에 연결 후 sitemap xml 파일을 sitemap에 제출하여 색인 중이다. 시간이 상당히 오래 걸린다는데 기다리는 중.

사실 이래도 색인이 잘될지는 장담하지는 못한다.

호스팅 업체를 바꿀까 심각하게 고민 중…

403 에러란?

서버가 반환하는 HTTP 상태로서 서버가 도달할 수 있어도 서버가 페이지 접근 허용을 거부했다는 것을 뜻한다. 즉 접근 권한 에러.

 검색 엔진은 어떻게 작동하는가?

http://www.youtube.com/watch?v=BNHR6IQJGZs 

Exit mobile version