
웹사이트를 운영하고 있고 접속 로그 분석을 하면 다양한 검색 엔진이 유입하고 있다는 것을 알게 됩니다.
최근 검색엔진이 좋아져서 한 두개 등록하고 나면 다른 내가 운영하는 사이트가 검색에도 자동 노출되긴 하지만 정확하게 등록하기 위해서는 웹 마스터 도구나 검색 등록을 이용하게 됩니다.
이러한 검색엔진은 지속적으로 홈페이지에 방문하여 사이트 정보와 변경된 페이지 또는 링크 정보를 수집하여 사용자에게 원하는 정보를 찾을 수 있도록 해 줍니다.

아래는 좋은 검색엔진이라고 볼 수 있습니다.
- Yeti : Naver에서 사용하는 로봇으로 사이트 정보, 사이트맵, RSS 등을 참고하여 콘텐츠를 수집합니다.
- Googlebot : Google의 웹 크롤링 봇으로서 웹 마스터가 제공한 사이트맵이나 웹페이지 정보를 수집합니다.
- Bingbot : 표준 Bing 크롤러이며 마이크로소프트웨어 제공하는 bing 검색엔진에 반영 합니다.
- Slurp : 웹 페이지 정보를 인덱싱하는 Yahoo 로봇으로 Yahoo News, Yahoo Finance, Yahoo Sports 에 사용하기 위해 사이트 정보를 수집합니다.
- DuckDuckBot : 개인정보를 보호하고 수집하는 걸로 최근 인기가 있는 웹 크롤러이며 하루 1200만개 이상 쿼리를 처리하고 개인과 기업을 연결하는데 도움이 됩니다.
- Yandexbot : 러시아 검색 트레픽 50%를 차지하는 러시아 최대 검색엔진의 Yandex 웹 크롤러 입니다.
※ 저의 기준에서 판단한 검색 크롤러이며 요즘에는 ai 그 외 검색 크롤러가 다양 해 지고 있습니다.
나쁜 검색엔진이란?
아래에서 안내 한 검색 로봇이 절대적으로 좋지 않은 것은 아니지만 사이트 접속 트레픽을 계속 증가 시키고 대역폭이나 리소스를 많이 차지하는 문제가 있을 수 있습니다.
검색 엔진 외에 노출되는 걸 원하지 않는 다면 차단하는 것도 좋은 방법이 될 수 있습니다. 또는 구글과 네이버, bing 검색엔진 노출만 원한다면 robots.txt 에서 지정할 수 있습니다.
- MJ12Bot : Majestic 영국 기반은 검색엔진으로 13개 언어와 60개 이상 검색엔진과 독립적 인터넷 주소를 사용합니다.
- PetalBot : Petal 자동 검색 프로그램으로 사이트의 콘텐츠 검색을 위한 인덱스 데이터베이스를 생성하고 수집합니다.
- AhrefsBot : 온라인 마케팅 도구 세트로 구동하는 크롤러 입니다. 다양한 링크를 업데이트하여 사용자에게 최신 데이터를 제공 합니다.
- SEMrushBot : SEMrush 봇이 새롭게 업데이트 된 웹 데이터를 찾고 수집하는 검색 봇 소프트웨어로 보고서 연구 및 그래프에 사용 됩니다.
- DotBot : Moz.com 에서 사용하는 웹 크롤러로 수집되는 사이트를 Moz 도구에 표시하고 API를 제공합니다.
- MauiBot : Amazon 서버에서 웹사이트를 수집하는 미확인 Bot 입니다. 다량의 요청이 있을 수 있으므로 차단하는 게 좋습니다.
검색엔진 차단 방법은?
robots.txt 파일에서 아래와 같이 특정 검색엔진을 차단할 수 있습니다.
아래와 같이 설정하면 구글 검색 로봇 허용, 네이버 검색 로봇 허용 이외 검색 로봇 차단으로 설정 됩니다.
User-agent: Google
Disallow:
User-agent: Yeti
Allow:/
User-agent : *
Disabllow: /
해외에 개인정보 노출을 차단하고 싶거나 Traffic 또는 Resource 비용을 절약하고 싶다면 차단하는 걸 권장합니다.
일반적인 호스팅 사이트에서는 방화벽을 통해 차단이 되고 있을 수 있습니다.
사이트 운영 초기에는 서버 부하나 Traffic 부담이 적어서 그대로 운영하는 경우가 많습니다.
방문자가 증가한다면 해외 비즈니스가 아니라면 차단하는 게 비용과 속도 저하를 막을 수 있습니다.