[SEO] robots.txt 정의 | 구글 or 네이버에서 유효성 검사하기

Robots.txt란 웹 마스터가 웹 로봇(보통 검색 엔진 로봇)에게 웹 사이트 페이지의 크롤링 방법을 지시하기 위한 텍스트 파일입니다. robots.txt 웹 사이트의 루트 파일에 위치하고 있어야 합니다. 이 파일은 로봇이 웹을 탐색하고 콘텐츠에 접근하며 해당 콘텐츠를 사용자에게 제공하는 방법을 제어하는 웹 표준인 로봇 배제 프로토콜(REP:robots exclusion protocol)의 일부입니다.

로봇 배제 프로토콜(REP)에 의해 모든 봇이 지침을 따르는 것은 아닙니다.

  • 나쁜 봇은 지침을 따르지 않을 가능성이 높습니다.
    • 이 규약은 자발적인 권고안이기 때문입니다.
  • Robots.txt 파일은 한 개의 출처(도메인)를 다룹니다.
    • 하나의 웹사이트에 여러 하위 도메인이 있는 경우, 각 하위 도메인은 자체 파일을 가져야 합니다.

Robots.txt 파일의 작동 원리

파일은 HTML 마크업 코드가 없는 텍스트 파일로, 웹 사이트의 다른 파일과 마찬가지로 웹 서버에서 호스팅됩니다. 웹 사이트 소유자는 이 파일을 사용하여 웹 로봇(검색 엔진 로봇 등)이 사이트의 페이지를 어떻게 크롤링하고 인덱싱해야 하는지 지시할 수 있습니다.

Robots txt 파일은 다음과 같은 방법으로 조회할 수 있습니다:

웹 브라우저 주소창에 https://www.yourdomain.com/robots.txt와 같이 웹 사이트의 전체 URL을 입력한 후 엔터를 누릅니다. 해당 URL로 요청을 보내면 웹 서버에서 파일의 내용을 응답으로 보내줍니다.
일반적으로 구글과 같은 주요 검색 엔진 로봇은 웹 사이트를 크롤링하기 전에 먼저 robots txt 파일을 확인하여 어떤 페이지를 방문하고 어떤 페이지를 무시해야 하는지 확인합니다.

요약하면, 웹 사이트 소유자가 웹 로봇에게 크롤링 동작을 제어하기 위해 사용하는 텍스트 파일로, 웹 서버에 호스팅되며 웹 로봇이 해당 사이트를 탐색할 때 이 파일의 지침을 확인합니다.

많이 사용하는 검색엔진 봇 사용자 에이전트

google(구글)
Google

Googlebot(일반)
Googlebot-Mobile
(모바일)
Googlebot-Image(이미지용)
Googlebot-News (뉴스용)
Googlebot-Video(동영상용)
Mediapartners-Google(애드센스)
※Bing

Bing
bingbot
MSNBot-Media(이미지  비디오용)
adidxbot(광고)

※DuckDuckGo
DuckDuckBot

Naver
Yeti
Apple
Applebot
Yandex
Yandex

Baidu
Baiduspider

로봇.txt 파일 문법 예시

1. 모든 허용: 기본적인 파일 형식

와일드카드(*)는 모든 로봇을 의미합니다. Disallow는 비어있는 상태이기 때문에 모든 로봇이 방문할 수 있습니다. 가장 기본적인 상태입니다. robots txt가 와일드카드 및 정규식을 공식적으로 지원하지 않지만 대다수의 검색엔진은 이를 이해합니다.

User-agent: *
Disallow: 
User-agent: *
Allow: /
Sitemap: https://www.example.com/my-sitemap.xml
  • User-agent: 크롤링 규칙을 설정할 크롤러를 지정합니다.
  • Allow: 크롤링 허용 경로
  • Disallow: 크롤링 제한할 경로
  • Sitemap: 사이트맵이 위치한 경로 전체 URL의 위치를 Google, Bing와 같은 검색 엔진에 알릴 수 있습니다.

2. 워드프레스 robots.txt 기본 설정

wordpress 설치 시 기본 설정되는 기본 설정입니다. “워드프레스 robots txt 가 존재 하지 않습니다”와 같은 오류가 나타날 경우 FTP or cPanel 내의 파일 관리자를 이용해서 루트 폴더에 파일이 있는지 체크한 후 설정할 수 있습니다.

# 기본 설정 #
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://uknew.co/sitemap_index.xml

유효성 검사

파일 수정 후 언제든지 구글 서치콘솔 robots txt 테스터에서 유효성 검사를 할 수 있습니다.

Google robots.txt 유효성 검사
Google robots.txt 유효성 검사

구글보다 네이버 서치어드바이저에서 사용하는 유효성 검사 툴이 개인적으로 더 편합니다.

네이버 서치어드바이저 robots.txt 유효성 검사 도구
네이버 서치어드바이저 robots.txt 유효성 검사 도구

구글의 가이드라인

노트북에서 크롬 검색
  • 규칙은 일부 검색엔진에서만 지원될 수 있습니다.
    robots txt 파일의 지침은 사이트에서의 크롤러 동작을 강제로 제어할 수 없습니다. 크롤러가 지침을 준수할지를 스스로 판단하게 됩니다. Googlebot 및 기타 잘 제작된 웹 크롤러는 robots txt 파일의 지침을 준수하지만 준수하지 않는 크롤러도 있습니다. 그러므로 웹 크롤러로부터 정보를 안전하게 보호하려면 비밀번호로 서버의 비공개 파일을 보호하는 등 다른 차단 방법을 사용하는 것이 더 좋습니다.
  • 크롤러마다 구문을 다르게 해석합니다.
    잘 제작된 웹 크롤러는 robots txt 파일의 규칙을 따르지만, 크롤러마다 규칙을 다르게 해석할 수도 있습니다. 특정 지침을 이해하지 못하는 크롤러도 있으므로 다양한 웹 크롤러에 적용될 수 있는 적절한 구문을 알아야 합니다.
구글의 robots 파일 소개 일부 내용 발췌

주의점

Yoast SEO와 RankMath 및 SEO 사이트에서 공통으로 체크한 사항으로, 2015년부터 구글 서치 콘솔에서 사이트 소유자에게 CCS 및 JS 파일을 차단하지 말라고 경고한 것입니다.

왜냐하면 CSS 및 자바스크립트 파일 차단 시 구글은 웹 사이트가 제대로 작동하는지 확인할 수 없기 때문입니다. 구글 봇이 웹 사이트의 정보를 파악하지 못해 검색 엔진 순위가 하락할 수 있습니다.

Similar Posts

  • 한국의 서비스 종료된 블로그 플랫폼 종류

    전 세계적으로 꾸준히 사랑 받고 있는 CMS는 워드프레스, 쇼피파이, 윅스, Squarespace, 드루팔, 줌라, Ghost CMS 등 다양합니다. 그리고 언제 없어질지 불안감을 가질 필요가 없습니다. 한국의 서비스 종료된 블로그가 많다는 사실을 우리는 경험을 통해서 알고 있습니다. w3techs에서 글로벌 순위를 확인할 수 있습니다. 가치 있는 콘텐츠를 생산해서 여러가지 방법으로 수익을 창출할 수 있다는 것은 콘텐츠는…

  • [SEO] 구글 키워드 플래너 사용법

    검색 엔진 최적화를 통해 구글 첫 페이지 상위 노출을 목적이라면 수 많은 요소가 있지만 키워드 리서치는 필수로 진행해야 할 사항입니다. 무료 키워드 툴 중 하나인 구글 키워드 플래너를 이용해서 키워드 조사 하는 방법에 대해 알아 보겠습니다. 순차적으로 키워드 플래너에 대해 확인해 보도록 하겠습니다. 목차Robots.txt 파일의 작동 원리많이 사용하는 검색엔진 봇 사용자 에이전트로봇.txt 파일…

  • [SEO] Blog Post vs. Article: 차이점은 무엇인가?

    웹사이트 콘텐츠를 발행할 때 [블로그 포스트&기사] 둘 중에 어떤 콘텐츠를 발행하는 것이 맞는지 SEO 관점에서 고민할 수 있습니다. 아니면 구글링으로 검색한 웹페이지의 콘텐츠가 Blog 게시물인지 기사인지 생각해 보신 적이 있나요? Blog Post vs. Article 두 종류의 콘텐츠는 어떤 차이점을 가지고 있으며 비즈니스 관점에서 어떤 콘텐츠를 게시하는 것이 더 나을지 알아 보겠습니다. 목차Robots.txt 파일의…

  • [Chrome] 크롬 개발자도구 기능 개요

    크롬 개발자도구의 주요 기능은 웹 개발자가 웹사이트의 코드 테스트 및 디버그 작업을 할 수 있습니다. 파이어폭스, 마이크로소프트 엣지, 크롬 등 웹 브라우저에는 크롬처럼 ‘웹 개발 도구(Web development tools)’가 포함되어 있습니다. 크롬 개발자도구 기능은 개발자에게 유용한 도구임이 분명합니다. ‘devtools‘이라는 줄임말로 많이 사용되고 있습니다. ※디버그(debug) 디버깅 or 디버그는 컴퓨터 프래그램 개발 중 발생하는 시스템의 버그를…

  • URL 디렉터리 구조 vs 플랫 구조: SEO 성능과 웹사이트 운영 효율

    구글의 검색엔진 최적화(SEO) 기본 가이드에 따르면, URL 디렉터리 구조를 통해 유사한 주제의 페이지를 그룹화하는 것은 검색 엔진이 사이트 구조를 이해하고 색인을 최적화하는 데 유리합니다. 특히 사이트의 규모가 크거나 페이지 수가 많을수록 디렉터리(폴더) 단위로 콘텐츠를 체계적으로 묶어 두면 크롤러가 페이지 관계를 파악하고 크롤링 빈도를 조정하기 쉽습니다. 하지만 플랫 구조도 관리 효율성과 URL 단순성 측면에서…

  • Noto Sans KR 폰트 다운로드 방법

    Noto Sans KR 폰트를 서버에 업로드 한 후에 사용하기 위해 Noto Sans KR 폰트 다운로드가 필요한 경우가 있습니다. Noto Sans KR은 구글에서 제공하는 한국어 전용 고딕체 폰트입니다. 목차Robots.txt 파일의 작동 원리많이 사용하는 검색엔진 봇 사용자 에이전트로봇.txt 파일 문법 예시1. 모든 허용: 기본적인 파일 형식2. 워드프레스 robots.txt 기본 설정유효성 검사구글의 가이드라인주의점✅ .woff, .woff2 비교…