/robots.txt의 중요성

게시 됨: 2020-07-27

2020년 7월 27일 최종 업데이트

A robots text document is important 이전 블로그에서 우리 웹사이트의 sitemap.xml 파일의 이점에 대해 논의했습니다. 이 블로그에서는 웹사이트에서 /robots.txt 파일의 중요성에 대해 논의할 것입니다.

/Robots.Txt은(는) 무엇인가요?

/robots.txt는 당사 웹사이트의 웹서버 루트 디렉토리에 있는 텍스트 파일입니다. 웹로봇에게 당사 사이트의 웹 콘텐츠에 대한 지시를 내리는 데 사용되기 때문에 중요한 파일입니다. 웹 로봇, 크롤러 또는 스파이더는 웹 사이트의 웹 콘텐츠를 색인화하기 위해 검색 엔진에서 사용하는 프로그램입니다. 이러한 주어진 지침을 로봇 배제 프로토콜이라고 합니다.

/robots.txt 파일은 http://wwwmysite.com/robots.txt와 같은 URL을 입력하여 액세스할 수 있는 공개 파일입니다. 누구나 파일의 내용과 웹 로봇이 액세스하지 못하도록 하는 위치를 볼 수 있습니다. 즉, /robots.txt 파일을 사용하여 웹사이트에서 중요한 정보를 숨기면 안 됩니다.

/robots.txt는 웹사이트를 방문할 때 검색 엔진 로봇이 가장 먼저 찾는 것입니다... Click To Tweet

Robot.txt 파일 구문 및 내용

/robots.txt 파일에 제공된 지침에는 사이트 사이트맵의 위치, 웹 로봇이 액세스하기를 원하는 디렉토리와 원하지 않는 디렉토리, 웹 로봇이 액세스하기를 원하는 페이지와 원하지 않는 페이지가 포함됩니다. /robots.txt 파일의 간단한 구문 지침은 다음과 같습니다.

사용자 에이전트: *
허용하지 않음: /

"User-agent: *" 줄은 파일의 지침이 모든 로봇에 적용됨을 의미합니다. "Disallow: /"는 로봇이 사이트의 어떤 페이지도 크롤링하지 않도록 지시합니다.

/robots.txt의 다른 표준 지침은 다음과 같습니다.

  • 웹 사이트 콘텐츠에 대한 전체 액세스를 허용하지만 폴더 또는 페이지 차단:

사용자 에이전트: *
허용하지 않음: /폴더/
허용하지 않음: /page.html

  • 웹 사이트 콘텐츠에 대한 전체 액세스를 허용하지만 파일 차단:

사용자 에이전트: *
허용하지 않음: /file-name.pdf

  • 웹 사이트 콘텐츠에 대한 전체 액세스를 허용하지만 특정 웹 로봇의 크롤링을 차단합니다.

사용자 에이전트: *
허용하지 않음:

사용자 에이전트: Googlebot
허용하지 않음: /

robots txt chart

일부 웹 로봇 목록을 보려면 https://www.robotstxt.org/db.html을 방문하십시오.

White Label SEO에 대해 알아보기 – 회의 일정 잡기

제외하려는 모든 URL 접두사에 대해 "Disallow" 줄을 분리해야 합니다. Globing 및 정규식은 User-agent 또는 Disallow 라인에서 지원되지 않습니다. User-agent 필드의 '*'는 "모든 로봇"을 의미하는 특별한 값입니다.

옳은:

사용자 에이전트: *
허용하지 않음: /file-name.pdf
허용하지 않음: /folder1/
허용하지 않음: /folder2/

오류:

사용자 에이전트: *
허용하지 않음: /file-name.pdf
허용하지 않음: /folder1/ /folder2/
허용하지 않음: /folder3/*

Robots.txt가 중요한 이유는 무엇입니까?

파일을 부적절하게 사용 하면 웹사이트의 순위가 훼손될 수 있으므로 /robots.txt의 중요성을 알아야 합니다. 검색엔진 로봇이 웹사이트를 방문할 때 가장 먼저 찾는 파일입니다.

robot talking

/robots.txt 파일에는 검색 엔진 로봇이 사이트 웹페이지를 보고 상호작용하는 방식을 제어하는 ​​지침이 있습니다. 이 파일과 상호 작용하는 봇은 검색 엔진 작동 방식의 기본 요소입니다.

/robots.txt는 사이트 콘텐츠에 액세스할 수 있는 권한이 있는지, 어떤 폴더, 페이지 및 파일을 크롤링할 수 있는지 알고 싶어 검색 엔진 로봇이 웹 사이트를 방문할 때 가장 먼저 찾는 것입니다.

웹사이트에 /robots.txt 파일이 있어야 하는 몇 가지 이유는 다음과 같습니다.

  • 검색 엔진에서 차단하려는 콘텐츠가 있습니다.
  • 다른 웹 로봇에 대한 특별 지침이 필요한 유료 링크 또는 광고가 있습니다.
  • 평판이 좋은 로봇의 사이트 액세스를 제한하고 싶습니다.
  • 우리는 라이브 사이트를 개발 중이지만 아직 검색 엔진에서 색인을 생성하는 것을 원하지 않습니다.
  • 위의 일부 또는 전부는 사실이지만 웹 서버 및 구성 방법에 대한 전체 액세스 권한이 없습니다.

다른 방법으로 위의 이유를 제어할 수 있지만 /robots.txt 파일은 이를 처리하는 올바르고 직접적인 중심 위치입니다. 우리 웹사이트에 /robots.txt 파일이 없으면 검색 엔진 로봇이 우리 사이트에 대한 전체 액세스 권한을 갖게 됩니다.

지침의 핵심 단어의 의미는 무엇입니까?

"User-agent:" -> 특정 로봇에 적용할 지침을 지정합니다. "User-agent: *"와 같은 문은 지시문이 모든 로봇에 적용됨을 의미합니다. "User-agent: Googlebot"과 같은 문구는 지침이 Googlebot에만 적용된다는 의미입니다.

"허용하지 않음:" -> 웹 로봇에게 보지 말아야 할 폴더를 알려줍니다. 즉, 예를 들어 검색 엔진이 사이트의 이미지를 인덱싱하는 것을 원하지 않는 경우 해당 이미지를 하나의 폴더에 넣고 "허용하지 않음: /images/"와 같이 제외할 수 있습니다.

"허용:" -> 다른 지침에 의해 "허용되지 않은" 폴더에 있는 파일을 볼 수 있다고 로봇에게 알립니다. 예를 들어:

사용자 에이전트: *
허용하지 않음: /images/
허용: /images/myphoto.jpg

"사이트맵:" -> 로봇에게 웹사이트 사이트맵 파일의 위치를 ​​알려줍니다. 예를 들어:

사용자 에이전트: *
사이트맵: https://www.mysite.com/sitemap.xml
허용하지 않음: /images/
허용: /images/myphoto.jpg

로봇 메타 태그, 중요합니까?

우리는 웹사이트에서 /robots.txt 파일의 중요성과 사용에 대해 논의했지만 웹 로봇의 우리 사이트 방문을 제어하는 ​​또 다른 방법이 있습니다. 다른 방법은 Robots Meta 태그를 사용하는 것입니다.

<메타 이름=”로봇” 콘텐츠=”NOINDEX, FOLLOW”>

meta robots tag 다른 <meta> 태그와 마찬가지로 HTML 페이지의 <head> 섹션에 위치해야 합니다. 또한 로봇이 사이트의 모든 페이지에 대한 딥 링크를 만날 수 있으므로 사이트의 모든 페이지에 배치하는 것이 가장 좋습니다.

"이름" 속성은 "ROBOTS"여야 합니다.

"content" 속성의 유효한 값은 "INDEX", "NOINDEX", "FOLLOW", "NOFOLLOW"입니다. 여러 개의 쉼표로 구분된 값이 허용되지만 분명히 일부 조합만 의미가 있습니다. robots <meta> 태그가 없으면 기본값은 "INDEX, FOLLOW"이므로 철자가 필요하지 않습니다. robots <meta> 태그의 다른 가능한 용도는 다음과 같습니다.

<메타 이름=”로봇” 콘텐츠=”인덱스, NOFOLLOW”>

<메타 이름=”로봇” 콘텐츠=”NOINDEX, NOFOLLOW”>

메타 태그의 사용은 웹 로봇이 크롤링하기를 원하지 않는 특정 페이지와 더 관련이 있습니다. 일반적으로 사용되지 않으며 방문 을 제어하는 ​​것이 더 정확하고 간단합니다. /robots.txt 파일을 통해 웹 로봇.

화이트 라벨 웹 디자인에 대해 알아보기 – 회의 일정 잡기

결론

우리는 우리 웹사이트에서 /robots.txt의 중요성, 그 구문, 그리고 우리 웹사이트의 이점에서 우리가 할 수 있는 일을 보았습니다. 우리는 로봇 메타 태그의 사용과 그 한계도 보았습니다.

하지만 사용한다면 제대로 사용하고 있는지 확인해야 합니다. 잘못된 /robots.txt 파일은 웹 로봇이 우리 웹사이트 페이지를 인덱싱하지 못하도록 차단할 수 있으며, 더 중요하게는 검색 엔진이 순위를 매기는데 필요한 페이지를 차단하지 않도록 해야 합니다.

—–

글작가 아르투로 S.