AI 학습 금지를 위한 robots.txt 설정하는 효과적인 방법

수정 2026. 04. 27. 월 14:37

고유한 내 콘텐츠의 정보를 보호하고 AI의 무차별적인 학습을 금지시키기 위해 robots.txt를 아래와 같이 설정했다. 목록에는 AI 학습(LLM 인공지능) 뿐만 아니라 바이두나 얀덱스 같은 글로벌 검색 엔진도 포함했다. 검색 엔진 막기는 CMS 취지에 반하는 것 같아 다시 열어뒀다.

자신의 콘텐츠에 대해 AI가 학습을 원치 않는 경우에는 아래 텍스트를 robots.txt에 그대로 붙여넣기 하면 된다.

접근 제한 로봇 목록

# Section 1: Blocking AI training & specific crawlers
User-agent: Baiduspider
User-agent: Baiduspider-video
User-agent: Baiduspider-image
User-agent: Yandex
User-agent: YandexBot
User-agent: GPTBot
User-agent: Googlebot-Extended
User-agent: ClaudeBot
User-agent: anthropic-ai
User-agent: PerplexityBot
User-agent: cohere-ai
User-agent: CCBot
User-agent: Applebot-Extended
User-agent: Amazonbot
User-agent: Bytespider
User-agent: meta-externalagent
User-agent: AhrefsBot
User-agent: SemrushBot
User-agent: SemrushBot-SA
User-agent: MJ12bot
User-agent: DotBot
User-agent: PetalBot
User-agent: Diffbot
User-agent: DataForSeoBot
User-agent: Barkrowler
User-agent: ImagesiftBot
User-agent: Mediatoolkitbot
User-agent: TrendictionBot
User-agent: Trendiction
User-agent: Bolt
User-agent: FlipboardProxy
User-agent: Omgilibot
Disallow: /

# Section 2: Global rules for all other robots
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /readme.html
Disallow: /wp-content/uploads/wpo/wpo-plugins-tables-list.json

# Section 3: Search query and duplicate content blocking
Disallow: /*?s=
Disallow: /*&s=
Disallow: /?page=
Disallow: /?query=
Disallow: /?replytocom=
Disallow: /*?category=
Disallow: /*&category=

# Section 4: Sitemap location
Sitemap: https://newbinsight.com/wp-sitemap.xml

접근 제한 로봇에 대한 주석

1. 글로벌 검색 엔진: 해당 국가에 비즈니스를 하는 경우는 허용 필요

  • Baiduspider: 중국 최대 검색 엔진 바이두(Baidu)의 봇. 중국 내 검색 결과 노출을 담당
  • Yandex / YandexBot: 러시아 점유율 1위 검색 엔진 얀덱스(Yandex)의 수집 로봇

2. AI 학습 및 LLM (인공지능)

  • GPTBot / Googlebot-Extended: 각각 OpenAI(챗GPT)와 Google의 AI 모델(제미나이) 학습용 데이터 수집 로봇
  • ClaudeBot / anthropic-ai: AI 스타트업 Anthropic의 모델 학습 및 답변 참고용 봇. 요즘 말 많은 클로드가 타고 오는 로봇이다.
  • PerplexityBot: AI 기반 검색 엔진인 Perplexity가 실시간 정보를 제공하고 있으나, 무단 크롤링 및 차단 우회 논란이 있었다.
  • cohere-ai / CCBot: 기업용 AI 모델 개발사나 Common Crawl(공공 웹 데이터 아카이브) 소속 로봇

GPTBot과 Googlebot-Extended은 다시 열어뒀다.

3. 빅테크 및 IT 서비스를 위한 로봇들

  • Applebot-Extended: 애플의 Siri나 스포트라이트 검색 결과 개선 및 AI 학습에 활용
  • Amazonbot: 아마존의 상품 검색 및 Alexa 서비스 답변을 위한 정보를 수집
  • Bytespider: 틱톡(TikTok)의 모회사인 바이트댄스 소속으로, 콘텐츠 추천 알고리즘 등에 활용
  • Meta-ExternalAgent는 메타(Meta, 페이스북 및 인스타그램 운영사)에서 운영하는 AI 학습 로봇

4. 마케팅 분석 및 SEO 관련 로봇들

  • AhrefsBot / SemrushBot: 마케팅 분석 도구인 Ahrefs와 Semrush 소속으로, 사이트 순위 및 광고 성과를 추적한다.
  • MJ12bot / DotBot / PetalBot: 백링크 데이터베이스 구축이나 화웨이(Huawei)의 검색 서비스 등에 활용

5. 기타 데이터 수집 및 가공 로봇

  • Diffbot / DataForSeoBot: 웹 데이터를 구조화된 데이터(API)로 변환해 기업에 판매하는 서비스 회사의 로봇
  • Barkrowler / ImagesiftBot: 보안 분석이나 이미지 인덱싱 전문 로봇
  • Mediatoolkitbot 웹과 소셜 미디어 전반에서 브랜드 언급을 실시간으로 추적하는 미디어 모니터링 툴
  • Trendiction 온라인 뉴스 및 소셜 미디어 데이터를 수집하고 분석하여 미디어 모니터링 시스템이나 시장 조사 연구에 연동하는 기술을 제공
  • Bolt.new는 AI 기반의 브라우저 기반 풀스택 웹 개발 도구로, 코드 작성부터 배포까지 전 과정을 자동화하는 기능을 제공
  • FlipboardProxy는 최신 뉴스와 콘텐츠를 효과적으로 보여주기 위해 웹 데이터를 수집하는 자동화된 프로그램
  • Omgilibot(또는 Omgili 봇)은 Omgili라는 웹 크롤링 서비스와 관련된 봇으로 인터넷상의 포럼, 커뮤니티, 소셜 미디어 등에서 공개된 대화나 데이터를 수집하여 자체적인 데이터셋을 구축

기타 중복 문서 방지를 위한 설정

Section 3의 “Search query and duplicate content blocking”은 중복 문서에 대한 크롤링을 금지하는 명령 코드이다.

검색 결과 페이지와 중복 페이지, 불필요한 매개변수가 포함된 URL을 차단하면, 검색 엔진이 절감된 크롤링 예산으로 사이트의 핵심 콘텐츠에만 집중할 수 있다.

  • Disallow: /*?s= / Disallow: /*&s=는 사이트 내 검색창을 통해 생성되는 결과 페이지를 차단한다.
  • Disallow: /?page= / Disallow: /?query=는 동일한 본문이 여러 페이지에 걸쳐 나타나 발생하는 중복 콘텐츠 문제를 방지한다.
  • Disallow: /?replytocom=는 특정 댓글에 ‘답글 쓰기’ 버튼을 눌렀을 때 생성되는 고유 주소를 차단한다.
  • Disallow: /*?category= / Disallow: /*&category=는 카테고리 필터를 적용했을 때 나타나는 주소를 차단한다. 이러한 문서들은 검색엔진이 본문은 같은데 순서만 바뀐 페이지로 인식하게 된다.

이 설정들은 “불필요한 페이지는 수집하지 말고, 단일 글의 원본”만 크롤링해가라는 최적화 작업이다. 사이트의 SEO를 향상하는 데 효과적인 코드들이라고 할 수 있다.


댓글