Los bots de inteligencia artificial (IA) y aprendizaje automático (ML) están rastreando y extrayendo datos de millones de sitios web para alimentar sus modelos sin ofrecer ninguna retribución a los creadores de contenido. Herramientas como ChatGPT, OpenAI, DeepSeek y otros sistemas de IA recopilan información de sitios sin pedir permiso, lo que genera preocupación sobre la protección del contenido en internet.
Si deseas evitar que estos bots accedan a tu web, existen métodos efectivos para bloquearlos mediante el archivo robots.txt o a través del servidor Apache con .htaccess. A continuación, se presenta una guía completa con los pasos para impedir que los rastreadores de IA extraigan información de tu sitio.
1. Bloquear bots de IA con el archivo robots.txt
La manera más sencilla para restringir el acceso de los bots a un sitio web es a través del archivo robots.txt, un documento que indica qué partes de la web pueden ser rastreadas por los robots de los motores de búsqueda y otros rastreadores.
Pasos para bloquear bots de IA con robots.txt
Accede al archivo robots.txt de tu servidor. Si no existe, créalo en la carpeta raíz de tu sitio web.
Añade las siguientes reglas para bloquear los bots de inteligencia artificial:
# Ultimate AI Block List v1.2 20250212
# https://perishablepress.com/ultimate-ai-block-list/
User-agent: Agent GPT
User-agent: AgentGPT
User-agent: AI Article Writer
User-agent: AI Content Detector
User-agent: AI Dungeon
User-agent: AI Search Engine
User-agent: AI SEO Crawler
User-agent: AI Writer
User-agent: AI21 Labs
User-agent: AI2Bot
User-agent: AIBot
User-agent: AISearchBot
User-agent: AlexaTM
User-agent: Alpha AI
User-agent: AlphaAI
User-agent: Amazon Bedrock
User-agent: Amazon Lex
User-agent: Amazonbot
User-agent: Amelia
User-agent: anthropic-ai
User-agent: AnthropicAI
User-agent: AnyPicker
User-agent: Anyword
User-agent: Applebot
User-agent: Articoolo
User-agent: AutoGPT
User-agent: Automated Writer
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: BingAI
User-agent: Brave Leo AI
User-agent: Bytespider
User-agent: CatBoost
User-agent: CC-Crawler
User-agent: CCBot
User-agent: ChatGPT
User-agent: Chinchilla
User-agent: Claude-Web
User-agent: ClaudeBot
User-agent: ClearScope
User-agent: cohere-ai
User-agent: cohere-training-data-crawler
User-agent: Common Crawl
User-agent: commoncrawl
User-agent: Content Harmony
User-agent: Content King
User-agent: Content Optimizer
User-agent: Content Samurai
User-agent: ContentAtScale
User-agent: ContentBot
User-agent: Contentedge
User-agent: Conversion AI
User-agent: CopyAI
User-agent: Copymatic
User-agent: Copyscape
User-agent: CrawlQ AI
User-agent: Crawlspace
User-agent: crew AI
User-agent: crewAI
User-agent: DALL-E
User-agent: DataForSeoBot
User-agent: DeepAI
User-agent: DeepL
User-agent: DeepMind
User-agent: DeepSeek
User-agent: DepolarizingGPT
User-agent: DialoGPT
User-agent: Diffbot
User-agent: DuckAssistBot
User-agent: FacebookBot
User-agent: Firecrawl
User-agent: Flyriver
User-agent: Frase AI
User-agent: FriendlyCrawler
User-agent: Gemini
User-agent: Gemma
User-agent: GenAI
User-agent: Google Bard AI
User-agent: Google-CloudVertexBot
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GPT-2
User-agent: GPT-3
User-agent: GPT-4
User-agent: GPTBot
User-agent: GPTZero
User-agent: Grammarly
User-agent: Grok
User-agent: Hemingway Editor
User-agent: Hugging Face
User-agent: Hypotenuse AI
User-agent: iaskspider
User-agent: ICC-Crawler
User-agent: ImagesiftBot
User-agent: img2dataset
User-agent: INK Editor
User-agent: INKforall
User-agent: IntelliSeek.ai
User-agent: Inferkit
User-agent: ISSCyberRiskCrawler
User-agent: JasperAI
User-agent: Kafkai
User-agent: Kangaroo
User-agent: Keyword Density AI
User-agent: LeftWingGPT
User-agent: LLaMA
User-agent: magpie-crawler
User-agent: MarketMuse
User-agent: Meltwater
User-agent: Meta AI
User-agent: Meta Llama
User-agent: Meta.AI
User-agent: Meta-AI
User-agent: Meta-ExternalAgent
User-agent: Meta-ExternalFetcher
User-agent: MetaAI
User-agent: MetaTagBot
User-agent: Mistral
User-agent: Narrative Device
User-agent: Neural Text
User-agent: NeuralSEO
User-agent: OAI-SearchBot
User-agent: OAI SearchBot
User-agent: omgili
User-agent: OmniGPT
User-agent: Open AI
User-agent: OpenAI
User-agent: OpenText AI
User-agent: Outwrite
User-agent: Page Analyzer AI
User-agent: PanguBot
User-agent: Paraphraser.io
User-agent: peer39_crawler
User-agent: PerplexityBot
User-agent: PetalBot
User-agent: ProWritingAid
User-agent: QuillBot
User-agent: RightWingGPT
User-agent: RobotSpider
User-agent: Rytr
User-agent: SaplingAI
User-agent: Scalenut
User-agent: Scrapy
User-agent: ScriptBook
User-agent: SearchGPT
User-agent: SemrushBot
User-agent: SEO Content Machine
User-agent: SEO Robot
User-agent: Sidetrade
User-agent: Simplified AI
User-agent: SlickWrite
User-agent: Spin Rewriter
User-agent: Spinbot
User-agent: Stability
User-agent: Sudowrite
User-agent: Surfer AI
User-agent: Text Blaze
User-agent: TextCortex
User-agent: The Knowledge AI
User-agent: Timpibot
User-agent: VelenPublicWebCrawler
User-agent: Vidnami AI
User-agent: WebChatGPT
User-agent: Webzio
User-agent: Whisper
User-agent: WordAI
User-agent: Wordtune
User-agent: Writecream
User-agent: WriterZen
User-agent: Writescope
User-agent: Writesonic
User-agent: x.AI
User-agent: xAI
User-agent: YouBot
User-agent: Zero GTP
User-agent: ZimmWriter
Disallow: /
Guarda los cambios y sube el archivo a la carpeta raíz del sitio web.
¿Es este método efectivo?
El problema del método robots.txt es que no todos los bots respetan sus reglas. Mientras que los rastreadores de empresas serias como Google siguen estas instrucciones, muchos bots de IA ignoran el archivo y continúan accediendo a los datos del sitio.
Si quieres forzar el bloqueo de los bots, debes implementar un método más agresivo mediante el servidor web.
2. Bloquear bots de IA con Apache/.htaccess
Para una solución más efectiva, es posible bloquear el acceso de los bots directamente desde el servidor mediante Apache y el archivo .htaccess. Este método impide que los bots listados puedan acceder a cualquier contenido del sitio web.
Pasos para bloquear bots de IA con .htaccess
Accede al archivo .htaccess en la carpeta raíz del servidor. Si no existe, créalo.
Añade el siguiente código para restringir el acceso a los bots:
# Bloquear bots de inteligencia artificial
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (AgentGPT|Agent\ GPT|AIBot|AI2Bot|AISearchBot|AlexaTM|Alpha\ AI|AlphaAI|Amazon\ Bedrock|Amazon\ Lex|Amazonbot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (Amelia|anthropic-ai|AnyPicker|Applebot|AutoGPT|AwarioRssBot|AwarioSmartBot|Brave\ Leo\ AI|Bytespider|CatBoost) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (CC-Crawler|CCBot|ChatGPT|Chinchilla|Claude-Web|ClaudeBot|cohere-ai|cohere-training-data-crawler|Common\ Crawl) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (commoncrawl|Crawlspace|crew\ AI|crewAI|DALL-E|DataForSeoBot|DeepMind|DeepSeek|DepolarizingGPT|DialoGPT|Diffbot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (DuckAssistBot|FacebookBot|Firecrawl|Flyriver|FriendlyCrawler|Gemini|Gemma|GenAI|Google\ Bard\ AI|Google-CloudVertexBot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (Google-Extended|GoogleOther|GPT-2|GPT-3|GPT-4|GPTBot|GPTZero|Grok|Hugging\ Face|iaskspider|ICC-Crawler|ImagesiftBot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (img2dataset|IntelliSeek\.ai|ISSCyberRiskCrawler|Kangaroo|LeftWingGPT|LLaMA|magpie-crawler|Meltwater|Meta\ AI|Meta\ Llama) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (Meta\.AI|Meta-AI|Meta-ExternalAgent|Meta-ExternalFetcher|MetaAI|Mistral|OAI-SearchBot|OAI\ SearchBot|omgili|Open\ AI) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (OpenAI|PanguBot|peer39_crawler|PerplexityBot|PetalBot|RightWingGPT|Scrapy|SearchGPT|SemrushBot|Sidetrade|Stability) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (The\ Knowledge\ AI|Timpibot|VelenPublicWebCrawler|WebChatGPT|Webzio|Whisper|x\.AI|xAI|YouBot|Zero\ GTP) [NC]
RewriteRule .* - [F,L]
</IfModule>
Explicación del código:
RewriteEngine On
: Activa el módulo de reescritura de Apache.RewriteCond %{HTTP_USER_AGENT} (bot1|bot2|...) [NC,OR]
: Comprueba si el User-Agent del visitante coincide con alguno de los bots listados. Se usaNC
para que la comparación no distinga entre mayúsculas y minúsculas, yOR
para encadenar múltiples condiciones.RewriteRule .* - [F,L]
: Si alguna condición se cumple, devuelve un 403 Forbidden y detiene el procesamiento.
Guarda los cambios y sube el archivo al servidor.
Ventajas de este método
- Impide el acceso total a los bots de IA mencionados, evitando que rastreen contenido sin autorización.
- No depende de la buena voluntad de los bots, como sucede con el archivo robots.txt.
- Funciona automáticamente sin necesidad de actualizaciones frecuentes.
3. Excluir bots específicos y configurar excepciones
Si necesitas hacer excepciones para ciertos bots, puedes personalizar las reglas de exclusión. Por ejemplo, si deseas bloquear la precarga pero permitir la prelectura de ciertas URLs, puedes añadir el siguiente código en WordPress:
add_filter(
'plsr_speculation_rules_href_exclude_paths',
function ( array $exclude_paths, string $mode ): array {
if ( 'prerender' === $mode ) {
$exclude_paths[] = '/producto/*';
}
return $exclude_paths;
},
10,
2
);
4. Consideraciones finales
Proteger el contenido web de los bots de inteligencia artificial es cada vez más importante, especialmente para creadores de contenido y empresas que desean evitar el uso no autorizado de sus datos.
✅ Si buscas un método simple, utiliza robots.txt.
✅ Si quieres una solución más efectiva, implementa reglas en .htaccess.
✅ Si necesitas más control, configura excepciones según tus necesidades.
La integración de estas medidas ayudará a preservar la propiedad de los datos y evitar que los modelos de inteligencia artificial utilicen contenido sin permiso.