La canonicalización es uno de los procesos más importantes dentro del SEO técnico. Google, al enfrentar URLs con contenido duplicado o similar, utiliza un conjunto de señales para determinar cuál de estas debe considerarse la «URL canónica». Estas señales no solo afectan qué página aparecerá en los resultados de búsqueda, sino que también influyen en la distribución de autoridad y relevancia del contenido.
Recientemente, Allan Scott, ingeniero de Google, comentó que el buscador utiliza alrededor de 40 señales internas para este proceso. Aquí exploraremos las más relevantes y cómo pueden influir en la selección de la URL canónica.
1. Señales Relacionadas con las URLs
Google evalúa múltiples aspectos técnicos de las URLs, incluyendo:
- Protocolo (HTTP vs HTTPS): Las URLs seguras (HTTPS) tienen preferencia.
- Subdominios vs Dominio Principal: Se priorizan las URLs en dominios principales sobre subdominios (ej.
www.example.com
frente ablog.example.com
). - Uso de Slash al Final: URLs con y sin slash al final (
/
) pueden ser tratadas como duplicados. - Parámetros en URLs: URLs limpias suelen ser preferidas frente a aquellas con parámetros largos o innecesarios.
- Hash (#): Elementos de fragmentos no afectan directamente la canonicalización, pero pueden influir en el agrupamiento.
- Normalización (Mayúsculas vs Minúsculas): URLs deben ser consistentes en el uso de mayúsculas y minúsculas.
- Longitud de la URL: Se prefieren URLs más cortas.
- Palabras Clave en la URL: Términos como
feed
,mobile
, oamp
pueden influir. - Tipo de Archivo: HTML tiene prioridad sobre otros formatos como PDF.
- Estabilidad de la URL: URLs que permanecen constantes suelen ser preferidas.
- Disponibilidad: Una URL accesible (código 200) tiene prioridad sobre páginas que devuelven errores.
- Fecha de Creación: Las URLs más antiguas pueden tener ventaja.
2. Señales Relacionadas con el Contenido
Google también considera aspectos directamente vinculados con la calidad y relevancia del contenido:
- Duplicidad Exacta o Parcial: Google utiliza técnicas avanzadas como checksums para identificar contenido duplicado.
- Similitud Semántica: Contenido con patrones similares puede agruparse.
- Boilerplate vs Contenido Principal: Partes repetitivas (headers, footers) son excluidas del análisis.
- Historial de Cambios: Google puede preferir contenido con actualizaciones frecuentes.
- Estado de Indexación: Una URL previamente indexada puede ser favorecida.
- Fecha de Indexación: La primera página indexada puede ser prioritaria.
- Schema Markup y Entidades: La presencia de datos estructurados puede guiar la elección de la canónica.
- Topicalidad del Contenido: Google evalúa si la página responde mejor a la intención de búsqueda.
- Calidad General del Contenido: Factores como originalidad y utilidad también influyen.
3. Señales Relacionadas con el Enlazado
La estructura de enlaces internos y externos también es un factor clave:
- Rel=Canonical: Es una señal directa, pero Google puede ignorarla si hay inconsistencias.
- Redirecciones 301: Una señal fuerte para la canónica.
- Enlaces Internos: URLs con más enlaces internos suelen ser priorizadas.
- Enlaces Externos: La URL con más enlaces entrantes de calidad puede ser favorecida.
- Anchor Text: Los enlaces con texto relevante pueden influir.
- Ubicación de los Enlaces: Enlaces en el contenido principal tienen más peso que en footers o sidebars.
4. Señales de Estructura del Sitio
El contexto en el que una URL está ubicada también es relevante:
- Sitemaps: URLs listadas en el sitemap suelen ser priorizadas.
- Hreflang y x-default: Indican la versión canónica para distintos idiomas o regiones.
- Configuración de Robots.txt: Páginas bloqueadas no serán seleccionadas como canónicas.
- Arquitectura del Sitio: Estructuras más simples facilitan la elección de la canónica.
5. Señales Históricas y Contextuales
Google utiliza datos históricos y contextuales para determinar la canónica:
- Historial de Crawling: URLs con más rastreos pueden ser priorizadas.
- Historial de Logs de Consultas: Google analiza patrones de uso.
- Historial de Popularidad: URLs con más tráfico pueden ser seleccionadas.
- Consistencia de Señales: Google favorece coherencia entre etiquetas canonical, redirecciones, y sitemaps.
6. Señales Negativas o Problemáticas
Errores técnicos o configuraciones incorrectas pueden causar problemas:
- Códigos de Estado HTTP Incorrectos: Un error 200 para páginas no existentes genera duplicados.
- Páginas de Error Personalizadas: Contenido idéntico en errores 404 puede ser agrupado.
- Uso Incorrecto de Rel=Canonical: Etiquetas vacías o mal configuradas generan inconsistencias.
- Contenido en Regiones/Idiomas Similares: Diferencias mínimas pueden llevar a agrupamientos incorrectos.
- Bloqueos Temporales: Un noindex o errores intermitentes afectan la elección de la canónica.
Conclusiones
Google evalúa un extenso abanico de señales para determinar cuál URL es la canónica. Si bien la lista mencionada no es exhaustiva, muestra la complejidad del proceso y la importancia de mantener coherencia en las configuraciones técnicas, así como en el contenido y el enlazado.
Recomendaciones Prácticas
- Revisa la consistencia de tus etiquetas
rel=canonical
, redirecciones y sitemaps. - Asegúrate de que todas las URLs sean accesibles y no devuelvan errores 200 incorrectos.
- Prioriza la calidad del contenido y reduce la duplicidad innecesaria.
- Implementa datos estructurados como schema para facilitar la identificación de la canónica.
- Supervisa tu sitio regularmente con herramientas como Google Search Console.
Entender y optimizar estas señales puede marcar la diferencia en cómo Google percibe y clasifica tu sitio web en los resultados de búsqueda.