Cuatro googlers (John Mueller, Martin Splitt, Gary Illyes y Lizzi Harvey) han publicado un podcast en el que dicen cómo los algoritmos de los motores de búsqueda manejan el contenido duplicado. Un proceso que tiene en cuenta varios pasos y una gran cantidad de criterios.
Cuando 4 Googlers de Zúrich (John Mueller, Martin Splitt, Gary Illyes y Lizzi Harvey) discuten una pregunta específica entre ellos, el resultado es un podcast llamado "Búsqueda extraoficial" en el que los 4 discuten varios temas y, en particular el "contenido duplicado".
El podcast es interesante porque resume la forma en que Google tiene en cuenta el contenido duplicado, en varios pasos:
Cálculo de una suma de comprobación para cada página web. Una suma de comprobación es un tipo de huella digital específica de la página en cuestión y representativa de su contenido. Por lo tanto, si dos páginas tienen una suma de comprobación similar, será un signo de contenido idéntico o similar. Por tanto, no es el contenido lo que se compara directamente, sino las sumas de comprobación de las páginas. Podemos tener páginas "duplicadas" (páginas con contenido idéntico) o "casi duplicadas" (páginas con contenido similar).
Para calcular la suma de comprobación, solo se tiene en cuenta el contenido editorial (el corazón de la página). El encabezado, el pie de página y el menú de navegación se eliminan en esta fase de análisis y cálculo.
Una vez detectadas las páginas con contenido idéntico o similar, se colocan en un “cluster” (palabra de moda en este momento, que aquí caracteriza a un conjunto de páginas similares).
En este clúster, debemos identificar la página canónica, la que tendrá visibilidad. Esta canonicalización se lleva a cabo mediante un algoritmo que utiliza una veintena de criterios, y entre ellos: el contenido, claro, pero también el PageRank, el hecho de que la página esté en HTTPS o HTTP (preferencia a HTTPS), si la URL está en el archivo XML del mapa del sitio, una posible redirección y, por supuesto, la información proporcionada en la etiqueta "canónica". Todo está gestionado por un algoritmo de aprendizaje automático que hará la mejor elección posible.
Gary Illyes termina explicando que el procesamiento de páginas duplicadas es completamente independiente del mecanismo de clasificación y se realiza en sentido ascendente. El objetivo es sobre todo elegir la página canónica y es esta la que luego se clasificará o no.