Co to jest duplicate content?

Duplicate content (DC) to nic innego jak ta sama treść powielona na różnych podstronach serwisu.
DC w naszym serwisie może powstać w wyniku świadomego działania ale często zdarza się, że to kwestia stricte techniczna (np. indeksowanie tych samych zasobów pod wieloma adresami URL przez silnik strony) lub błąd ludzki.
Clusteric Auditor może pomóc w automatycznym zidentyfikowaniu tego rodzaju sytuacji znajdując zarówno strony będące niemal stuprocentowymi kopiami jak i np. bardzo podobne artykuły.

Jak znaleźć duplicate content w serwisie?

Rozpoczynamy od trybu analizy on-site.Analiza duplicate content

W naszym przykładzie spróbujemy zrobić analizę tekstów poradnikowych na jednej z popularnych stron o tematyce budowlanej.
Podajemy adres, od którego chcemy rozpocząć crawl serwisu.

Wybieramy analizę linków wewnętrznych (bez innych zasobów, interesują nas tylko teksty).
Oprócz tego koniecznie ustawiamy analizę gęstości słów w treści strony – jest ona podstawą do późniejszego skanu duplicate content.

W kolejnym ekranie ustawiamy jeszcze jedną opcję konfiguracyjną – w naszym przykładzie chcemy analizować serwis wyłącznie w części poświęconej poradnikom.

Uruchamiamy analizę. Gdy ta się zakończy, przechodzimy do zakładki “Generuj” i “Skan podobieństwa”.

Interesuje nas punkt widzenia Google, więc skupiamy się na zasobach indeksowalnych i bez canonical URL. Oprócz tego, zwykle będziemy chcieli wykluczyć z analizy teksty na stronie, które powtarzają się na wielu innych stronach.
Są to zwykle elementy menu, stałe składowe nagłówków lub footerów, informacje o polityce prywatności, cookies, RODO itd.

Możemy też ustalić, jaki minimalny stopień podobieństwa spowoduje pokazanie się tekstów w zestawieniu (skala do 100 punktów).
Silne duplikaty będą miały zwykle powyżej 70 punktów, ale ustawiając niższe wartości możemy też szukać artykułów, które są po prostu pokrewne tematycznie i wykorzystać zestawienie w nieco innym celu (np. dodanie powiązanych czy linków wewnętrznych).
Uruchamiamy analizę i po chwili oczekiwania (czas zależny od wielkości projektu) otrzymujemy:

Jeśli przyjrzymy się wynikom w naszym przykładzie, zobaczymy, że na liście są dwa mocne duplikaty (90 i 96 punktów), ale również teksty o bardzo dużym stopniu pokrycia z drobnymi zmianami względem siebie (73 punkty).

Uzyskany raport można też wyeksportować do arkusza XLS.