Google kann mittlerweile sehr gut die Übereinstimmung von Texten erkennen, auch wenn sie allein bezogen auf die verwendeten Wörter voneinander abweichen. Denn bei der Überprüfung auf Duplicate Content hin werden zahlreiche linguistische Faktoren mit einbezogen, insbesondere semantische Faktoren. Gespinnte Texte, bei denen nur die einzelnen Wörter durch Synonyme ersetzt wurden, sind durch Algorithmen von Google mittlerweile sehr gut erkennbar.
Beim Article Spinning dient ein bestehender Text als Grundlage für die Erstellung eines neuen Artikels. Dabei kann es sich um eine Produktbeschreibung, einen Blogtext, eine Pressemitteilung, eine Landingpage, einen Reisebericht oder andere Veröffentlichungen handeln. Der Artikel wird so umgeschrieben, dass die Inhalte unverändert übernommen werden, ohne dass der neue Text dem Original ähnelt oder gleicht. Zu diesem Zweck werden für bestimmte Original-Begriffe Synonyme benutzt und Satzpassagen werden umgestellt und angepasst. Das Article Spinning kann manuell oder automatisiert erfolgen. Während beim manuellen Article Spinning ein Autor die komplette Texterstellung übernimmt, kommt bei der automatisierten Variante eine Software zum Einsatz.
Das Ziel ist es also, alle Stadtnamen von der Tabelle unter http://de.wikipedia.org/wiki/Liste_der_Gro%C3%9Fst%C3%A4dte_in_Deutschland#Aktuelle_Gro.C3.9Fst.C3.A4dte zu extrahieren. Dazu benötigen wir zunächst einmal den entsprechenden XPath-Ausdruck, den wir mit dem Firebug Addon FirePath bekommen, indem wir auf den ersten Stadtnamen mit der rechten Maustaste klicken und im erscheinenden Kontextmenü den Punkt „Inspect in FirePath“ auswählen. Die folgende Abbildung verdeutlicht das:
×