Spinning-Software erleichtert zwar die Vervielfältigung der Texte, bringt aber je nach Tool-Qualität auch Probleme mit sich, den nicht jedes Synonym passt in das Bedeutungsumfeld des Textes. Es kann z.B. vorkommen, dass das Ersetzen eines Wortes die Satzbedeutung verändert, bzw. nicht in den Satzkontext passt. Diese Probleme ergeben sich häufig bei partiellen Synonymen, also bei Wörtern, die nicht in allen Bedeutungsvarianten übereinstimmen, wie z.B. “Mann” und “Herr”, “Pferd” und “Ross”. Auch bei Homonymen wie “Bank”, “Ball” oder “Strauß” sind Fehler vorprogrammiert.
Google kann mittlerweile sehr gut die Übereinstimmung von Texten erkennen, auch wenn sie allein bezogen auf die verwendeten Wörter voneinander abweichen. Denn bei der Überprüfung auf Duplicate Content hin werden zahlreiche linguistische Faktoren mit einbezogen, insbesondere semantische Faktoren. Gespinnte Texte, bei denen nur die einzelnen Wörter durch Synonyme ersetzt wurden, sind durch Algorithmen von Google mittlerweile sehr gut erkennbar.
Das Ziel ist es also, alle Stadtnamen von der Tabelle unter http://de.wikipedia.org/wiki/Liste_der_Gro%C3%9Fst%C3%A4dte_in_Deutschland#Aktuelle_Gro.C3.9Fst.C3.A4dte zu extrahieren. Dazu benötigen wir zunächst einmal den entsprechenden XPath-Ausdruck, den wir mit dem Firebug Addon FirePath bekommen, indem wir auf den ersten Stadtnamen mit der rechten Maustaste klicken und im erscheinenden Kontextmenü den Punkt „Inspect in FirePath“ auswählen. Die folgende Abbildung verdeutlicht das:
×