Google kann mittlerweile sehr gut die Übereinstimmung von Texten erkennen, auch wenn sie allein bezogen auf die verwendeten Wörter voneinander abweichen. Denn bei der Überprüfung auf Duplicate Content hin werden zahlreiche linguistische Faktoren mit einbezogen, insbesondere semantische Faktoren. Gespinnte Texte, bei denen nur die einzelnen Wörter durch Synonyme ersetzt wurden, sind durch Algorithmen von Google mittlerweile sehr gut erkennbar.
Das Ziel ist es also, alle Stadtnamen von der Tabelle unter http://de.wikipedia.org/wiki/Liste_der_Gro%C3%9Fst%C3%A4dte_in_Deutschland#Aktuelle_Gro.C3.9Fst.C3.A4dte zu extrahieren. Dazu benötigen wir zunächst einmal den entsprechenden XPath-Ausdruck, den wir mit dem Firebug Addon FirePath bekommen, indem wir auf den ersten Stadtnamen mit der rechten Maustaste klicken und im erscheinenden Kontextmenü den Punkt „Inspect in FirePath“ auswählen. Die folgende Abbildung verdeutlicht das:
×