Nach der Abstrafungswelle für Artikelverzeichnisse haben viele Betreiber die Aufnahmebedingungen für Artikel erhöht. Neben einer Mindestwortanzahl ist nun auch das Abliefern von unique Content Pflicht. Allerdings sollten Sie darauf sowieso Wert legen – schließlich wollen Sie, dass Ihr Artikel in den Google Index aufgenommen wird und das funktioniert nicht, wenn es sich um Duplicate Content handelt.

Das Ziel ist es also, alle Stadtnamen von der Tabelle unter http://de.wikipedia.org/wiki/Liste_der_Gro%C3%9Fst%C3%A4dte_in_Deutschland#Aktuelle_Gro.C3.9Fst.C3.A4dte zu extrahieren. Dazu benötigen wir zunächst einmal den entsprechenden XPath-Ausdruck, den wir mit dem Firebug Addon FirePath bekommen, indem wir auf den ersten Stadtnamen mit der rechten Maustaste klicken und im erscheinenden Kontextmenü den Punkt „Inspect in FirePath“ auswählen. Die folgende Abbildung verdeutlicht das:

×