Ich möchte also jedem einzelnen Artikel noch eine möglichst individuelle Note (sprich einen Teil individuellen Textes) verpassen. Dazu kann ich entweder jeden Artikel manuell editieren – was ziemlich zeitaufwendig wäre – oder ich mache mir erneut die Power des Scrapens zu Nutze. Wie ich bereits weiter oben schrieb, bietet Wikipedia zu jeder Stadt eine eigene Detailseite an. In weiser Voraussicht habe ich sogar schon die entsprechenden URLs zuvor mitgescraped, also schauen wir uns die Sache mal genauer an.
Das Ziel ist es also, alle Stadtnamen von der Tabelle unter http://de.wikipedia.org/wiki/Liste_der_Gro%C3%9Fst%C3%A4dte_in_Deutschland#Aktuelle_Gro.C3.9Fst.C3.A4dte zu extrahieren. Dazu benötigen wir zunächst einmal den entsprechenden XPath-Ausdruck, den wir mit dem Firebug Addon FirePath bekommen, indem wir auf den ersten Stadtnamen mit der rechten Maustaste klicken und im erscheinenden Kontextmenü den Punkt „Inspect in FirePath“ auswählen. Die folgende Abbildung verdeutlicht das:
×