Inzwischen haben wir von jeder Stadt neben dem Namen auch noch einen auf die Stadt zugeschnittenen Beschreibungstext, das Stadtwappen und die Einwohnerzahl. Theoretisch könnten wir jetzt die Landing Pages generieren. Praktisch ist es aber leider so, dass sich in dem von Wikipedia gescrapten Einleitungstext noch relativ viele interne Links verbergen. Deshalb werden die gescrapten Daten zunächst wieder als CSV Datei exportiert und „bereinigt“.
Variablen sind ebenfalls ein neues Feature, das mit der neusten Version des Article Wizards ausgerollt wurde. Variablen sind quasi prädestiniert für den vorliegenden Anwendungsfall. Damit kann ich Platzhalter im Spinning Text unterbringen, die bei der Erzeugung durch konkrete Texte ersetzt werden – und diese „konkreten Texte“ sind in diesem Fall natürlich Namen von Städten.

Das Ziel ist es also, alle Stadtnamen von der Tabelle unter http://de.wikipedia.org/wiki/Liste_der_Gro%C3%9Fst%C3%A4dte_in_Deutschland#Aktuelle_Gro.C3.9Fst.C3.A4dte zu extrahieren. Dazu benötigen wir zunächst einmal den entsprechenden XPath-Ausdruck, den wir mit dem Firebug Addon FirePath bekommen, indem wir auf den ersten Stadtnamen mit der rechten Maustaste klicken und im erscheinenden Kontextmenü den Punkt „Inspect in FirePath“ auswählen. Die folgende Abbildung verdeutlicht das:

×