Leider handelt es sich bei den vorliegenden URLs um relative URLs, deshalb kann ich sie nicht direkt weiterverwenden sondern muss sie zuerst in absolute URLs umwandeln. Dazu kann Microsoft Excel verwendet werden, indem einfach mit der Funktion „Verketten“ der fehlende Teil der URL („http://de.wikipedia.org“) ergänzt wird. Wie das im Detail funktioniert, demonstriert der folgende Screenshot:
We love helping businesses and startups of any size define their editorial, and win the hearts + minds of new potential customers. We are passionate about the power of a well written and well thought-out content marketing campaign executed through your company’s blog. We work with journalistic and social best practices. We understand the creative value of the medium. We don’t just pump out the same-old crummy SEO content. We craft a serious editorial around your brand, it’s values and mission, and it’s overall story.
Das Ziel ist es also, alle Stadtnamen von der Tabelle unter http://de.wikipedia.org/wiki/Liste_der_Gro%C3%9Fst%C3%A4dte_in_Deutschland#Aktuelle_Gro.C3.9Fst.C3.A4dte zu extrahieren. Dazu benötigen wir zunächst einmal den entsprechenden XPath-Ausdruck, den wir mit dem Firebug Addon FirePath bekommen, indem wir auf den ersten Stadtnamen mit der rechten Maustaste klicken und im erscheinenden Kontextmenü den Punkt „Inspect in FirePath“ auswählen. Die folgende Abbildung verdeutlicht das:
×