For example, you might write about the grocery shopper having trouble with organic food labels: “Charlie concentrated on jars of peanut butter on the shelf. The words ‘organic’ and ‘natural’ seemed to jump out at him. Every jar said something different. He felt they were shouting at him: ‘Choose me!’ ‘Buy me!’ The words started swimming in front of his eyes. He left the aisle without buying anything.”
Das Ziel ist es also, alle Stadtnamen von der Tabelle unter http://de.wikipedia.org/wiki/Liste_der_Gro%C3%9Fst%C3%A4dte_in_Deutschland#Aktuelle_Gro.C3.9Fst.C3.A4dte zu extrahieren. Dazu benötigen wir zunächst einmal den entsprechenden XPath-Ausdruck, den wir mit dem Firebug Addon FirePath bekommen, indem wir auf den ersten Stadtnamen mit der rechten Maustaste klicken und im erscheinenden Kontextmenü den Punkt „Inspect in FirePath“ auswählen. Die folgende Abbildung verdeutlicht das:
Spinning-Software erleichtert zwar die Vervielfältigung der Texte, bringt aber je nach Tool-Qualität auch Probleme mit sich, den nicht jedes Synonym passt in das Bedeutungsumfeld des Textes. Es kann z.B. vorkommen, dass das Ersetzen eines Wortes die Satzbedeutung verändert, bzw. nicht in den Satzkontext passt. Diese Probleme ergeben sich häufig bei partiellen Synonymen, also bei Wörtern, die nicht in allen Bedeutungsvarianten übereinstimmen, wie z.B. “Mann” und “Herr”, “Pferd” und “Ross”. Auch bei Homonymen wie “Bank”, “Ball” oder “Strauß” sind Fehler vorprogrammiert.

Das war’s eigentlich schon. Statt einer halben Stunde Copy & Paste habe ich die komplette Liste in wenigen Sekunden heruntergeladen. Ich kann die Werte nun als CSV-Datei extrahieren oder direkt als Datenbasis für die Variablenfunktion des Article Wizards verwenden. Ich bin an dieser Stelle bereits soweit, dass ich meinen gespinnten Artikel auf jede einzelnen Stadt optimieren kann. Aber vorerst exportiere ich die Ergebnisse des Scrapens als CSV Datei. We’re not done yet.


Scraping kann generell etwas tricky sein und FirePath ist eigentlich nur dann wirklich sinnvoll, wenn im Quelltext id-Attribute verwendet werden. Ansonsten ist der Pfad meist elendig lang und kann unter Umständen vom Scraper nicht richtig erkannt werden. Meist macht es dann mehr Sinn, den XPath selbst zu definieren (geht zum Beispiel über class Attribut häufig sehr gut). Das ist allerdings ein Kapitel für sich
Der Article Wizard ist ein Article Spinner, der zur Erstellung von einzigartigem Content („unique content“) benutzt werden kann. Innerhalb kurzer Zeit lassen sich dadurch einmalig erstellte Artikel vervielfältigen ohne dem Duplicate Content Filter von Google zum Opfer zu fallen und dadurch nicht indexiert zu werden. Falls Sie noch nicht mit dem Prinzip des Article Spinnings vertraut sind, empfehle ich diesen Artikel über Article Spinning.
×