Schlagwort:
Crawler

Web Scraping mit FreshRSS

FreshRSS ist ursprünglich ein RSS Aggregator zum selber hosten. Das Tool ist ziemlich cool – das schon mal vorweg. Aber es hat auch eine noch coolere Funktion: Man kann sich einen RSS-Feed irgendeiner Webseite erstellen, die gar keinen RSS Feed hat oder aber auch von Inhalten einer Webseite, die gar nicht per RSS angeboten werden. […]

Prüfen von toten Links mit einem eigenen Crawler in PHP

Suchmaschinenoptimierung (SEO) ist für viele Unternehmen und Webseitenbetreiber ein wichtiger Bestandteil des Online-Marketings. Ein wichtiger Faktor für eine gute Platzierung in den Suchergebnissen ist die Qualität der Links auf der eigenen Webseite. Dazu gehört auch die Prüfung auf tote Links, da diese negativ für das Ranking und die Nutzererfahrung wirken können. Die Klasse WebCrawler bietet […]

Eigener Webcrawler mit Scrapy

Mit der Python Bibliothek Scrapy kann man relativ schnell einen eigenen Crawler aufsetzen – also ein Programm, das alle Seiten einer Website durchläuft. Dabei können dann bestimmte Aktionen durchgeführt werden. Im Folgenden Beschreibe ich kurz, wie man unter Windows Scrapy als Crawler einsetzen kann. Zunächst sollte man einige Einstellungen überprüfen bzw. vornehmen: Die PATH Variable […]