So kratzen Sie Websites mit Python

Manchmal möchten Sie möglicherweise Daten von einer Website in ein anderes Format extrahieren. Was aber, wenn die Website diese Daten nicht einfach exportieren kann? Hier kommt Web Scraping ins Spiel.

Auf dem YouTube-Kanal von freeCodeCamp.org haben wir einen Crashkurs veröffentlicht, in dem Sie lernen, wie Sie Web-Scraping mit der Python-Bibliothek Beautiful Soup durchführen.

Dieser Kurs wurde von Jim Ergin von JimShapedCoding entwickelt. Jim benutzt und unterrichtet Python seit vielen Jahren.

Mit Beautiful Soup können Sie alle gewünschten Informationen von jeder gewünschten Website sammeln. Es kann sich um eine Bank-Website, soziale Medien, Wikipedia oder eine andere Website handeln.

Beautiful Soup bietet Methoden zum Navigieren, Suchen und Ändern eines Analysebaums. Dies erleichtert das Zerlegen eines HTML-Dokuments und das Extrahieren der benötigten Daten. Und es braucht nicht viel Code, um eine Anwendung zu schreiben.

In diesem Kurs lernen Sie zunächst, wie Sie eine einfache HTML-Seite kratzen, um die Konzepte zu erlernen. Anschließend fahren Sie mit dem Scraping einer echten Website fort. Am Ende erfahren Sie, wie Sie die Informationen speichern, die Sie von der Website entfernen.

Hier sind die Themen, die in diesem Kurs behandelt werden:

  • Grundlegende HTML-Struktur, HTML-Tags Erläuterung
  • Paketinstallation
  • Lokale Dateien verschrotten
  • Schöne Suppe find & find_all () Methoden
  • Webbrowser-Inspektionstool
  • Preisvorteile in einem einfachen Web-Scraping-Projekt
  • Verwenden der Anforderungsbibliothek zum Anzeigen des HTML-Codes einer Website  
  • Scraping einer Produktionswebsite
  • Durchlaufen von ähnlichen Objekten vonoup.find_all ()
  • Gefilterte Jobs filtern
  • Einrichten eines Projekts, das alle 10 Minuten abgekratzt wird
  • Speichern des Jobabsatzes in Textdateien

Sehen Sie sich den vollständigen Crashkurs auf dem YouTube-Kanal von freeCodeCamp.org an (1-stündige Uhr).