Dies sind die besten kostenlosen offenen Datenquellen, die jeder verwenden kann

Was ist Open Data?

In einfachen Worten bedeutet Open Data die Art von Daten, die für jedermann für jedermann zugänglich sind, um darauf zuzugreifen, sie zu ändern, wiederzuverwenden und zu teilen.

Open Data basiert auf verschiedenen „offenen Bewegungen“ wie Open Source, Open Hardware, Open Government, Open Science usw.

Regierungen, unabhängige Organisationen und Agenturen haben sich gemeldet, um die Datenschleusen zu öffnen und immer offenere Daten für einen freien und einfachen Zugang zu schaffen.

Warum ist Open Data wichtig?

Open Data ist wichtig, weil die Welt zunehmend datengetrieben ist. Wenn jedoch der Zugriff und die Verwendung von Daten eingeschränkt sind, wird die Idee eines datengesteuerten Geschäfts und einer datengesteuerten Steuerung nicht verwirklicht.

Offene Daten haben daher ihren eigenen eindeutigen Platz. Es kann ein umfassenderes Verständnis der globalen Probleme und universellen Probleme ermöglichen. Dies kann Unternehmen einen großen Schub geben. Es kann ein großer Impuls für maschinelles Lernen sein. Es kann helfen, globale Probleme wie Krankheit, Kriminalität oder Hungersnot zu bekämpfen. Open Data kann die Bürger stärken und damit die Demokratie stärken. Es kann die Prozesse und Systeme rationalisieren, die die Gesellschaft und die Regierungen aufgebaut haben. Es kann helfen, die Art und Weise zu verändern, wie wir die Welt verstehen und mit ihr umgehen.

Hier ist meine Liste von 15 fantastischen Open Data-Quellen:

1. Open Data der Weltbank

Als Aufbewahrungsort der weltweit umfassendsten Daten zu den Ereignissen in verschiedenen Ländern der Welt ist Open Data der Weltbank eine wichtige Quelle für Open Data. Es bietet auch Zugriff auf andere Datensätze, die im Datenkatalog aufgeführt sind.

Open Data der Weltbank ist riesig, da es 3000 Datensätze und 14000 Indikatoren enthält, die Mikrodaten, Zeitreihenstatistiken und Geodaten umfassen.

Der Zugriff auf und die Ermittlung der gewünschten Daten ist ebenfalls recht einfach. Alles, was Sie tun müssen, ist, die Indikatornamen, Länder oder Themen anzugeben. Dadurch wird die Schatzkammer von Open Data für Sie geöffnet. Außerdem können Sie Daten in verschiedenen Formaten wie CSV, Excel und XML herunterladen.

Wenn Sie Journalist oder Akademiker sind, werden Sie von den zahlreichen Tools begeistert sein, die Ihnen zur Verfügung stehen. Sie erhalten Zugriff auf Analyse- und Visualisierungstools, die Ihre Forschung unterstützen können. Es kann ein tieferes und besseres Verständnis der globalen Probleme ermöglichen.

Sie können auf die API zugreifen, mit der Sie die erforderlichen Datenvisualisierungen, Live-Kombinationen mit anderen Datenquellen und viele weitere solche Funktionen erstellen können.

Daher ist es nicht verwunderlich, dass Open Data der Weltbank jede Liste von Open Data-Quellen anführt!

2. WHO (Weltgesundheitsorganisation) - Open Data Repository

Mit dem Open Data Repository der WHO verfolgt die WHO die gesundheitsspezifischen Statistiken ihrer 194 Mitgliedstaaten.

Das Repository hält die Daten systematisch organisiert. Es kann je nach Bedarf zugegriffen werden. Unabhängig davon, ob es sich um Sterblichkeit oder Krankheitslast handelt, kann auf Daten zugegriffen werden, die unter 100 oder mehr Kategorien klassifiziert sind, z. B. die Millenniums-Entwicklungsziele (Kinderernährung, Kindergesundheit, Gesundheit von Mutter und Mutter, Fortpflanzung, HIV / AIDS, Tuberkulose, Malaria, vernachlässigte Krankheiten, Wasser und sanitäre Einrichtungen), nicht übertragbare Krankheiten und Risikofaktoren, epidemiegefährdete Krankheiten, Gesundheitssysteme, Umweltgesundheit, Gewalt und Verletzungen, Gerechtigkeit usw.

Für Ihre spezifischen Anforderungen können Sie die Datensätze nach Themen, Kategorien, Indikatoren und Ländern durchsuchen.

Das Gute ist, dass Sie alle benötigten Daten im Excel-Format herunterladen können. Sie können Daten auch über das Datenportal überwachen und analysieren.

Die API für den Daten- und Statistikinhalt der Weltgesundheitsorganisation ist ebenfalls verfügbar.

3. Google Public Data Explorer

Google Public Data Explorer wurde 2010 gestartet und kann Ihnen dabei helfen, große Mengen von Datensätzen von öffentlichem Interesse zu untersuchen. Sie können die Daten für Ihre jeweiligen Zwecke visualisieren und kommunizieren.

Es stellt die Daten von verschiedenen Agenturen und Quellen zur Verfügung. Sie können beispielsweise auf Daten der Weltbank, des US Bureau of Labour Statistics und des US Bureau, der OECD, des IWF und anderer zugreifen.

Verschiedene Stakeholder greifen für verschiedene Zwecke auf diese Daten zu. Unabhängig davon, ob Sie Student oder Journalist sind, ob Sie ein politischer Entscheidungsträger oder ein Akademiker sind, können Sie dieses Tool nutzen, um Visualisierungen öffentlicher Daten zu erstellen.

Mithilfe des Daten-Explorers können Sie verschiedene Darstellungsweisen für Daten wie Liniendiagramme, Balkendiagramme, Karten und Blasendiagramme bereitstellen.

Das Beste daran ist, dass Sie diese Visualisierungen sehr dynamisch finden. Es bedeutet, dass Sie sehen werden, wie sie sich im Laufe der Zeit ändern. Sie können Themen ändern, sich auf verschiedene Einträge konzentrieren und die Skala ändern.

Es ist auch leicht teilbar. Sobald Sie das Diagramm fertig haben, können Sie es in Ihre Website oder Ihr Blog einbetten oder einfach einen Link mit Ihren Freunden teilen.

4. Registrierung offener Daten in AWS (RODA)

Dies ist ein Repository, das öffentliche Datensätze enthält. Es sind Daten, die aus AWS-Ressourcen verfügbar sind.

In Bezug auf RODA können Sie die öffentlich verfügbaren Daten ermitteln und weitergeben.

In RODA können Sie Schlüsselwörter und Tags für gängige Datentypen wie Genom, Satellitenbilder und Transport verwenden, um nach den gewünschten Daten zu suchen. All dies ist über eine einfache Weboberfläche möglich.

Für jeden Datensatz finden Sie Detailseiten, Verwendungsbeispiele, Lizenzinformationen sowie Tutorials oder Anwendungen, die diese Daten verwenden.

Durch die Verwendung einer breiten Palette von Computer- und Datenanalyseprodukten können Sie die offenen Daten analysieren und die gewünschten Dienste erstellen.

Während die Daten, auf die Sie zugreifen, über AWS-Ressourcen verfügbar sind, müssen Sie berücksichtigen, dass sie nicht von AWS bereitgestellt werden. Diese Daten gehören verschiedenen Behörden, Regierungsorganisationen, Forschern, Unternehmen und Einzelpersonen.

5. Offenes Datenportal der Europäischen Union

Sie können auf alle offenen Daten zugreifen, die EU-Institutionen, Agenturen und andere Organisationen auf einer einzigen Plattform veröffentlichen, nämlich dem Open Data Portal der Europäischen Union.

Das EU Open Data Portal beherbergt wichtige offene Daten zu EU-Politikbereichen. Diese Politikbereiche umfassen Wirtschaft, Beschäftigung, Wissenschaft, Umwelt und Bildung.

Rund 70 EU-Institutionen, Organisationen oder Abteilungen wie Eurostat, die Europäische Umweltagentur, die Gemeinsame Forschungsstelle und andere Generaldirektionen der Europäischen Kommission und EU-Agenturen haben ihre Datensätze veröffentlicht und den Zugang gewährt. Diese Datensätze haben die Nummer 11700 bis heute überschritten.

Das Portal ermöglicht einen einfachen Zugriff. Sie können die Daten einfach über einen Katalog gängiger Metadaten suchen, durchsuchen, verknüpfen, herunterladen und wiederverwenden. Sie können dies für Ihre spezifischen Zwecke tun. Es kann sich um kommerzielle oder nichtkommerzielle Zwecke handeln.

Sie können den Metadatenkatalog über eine interaktive Suchmaschine (Registerkarte "Daten") und SPARQL-Abfragen (Registerkarte "Verknüpfte Daten") durchsuchen.

Durch die Verwendung dieses Katalogs erhalten Sie Zugriff auf die Daten, die auf den verschiedenen Websites der EU-Institutionen, Agenturen und Organisationen gespeichert sind.

6. Fünfunddreißig

Es ist eine großartige Website für datengesteuerten Journalismus und Geschichtenerzählen.

Es bietet verschiedene Datenquellen für eine Vielzahl von Sektoren wie Politik, Sport, Wissenschaft, Wirtschaft usw. Sie können die Daten auch herunterladen.

Wenn Sie auf die Daten zugreifen, erhalten Sie eine kurze Erklärung zu jedem Datensatz in Bezug auf seine Quelle. Sie erfahren auch, wofür es steht und wie man es benutzt.

Um diese Daten benutzerfreundlich zu gestalten, werden Datensätze in möglichst einfachen, nicht proprietären Formaten wie CSV-Dateien bereitgestellt. Selbstverständlich können diese Formate sowohl von Menschen als auch von Maschinen leicht abgerufen und verarbeitet werden.

Mithilfe dieser Datensätze können Sie Storys und Visualisierungen nach Ihren eigenen Anforderungen und Vorlieben erstellen.

7. US Census Bureau

Das US Census Bureau ist das größte statistische Amt der Bundesregierung. Es speichert und liefert zuverlässige Fakten und Daten zu Menschen, Orten und der Wirtschaft Amerikas.

Das Census Bureau sieht seine große Mission, seine Dienste zu erweitern, als den zuverlässigsten Anbieter von Qualitätsdaten an.

Unabhängig davon, ob es sich um eine Bundes-, Landes-, Kommunal- oder Stammesregierung handelt, verwenden alle Volkszählungsdaten für eine Vielzahl von Zwecken. Diese Regierungen verwenden diese Daten, um den Standort neuer Wohnungen und öffentlicher Einrichtungen zu bestimmen. Sie nutzen es auch zum Zeitpunkt der Untersuchung der demografischen Merkmale von Gemeinden, Staaten und den USA.

Diese Daten werden auch bei der Planung von Verkehrssystemen und Straßen verwendet. Bei der Festlegung von Quoten und der Schaffung von Polizei- und Feuerwehrbezirken sind diese Daten hilfreich. Wenn Regierungen lokalisierte Bereiche für Wahlen, Schulen, Versorgungsunternehmen usw. einrichten, nutzen sie diese Daten. Es ist üblich, Bevölkerungsinformationen einmal im Jahrzehnt zusammenzustellen, und diese Daten sind sehr nützlich, um dies zu erreichen.

Es gibt verschiedene Tools wie American Fact Finder, Census Data Explorer und Quick Facts, die nützlich sind, wenn Sie Daten suchen, anpassen und visualisieren möchten.

Beispielsweise enthält Quick Facts allein Statistiken für alle Bundesstaaten, Landkreise, Städte und sogar Städte mit einer Bevölkerung von 5000 oder mehr.

Ebenso kann American Fact Finder Ihnen helfen, beliebte Fakten wie Bevölkerung, Einkommen usw. zu entdecken. Es bietet Informationen, die häufig angefordert werden.

Das Gute ist, dass Sie über den Census Data Explorer suchen, mit den Daten interagieren, sich mit gängigen Statistiken vertraut machen und die zugehörigen Diagramme anzeigen können. Darüber hinaus können Sie auch ein visuelles Tool verwenden, um Daten in einem interaktiven Kartenerlebnis anzupassen.

8. Data.gov

Data.gov ist die Schatzkammer der offenen Daten der US-Regierung. Erst kürzlich wurde beschlossen, alle Regierungsdaten kostenlos zur Verfügung zu stellen.

Als es gestartet wurde, gab es nur 47. Es gibt jetzt 180.000 Datensätze.

Warum Data.gov eine großartige Ressource ist, liegt daran, dass Sie Daten, Tools und Ressourcen finden, die Sie für eine Vielzahl von Zwecken bereitstellen können. Sie können Ihre Recherchen durchführen, Ihre Web- und Mobilanwendungen entwickeln und sogar Datenvisualisierungen entwerfen.

Sie müssen lediglich Schlüsselwörter in das Suchfeld eingeben und nach Typen, Tags, Formaten, Gruppen, Organisationstypen, Organisationen und Kategorien suchen. Dies erleichtert den einfachen Zugriff auf Daten oder Datensätze, die Sie benötigen.

Data.gov folgt dem Projekt Open Data Schema - einer Reihe von erforderlichen Feldern (Titel, Beschreibung, Tags, Letzte Aktualisierung, Herausgeber, Kontaktname usw.) für jeden auf Data.gov angezeigten Datensatz.

9. DBpedia

Wie Sie wissen, ist Wikipedia eine großartige Informationsquelle. DBpedia zielt darauf ab, strukturierte Inhalte aus den wertvollen Informationen zu erhalten, die Wikipedia erstellt hat.

Mit DBpedia können Sie Beziehungen und Eigenschaften von Wikipedia-Ressourcen semantisch suchen und untersuchen. Dies schließt auch Links zu anderen verwandten Datensätzen ein.

Der DBpedia-Datensatz enthält rund 4,58 Millionen Entitäten. 4,22 Millionen sind in der Ontologie klassifiziert, darunter 1.445.000 Personen, 735.000 Orte, 123.000 Musikalben, 87.000 Filme, 19.000 Videospiele, 241.000 Organisationen, 251.000 Arten und 6.000 Krankheiten.

Für diese Entitäten gibt es Labels und Abstracts in rund 125 Sprachen. Es gibt 25,2 Millionen Links zu Bildern. Es gibt 29,8 Millionen Links zu externen Webseiten.

Alles, was Sie tun müssen, um DBpedia zu verwenden, ist, SPARQL-Abfragen für den Endpunkt zu schreiben oder deren Speicherauszüge herunterzuladen.

DBpedia hat mehreren Unternehmen wie Apple (über Siri), Google (über Freebase und Google Knowledge Graph) und IBM (über Watson) und insbesondere ihren jeweiligen prestigeträchtigen Projekten im Zusammenhang mit künstlicher Intelligenz zugute gekommen.

10. freeCodeCamp Open Data

Es ist eine Open Source Community. Das Wichtigste ist, dass Sie damit programmieren, Pro-Bono-Projekte nach gemeinnützigen Organisationen erstellen und sich einen Job als Entwickler sichern können.

Um dies zu erreichen, stellt die freeCodeCamp.org-Community jeden Monat enorme Datenmengen zur Verfügung. Sie haben daraus offene Daten gemacht.

In diesem Repository finden Sie eine Vielzahl von Dingen. Sie können Datensätze, Analysen derselben und sogar Demos von Projekten finden, die auf den freeCodeCamp-Daten basieren. Dort finden Sie auch Links zu externen Projekten mit den freeCodeCamp-Daten.

Es kann Ihnen bei einer Vielzahl von Projekten und Aufgaben helfen, die Sie möglicherweise im Sinn haben. Ob Webanalyse, Social Media-Analyse, Analyse sozialer Netzwerke, Bildungsanalyse, Datenvisualisierung, datengesteuerte Webentwicklung oder Bots - die von dieser Community angebotenen Daten können äußerst nützlich und effektiv sein.

11. Yelp Open Datasets

Der Yelp-Datensatz ist im Grunde eine Teilmenge von nichts anderem als unseren eigenen Unternehmen, Bewertungen und Benutzerdaten zur Verwendung in persönlichen, pädagogischen und akademischen Aktivitäten.

In Yelp Open Datasets sind 5.996.996 Bewertungen, 188.593 Unternehmen, 280.991 Bilder und 10 Ballungsräume enthalten.

Sie können sie für verschiedene Zwecke verwenden. Da sie als JSON-Dateien verfügbar sind, können Sie sie verwenden, um den Schülern Datenbanken beizubringen. Sie können sie zum Erlernen von NLP oder für Beispielproduktionsdaten verwenden, während Sie wissen, wie Sie mobile Apps entwerfen.

In diesem Dataset finden Sie jede Datei, die aus einem einzelnen Objekttyp besteht, einem JSON-Objekt pro Zeile.

12. UNICEF-Datensatz

Da sich UNICEF mit einer Vielzahl kritischer Themen befasst, hat es relevante Daten zu Bildung, Kinderarbeit, Kinderbehinderung, Kindersterblichkeit, Müttersterblichkeit, Wasser und sanitären Einrichtungen, niedrigem Geburtsgewicht, Schwangerschaftsvorsorge, Lungenentzündung, Malaria und Jodmangel zusammengestellt Störung, weibliche Genitalverstümmelung / -schnitt und Jugendliche.

Die offenen Datensätze von UNICEF, die im IATI-Register veröffentlicht wurden: //www.iatiregistry.org/publisher/unicef, wurden direkt aus dem Betriebssystem (VISION) von UNICEF und anderen Datensystemen extrahiert und spiegeln Eingaben einzelner UNICEF-Büros wider.

Das Gute ist, dass es regelmäßig Updates für diese Datensätze gibt. Die Daten werden jeden Monat aktualisiert, um sie umfassender, zuverlässiger und genauer zu machen.

Sie können frei und einfach auf diese Daten zugreifen. Dazu können Sie diese Daten im CSV-Format herunterladen. Sie können auch eine Vorschau der Beispieldaten anzeigen, bevor Sie sie herunterladen.

Während jeder die Datensätze von UNICEF untersuchen und visualisieren kann, gibt es drei Hauptverlage:

UNICEFs AID TRANSPARENCY PORTAL: Wenn Sie dieses Portal verwenden, können Sie viel einfacher auf die Datensätze zugreifen. Es enthält auch Details zu jedem Land, in dem UNICEF arbeitet.

Publisher D-Portal: Es befindet sich derzeit in BETA. Mit diesem Portal können Sie IATI-Daten erkunden.

Sie können die Informationen zu Entwicklungsaktivitäten, Budgets usw. durchsuchen. Sie können diese Informationen nach Ländern durchsuchen.

Publisher-Datenplattform: Auf dieser Plattform können Sie problemlos auf Statistiken, Diagramme und Metriken zu Daten zugreifen, auf die über die IATI-Registrierung zugegriffen wird. Wenn Sie auf die Überschriften klicken, können Sie auch viele der Tabellen sortieren, die auf der Plattform angezeigt werden. Sie finden auch viele der Datensätze auf den Plattformen im maschinenlesbaren JSON-Format.

13. Kaggle

Kaggle ist großartig, weil es die Verwendung verschiedener Veröffentlichungsformate für Datensätze fördert. Der bessere Teil ist jedoch, dass dringend empfohlen wird, dass die Dataset-Herausgeber ihre Daten in einem zugänglichen, nicht proprietären Format freigeben.

Die Plattform unterstützt offene und zugängliche Datenformate. Dies ist nicht nur für den Zugriff wichtig, sondern auch für alles, was Sie mit diesen Daten tun möchten. Daher definiert Kaggle Dataset klar die Dateiformate, die beim Teilen von Daten empfohlen werden.

Das Einzigartige an Kaggle-Datasets ist, dass es sich nicht nur um ein Datenrepository handelt. Jeder Datensatz steht für eine Community, mit der Sie Daten diskutieren, öffentliche Codes und Techniken herausfinden und Ihre eigenen Projekte in Kerneln konzipieren können.

CSV, JSON, SQLite, Archive, Big Query usw. sind Dateitypen, die Kaggle unterstützt. Sie können eine Vielzahl von Ressourcen finden, um mit der Arbeit an Ihrem Open-Data-Projekt zu beginnen.

Das Beste daran ist, dass Sie mit Kaggle Datensätze privat oder öffentlich veröffentlichen und freigeben können.

14. LODUM

Es ist die Open Data Initiative der Universität Münster. Im Rahmen dieser Initiative kann jeder in maschinenlesbaren Formaten auf öffentliche Informationen über die Universität zugreifen. Sie können ganz einfach darauf zugreifen und es gemäß Ihren Anforderungen wiederverwenden.

Im Rahmen dieses Projekts werden offene Daten zu wissenschaftlichen Artefakten zur Verfügung gestellt, die als verknüpfte Daten codiert sind.

Mit Hilfe von Linked Data ist es möglich, Daten, Ontologien und verschiedene Metadatenstandards zu teilen und zu verwenden. Es ist in der Tat vorgesehen, dass dies der akzeptierte Standard für die Bereitstellung von Metadaten und der Daten selbst im Web sein wird.

Das LODUM-Team hat LinkedUniversities.org und LinkedScience.org gemeinsam initiiert.

Sie können den SPARQL-Editor oder das SPARQL-Paket von R verwenden, um Daten zu analysieren.

Mit dem SPARQL-Paket können Sie über HTTP eine Verbindung zu einem SPARQL-Endpunkt herstellen, eine SELECT-Abfrage oder eine Aktualisierungsabfrage (LOAD, INSERT, DELETE) stellen.

15. UCI Machine Learning Repository

Es dient als umfassendes Repository für Datenbanken, Domänentheorien und Datengeneratoren, die von der Community für maschinelles Lernen zur empirischen Analyse von Algorithmen für maschinelles Lernen verwendet werden.

In diesem Repository befinden sich derzeit 463 Datensätze als Service für die Community des maschinellen Lernens.

Das Zentrum für maschinelles Lernen und intelligente Systeme an der University of California in Irvine beherbergt und unterhält es. David Aha hatte es ursprünglich als Doktorand an der UC Irvine geschaffen.

Seitdem nutzen Studenten, Pädagogen und Forscher auf der ganzen Welt es als zuverlässige Quelle für Datensätze zum maschinellen Lernen.

So funktioniert es: Jeder Datensatz verfügt über eine eigene Webseite, auf der alle bekannten Details einschließlich aller relevanten Veröffentlichungen aufgeführt sind, die ihn untersuchen. Sie können diese Datensätze als ASCII-Dateien herunterladen, häufig im nützlichen CSV-Format.

Die Details von Datensätzen werden nach Aspekten wie Attributtypen, Anzahl der Instanzen, Anzahl der Attribute und Erscheinungsjahr zusammengefasst, die sortiert und durchsucht werden können.

Öffnen Sie Datenportale und Suchmaschinen:

Während jedes Jahr zahlreiche Datensätze von zahlreichen Agenturen veröffentlicht werden, werden nur sehr wenige Datensätze erkannt und etabliert.

Der Grund, warum nur sehr wenige solcher Datensätze als nützliche Ressource dienen, besteht darin, dass es eine Herausforderung ist, die Daten so zu entwickeln, zu verwalten und bereitzustellen, dass Menschen und Organisationen sie nützlich und benutzerfreundlich finden.

Nachfolgend finden Sie jedoch eine Liste anderer wichtiger Open-Data-Portale und -Plattformen, mit denen Benutzer ganz einfach auf Open Data zugreifen, die Auswirkungen untersuchen und wertvolle Erkenntnisse gewinnen können.

  1. Google-Datensatzsuche
  2. Dataverse
  3. Öffnen Sie das Data Kit
  4. Ckan
  5. Öffnen Sie den Datenmonitor
  6. Plenar.io
  7. Öffnen Sie die Datenauswirkungskarte

Fazit

Offene Daten sind an der Tagesordnung. Die Welt hat allmählich begonnen, sich offenen Systemen zuzuwenden, und offene Daten stimmen zu Recht damit überein.

Unternehmen und Organisationen, die offene Daten nutzen, werden sich einen Wettbewerbsvorteil verschaffen und die Zukunft dominieren können.