Aufstrebender Datenwissenschaftler? Beherrsche diese Grundlagen.

Data Science ist ein aufregendes, schnelllebiges Feld, in dem man sich engagieren kann. Es besteht kein Mangel an Nachfrage nach talentierten, analytisch denkenden Personen. Unternehmen jeder Größe stellen Datenwissenschaftler ein, und die Rolle bietet einen echten Mehrwert für eine Vielzahl von Branchen und Anwendungen.

Die ersten Begegnungen der Menschen mit dem Gebiet werden häufig durch das Lesen von Science-Fiction-Schlagzeilen geführt, die von großen Forschungsorganisationen erstellt wurden. Die jüngsten Fortschritte haben die Aussicht auf maschinelles Lernen erhöht, das die Welt, wie wir sie kennen, innerhalb einer Generation verändert.

Außerhalb von Wissenschaft und Forschung geht es in der Datenwissenschaft jedoch nicht nur um Hauptthemen wie Deep Learning und NLP.

Ein Großteil des kommerziellen Werts eines Datenwissenschaftlers beruht auf der Bereitstellung der Klarheit und der Erkenntnisse, die große Datenmengen bringen können. Die Rolle kann alles von der Datenentwicklung über die Datenanalyse bis hin zur Berichterstellung umfassen - möglicherweise wird maschinelles Lernen für ein gutes Maß eingesetzt.

Dies ist insbesondere bei einem Startup-Unternehmen der Fall. Die Datenanforderungen von Unternehmen im Früh- und Mittelstadium sind in der Regel weit entfernt von neuronalen Netzen und Computer Vision. (Es sei denn natürlich, dies sind Kernmerkmale ihres Produkts / ihrer Dienstleistung).

Sie benötigen vielmehr genaue Analysen, zuverlässige Prozesse und die Fähigkeit, schnell zu skalieren.

Daher sind die Fähigkeiten, die für viele ausgeschriebene datenwissenschaftliche Rollen erforderlich sind, breit und vielfältig. Wie bei jeder Beschäftigung im Leben liegt ein Großteil des Wertes in der Beherrschung der Grundlagen. Es gilt die sagenumwobene 80: 20-Regel - ungefähr 80% des Wertes stammen aus 20% der Fähigkeiten.

Hier finden Sie eine Übersicht über einige der grundlegenden Fähigkeiten, die jeder angehende Datenwissenschaftler beherrschen sollte.

Beginnen Sie mit Statistiken

Das Hauptmerkmal eines Datenwissenschaftlers in seinem Unternehmen ist die Fähigkeit, Erkenntnisse aus der Komplexität zu gewinnen. Der Schlüssel dazu liegt darin, zu verstehen, wie aus verrauschten Daten die Bedeutung ermittelt werden kann.

Die statistische Analyse ist daher eine wichtige Fähigkeit, die es zu beherrschen gilt. Mit Statistiken können Sie:

  • Beschreiben Sie die Daten, um den Stakeholdern ein detailliertes Bild zu vermitteln
  • Vergleichen Sie Daten und testen Sie Hypothesen, um Geschäftsentscheidungen zu treffen
  • Identifizieren Sie Trends und Beziehungen, die einen echten prädiktiven Wert bieten

Die Statistik bietet eine Reihe leistungsstarker Tools, mit denen sich kommerzielle und betriebliche Daten verständlich machen lassen.

Aber sei vorsichtig! Das einzige, was schlimmer ist als begrenzte Einsichten, sind irreführende Einsichten. Aus diesem Grund ist es wichtig, die Grundlagen der statistischen Analyse zu verstehen.

Glücklicherweise gibt es einige Leitprinzipien, denen Sie folgen können.

Bewerten Sie Ihre Annahmen

Es ist sehr wichtig, die Annahmen zu kennen, die Sie über Ihre Daten treffen.

Seien Sie immer kritisch gegenüber der Herkunft und skeptisch gegenüber den Ergebnissen. Könnte es eine "uninteressante" Erklärung für beobachtete Trends in Ihren Daten geben? Wie gültig ist Ihr gewählter Statistik-Test oder Ihre Methodik? Erfüllen Ihre Daten alle zugrunde liegenden Annahmen?

Zu wissen, welche Ergebnisse „interessant“ und berichtenswert sind, hängt auch von Ihren Annahmen ab. Ein elementares Beispiel hierfür ist die Beurteilung, ob es angemessener ist, den Mittelwert oder den Median eines Datensatzes anzugeben.

Oft wichtiger als zu wissen, welchen Ansatz man wählen soll, ist zu wissen, welchen nicht . Es gibt normalerweise mehrere Möglichkeiten, einen bestimmten Datensatz zu analysieren. Vermeiden Sie jedoch häufige Fallstricke.

Beispielsweise sollten mehrere Vergleiche immer korrigiert werden. Unter keinen Umständen sollten Sie versuchen, eine Hypothese mit denselben Daten zu bestätigen, mit denen sie generiert wurde! Sie wären überrascht, wie einfach dies geht.

Verteilung> Standort

Wenn ich über einführende Statistiken spreche, muss ich immer einen bestimmten Punkt hervorheben: Die Verteilung einer Variablen ist normalerweise mindestens so interessant / informativ wie ihre Position. In der Tat ist es oft mehr so.

Dies liegt daran, dass die Verteilung einer Variablen normalerweise Informationen über die zugrunde liegenden generativen (oder Stichproben-) Prozesse enthält.

Beispielsweise folgen Zähldaten häufig einer Poisson-Verteilung, während ein System mit positiver Rückkopplung („Verstärkung“) dazu neigt, eine Potenzgesetzverteilung aufzudecken. Verlassen Sie sich niemals darauf, dass Daten normal verteilt werden, ohne vorher sorgfältig zu prüfen.

Zweitens ist das Verständnis der Verteilung der Daten wichtig, um zu wissen, wie man damit arbeitet! Viele statistische Tests und Methoden beruhen auf Annahmen über die Verteilung Ihrer Daten.

Stellen Sie als erfundenes Beispiel immer sicher, dass unimodale und bimodale Daten unterschiedlich behandelt werden. Sie haben möglicherweise den gleichen Mittelwert, aber Sie würden eine ganze Menge wichtiger Informationen verlieren, wenn Sie ihre Verteilungen ignorieren.

Ein interessanteres Beispiel, das zeigt, warum Sie Ihre Daten immer überprüfen sollten, bevor Sie zusammenfassende Statistiken melden, finden Sie in Anscombes Quartett:

Jedes Diagramm sieht sehr unterschiedlich aus, oder? Jedes hat jedoch identische zusammenfassende Statistiken - einschließlich ihrer Mittelwerte, Varianz- und Korrelationskoeffizienten. Das Zeichnen einiger Verteilungen zeigt, dass sie ziemlich unterschiedlich sind.

Schließlich bestimmt die Verteilung einer Variablen die Gewissheit, die Sie über ihren wahren Wert haben. Eine "enge" Verteilung ermöglicht eine höhere Sicherheit, während eine "breite" Verteilung weniger zulässt.

Die Varianz um einen Mittelwert ist entscheidend für die Bereitstellung des Kontexts. Allzu oft werden Mittelwerte mit sehr großen Konfidenzintervallen neben Mitteln mit sehr engen Konfidenzintervallen angegeben. Dies kann irreführend sein.

Geeignete Probenahme

Die Realität ist, dass Stichproben für kommerziell orientierte Datenwissenschaftler ein Schmerzpunkt sein können, insbesondere für diejenigen mit einem Hintergrund in Forschung oder Technik.

In einer Forschungsumgebung können Sie präzise gestaltete Experimente mit vielen verschiedenen Faktoren und Niveaus optimieren und Behandlungen kontrollieren. Die Live-Geschäftsbedingungen sind jedoch aus Sicht der Datenerfassung häufig nicht optimal. Jede Entscheidung muss sorgfältig gegen das Risiko einer Unterbrechung des normalen Geschäftsbetriebs abgewogen werden.

Dies erfordert, dass Datenwissenschaftler erfinderisch und dennoch realistisch mit ihrem Ansatz zur Problemlösung umgehen.

A / B-Tests sind ein kanonisches Beispiel für einen Ansatz, der zeigt, wie Produkte und Plattformen auf granularer Ebene optimiert werden können, ohne das normale Geschäft erheblich zu stören.

Bayesianische Methoden können für die Arbeit mit kleineren Datensätzen hilfreich sein, wenn Sie über einen einigermaßen informativen Satz von Prioritäten verfügen, mit denen Sie arbeiten können.

Beachten Sie bei allen Daten, die Sie sammeln, die Einschränkungen.

Umfragedaten neigen zu Stichprobenverzerrungen (häufig nehmen sich Befragte mit den stärksten Meinungen die Zeit, um die Umfrage abzuschließen). Zeitreihen und räumliche Daten können durch Autokorrelation beeinflusst werden. Und zu guter Letzt sollten Sie bei der Analyse von Daten aus verwandten Quellen immer auf Multikollinearität achten.

Data Engineering

Es ist so etwas wie ein datenwissenschaftliches Klischee, aber die Realität ist, dass ein Großteil des Datenworkflows für die Beschaffung, Bereinigung und Speicherung der Rohdaten aufgewendet wird, die für die aufschlussreichere vorgelagerte Analyse erforderlich sind.

Tatsächlich wird vergleichsweise wenig Zeit für die Implementierung von Algorithmen von Grund auf aufgewendet. In der Tat kommen die meisten statistischen Tools mit ihrem Innenleben in ordentliche R-Pakete und Python-Module.

Der ETL-Prozess (Extract-Transform-Load) ist entscheidend für den Erfolg eines Data Science-Teams. Größere Unternehmen verfügen über engagierte Dateningenieure, um ihre komplexen Anforderungen an die Dateninfrastruktur zu erfüllen. Jüngere Unternehmen sind jedoch häufig darauf angewiesen, dass ihre Datenwissenschaftler über umfassende eigene umfassende Datenentwicklungsfähigkeiten verfügen.

Programmieren in der Praxis

Data Science ist sehr interdisziplinär. Neben fortgeschrittenen analytischen Fähigkeiten und domänenspezifischen Kenntnissen erfordert die Rolle auch solide Programmierkenntnisse.

Es gibt keine perfekte Antwort darauf, welche Programmiersprachen ein angehender Datenwissenschaftler lernen sollte. Das heißt, mindestens einer von Python und / oder R wird Ihnen sehr gut dienen.

Unabhängig davon, für welche Sprache Sie sich entscheiden, sollten Sie sich mit all ihren Merkmalen und dem umgebenden Ökosystem vertraut machen. Durchsuchen Sie die verschiedenen Pakete und Module, die Ihnen zur Verfügung stehen, und richten Sie Ihre perfekte IDE ein. Erfahren Sie, welche APIs Sie für den Zugriff auf die Kernplattformen und -dienste Ihres Unternehmens benötigen.

Datenbanken sind ein wesentlicher Bestandteil des Puzzles eines jeden Datenworkflows. Stellen Sie sicher, dass Sie einen SQL-Dialekt beherrschen. Die genaue Auswahl ist nicht allzu wichtig, da der Wechsel zwischen ihnen bei Bedarf überschaubar ist.

NoSQL-Datenbanken (wie MongoDB) sind möglicherweise auch einen Besuch wert, wenn Ihr Unternehmen sie verwendet.

Wenn Sie ein selbstbewusster Befehlszeilenbenutzer werden, können Sie Ihre tägliche Produktivität erheblich steigern. Selbst wenn Sie mit einfachen Bash-Skripten vertraut sind, haben Sie einen guten Start, wenn es darum geht, sich wiederholende Aufgaben zu automatisieren.

Effektive Codierung

Eine sehr wichtige Fähigkeit für angehende Datenwissenschaftler ist das effektive Codieren. Wiederverwendbarkeit ist der Schlüssel. Es lohnt sich, sich die Zeit zu nehmen (wenn verfügbar), Code auf einer Abstraktionsebene zu schreiben, die es ermöglicht, ihn mehrmals zu verwenden.

Es ist jedoch ein Gleichgewicht zwischen kurz- und langfristigen Prioritäten zu finden.

Es macht keinen Sinn, doppelt so lange zu brauchen, um ein Ad-hoc-Skript zu schreiben, das wiederverwendbar ist, wenn es keine Chance gibt, dass es jemals wieder relevant wird. Jede Minute, die damit verbracht wird, alten Code für die Wiederholung umzugestalten, ist eine Minute, die zuvor hätte gespeichert werden können.

Es lohnt sich, Best Practices für das Software-Engineering zu entwickeln, um wirklich performanten Produktionscode zu schreiben.

Versionsverwaltungstools wie Git vereinfachen die Bereitstellung und Wartung von Code erheblich. Mit Task Schedulern können Sie Routineprozesse automatisieren. Regelmäßige Codeüberprüfungen und vereinbarte Dokumentationsstandards erleichtern Ihrem zukünftigen Leben das Leben erheblich.

In jeder technischen Spezialisierung muss das Rad normalerweise nicht neu erfunden werden. Data Engineering ist keine Ausnahme. Frameworks wie Airflow machen das Planen und Überwachen von ETL-Prozessen einfacher und robuster. Für die verteilte Speicherung und Verarbeitung von Daten gibt es Apache Spark und Hadoop.

Für einen Anfänger ist es nicht unbedingt erforderlich, diese gründlich zu lernen. Ein Bewusstsein für das umgebende Ökosystem und die verfügbaren Werkzeuge ist jedoch immer von Vorteil.

Kommunizieren Sie klar

Data Science ist eine Full-Stack-Disziplin mit einem wichtigen Stakeholder-Frontend: der Berichtsebene.

Die Tatsache ist einfach - eine effektive Kommunikation bringt einen erheblichen kommerziellen Wert mit sich. Bei Data Science gibt es vier Aspekte für eine effektive Berichterstattung.

  • Richtigkeit

    Dies ist aus offensichtlichen Gründen von entscheidender Bedeutung. Die Fähigkeit hier besteht darin, zu wissen, wie Sie Ihre Ergebnisse interpretieren, während Sie sich über mögliche Einschränkungen oder Einschränkungen im Klaren sind. Es ist wichtig, die Relevanz eines bestimmten Ergebnisses nicht zu überschätzen oder zu unterschätzen.

  • Präzision

    Dies ist wichtig, da Unklarheiten in Ihrem Bericht zu einer Fehlinterpretation der Ergebnisse führen können. Dies kann später negative Folgen haben.

  • Prägnant

    Halten Sie Ihren Bericht so kurz wie möglich, aber nicht kürzer. Ein gutes Format kann einen Kontext für die Hauptfrage bieten, eine kurze Beschreibung der verfügbaren Daten enthalten und einen Überblick über die Ergebnisse und Grafiken der Überschrift geben. Zusätzliche Details können (und sollten) in einen Anhang aufgenommen werden.

  • Zugänglich

    Es besteht eine ständige Notwendigkeit, die technische Genauigkeit eines Berichts mit der Tatsache in Einklang zu bringen, dass die meisten seiner Leser Experten auf ihrem jeweiligen Gebiet sind und nicht unbedingt Datenwissenschaft. Hier gibt es keine einfache, einheitliche Antwort. Häufige Kommunikation und Rückmeldungen helfen dabei, ein angemessenes Gleichgewicht herzustellen.

Das Grafikspiel

Leistungsstarke Datenvisualisierungen helfen Ihnen dabei, komplexe Ergebnisse effektiv an Stakeholder zu kommunizieren. Ein gut gestaltetes Diagramm kann auf einen Blick zeigen, welche Textabschnitte zur Erklärung erforderlich wären.

Es gibt eine große Auswahl an kostenlosen und kostenpflichtigen Visualisierungs- und Dashboard-Erstellungstools, darunter Plotly, Tableau, Chartio, d3.js und viele andere.

Für schnelle Modelle kann man manchmal keine altmodische Tabellenkalkulationssoftware wie Excel oder Google Sheets schlagen. Diese erledigen die Arbeit nach Bedarf, obwohl die Funktionalität einer speziell entwickelten Visualisierungssoftware fehlt.

Beim Erstellen von Dashboards und Grafiken sind eine Reihe von Leitprinzipien zu berücksichtigen. Die zugrunde liegende Herausforderung besteht darin, den Informationswert der Visualisierung zu maximieren, ohne die Lesbarkeit zu beeinträchtigen.

Eine effektive Visualisierung zeigt auf einen Blick einen Überblick auf hoher Ebene. Komplexere Grafiken können für den Betrachter etwas länger dauern und sollten dementsprechend einen viel größeren Informationsgehalt bieten.

Wenn Sie immer nur ein Buch über Datenvisualisierung gelesen haben, dann Edward Tuftes Klassiker The Visual Display of Quantitative Informationist die hervorragende Wahl.

Tufte hat einen Großteil des Bereichs der Datenvisualisierung im Alleingang populär gemacht und erfunden. Weit verbreitete Begriffe wie "Chartjunk" und "Datendichte" verdanken ihren Ursprung Tuftes Arbeit. Sein Konzept des "Daten-Tinten-Verhältnisses" bleibt über 30 Jahre einflussreich.

Die Verwendung von Farbe, Layout und Interaktivität macht häufig den Unterschied zwischen einer guten und einer hochwertigen, professionellen Visualisierung aus.

Letztendlich berührt das Erstellen einer großartigen Datenvisualisierung Fähigkeiten, die häufiger mit UX und Grafikdesign verbunden sind als mit Data Science. Das Lesen dieser Themen in Ihrer Freizeit ist eine großartige Möglichkeit, ein Bewusstsein dafür zu entwickeln, was funktioniert und was nicht.

Schauen Sie sich unbedingt Websites wie bl.ocks.org an, um sich inspirieren zu lassen!

Data Science erfordert vielfältige Fähigkeiten

Es gibt vier Kernkompetenzbereiche, in denen Sie sich als angehender Datenwissenschaftler auf die Entwicklung konzentrieren sollten. Sie sind:

  • Statistiken, einschließlich der zugrunde liegenden Theorie und der realen Anwendung.
  • Programmierung in mindestens Python oder R sowie in SQL und Verwendung der Befehlszeile
  • Best Practices für das Data Engineering
  • Kommunizieren Sie Ihre Arbeit effektiv

Bonus! Lerne ständig

Wenn Sie so weit gelesen haben und sich überhaupt entmutigt fühlen - seien Sie versichert. Die Hauptkompetenz in einem so schnelllebigen Bereich ist das Lernen und Neulernen. Zweifellos werden in den kommenden Jahren neue Rahmenbedingungen, Werkzeuge und Methoden entstehen.

Die genauen Fähigkeiten, die Sie jetzt erlernen, müssen möglicherweise innerhalb von fünf bis zehn Jahren vollständig aktualisiert werden. Erwarten Sie dies. Auf diese Weise und vorbereitet können Sie durch kontinuierliches Umlernen immer einen Schritt voraus sein.

Man kann nie alles wissen, und die Wahrheit ist - niemand tut es jemals. Wenn Sie jedoch die Grundlagen beherrschen, sind Sie in der Lage, alles andere auf einer Wissensbasis zu erlernen.

Und das ist wohl der Schlüssel zum Erfolg in jeder sich schnell entwickelnden Disziplin.