Sie werden zufällig technische Interviews bombardieren. Jeder tut es. Hier sind die Daten.

Wenn Sie Tag für Tag Hunderte von technischen Interviews anhören, bemerken Sie Muster. Oder in diesem Fall ein Mangel an Mustern.

Ich habe jedoch eine Sache gefunden, die ziemlich konsistent ist, und sie als Grundlage für ein Trinkspiel verwendet:

  • Jedes Mal, wenn jemand denkt, die Antwort auf eine Interviewfrage sei ein Hash-Tisch, trinke etwas.
  • Und jedes Mal, wenn die Antwort tatsächlich Hash-Tisch ist, nehmen Sie zwei Getränke.

Aber versuchen Sie dieses Spiel nicht. Ich bin fast gestorben, als ich es gespielt habe.

Der Grund, warum ich meine Tage damit verbringe, technische Interviews zu hören, ist, dass ich vor ein paar Jahren interviewing.io mitbegründet habe, eine Interviewplattform, auf der Menschen anonym technische Interviews üben und dabei Arbeit finden können.

Infolgedessen habe ich Zugriff auf eine Vielzahl von Daten darüber, wie dieselben Personen von Interview zu Interview abschneiden. Und ich habe so viel Volatilität entdeckt, dass ich die Zuverlässigkeit der Ergebnisse einzelner Interviews insgesamt in Frage stelle.

Wie wir all diese Daten bekommen haben

Wenn ein Interviewer und ein Interviewter auf unserer Plattform übereinstimmen, treffen sie sich in einer kollaborativen Codierungsumgebung mit Sprache, Text-Chat und einem Whiteboard und springen direkt in eine technische Frage.

Interviewfragen auf der Plattform fallen in der Regel in die Kategorie, die Sie auf einem Telefonbildschirm für eine Back-End-Softwareentwicklungsrolle finden würden. Interviewer kommen in der Regel aus einer Mischung großer Unternehmen wie Google, Facebook und Yelp sowie aus technisch orientierten Startups wie Asana, Mattermark, KeepSafe und anderen.

Nach jedem Interview bewerten die Interviewer die Befragten in verschiedenen Dimensionen, einschließlich der technischen Fähigkeiten. Die technischen Fähigkeiten werden auf einer Skala von 1 bis 4 bewertet, wobei 1 "meh" und 4 "erstaunlich" ist. Auf unserer Plattform bedeutet eine Punktzahl von 3 oder höher im Allgemeinen, dass die Person gut genug war, um vorwärts zu kommen.

An diesem Punkt könnte man sagen, das ist schön und alles, aber was ist die große Sache? Viele Unternehmen sammeln diese Art von Daten im Rahmen ihrer eigenen Pipelines.

Das Besondere an unseren Daten ist, dass ein und derselbe Befragte mehrere Interviews durchführen kann, von denen jedes mit einem anderen Interviewer und / oder einem anderen Unternehmen durchgeführt wird. Dies öffnet die Tür für eine ziemlich interessante und etwas kontrollierte vergleichende Analyse.

Ergebnis Nr. 1: Ihre Leistung von Interview zu Interview ist volatil

Beginnen wir mit einigen Bildern. In der folgenden Grafik repräsentiert jedes Personensymbol die durchschnittliche technische Punktzahl für einen einzelnen Befragten, der zwei oder mehr Interviews auf der Plattform durchgeführt hat.

Eine Sache, die wir in dieser Grafik nicht zeigen, ist der Zeitablauf, sodass Sie die Leistung der Menschen im Laufe der Zeit sehen können. Es ist eine Art heißes Durcheinander.

Die y-Achse ist die Standardabweichung der Leistung. Je höher Sie steigen, desto volatiler wird die Interviewleistung.

Wie Sie sehen können, sind ungefähr 25% der Befragten in ihrer Leistung konsistent, und der Rest ist überall.

Wenn Sie sich die Grafik oben ansehen, können Sie trotz des Rauschens wahrscheinlich einige Vermutungen anstellen, welche Personen Sie interviewen möchten.

Aber denken Sie daran, dass jeder einen Mittelwert darstellt . Stellen wir uns vor, Sie müssten stattdessen eine Entscheidung treffen, die auf nur einem Datenpunkt basiert. Dort wird es schwierig.

Um diesen Punkt wirklich nach Hause zu bringen, sollten Sie die wirklich coole interaktive Version dieses Diagramms besuchen. Dort können Sie die Leistung aller erweitern und sehen, wie sich jede Person in jedem Interview geschlagen hat. Die Ergebnisse könnten Sie überraschen! Zum Beispiel:

  • Viele Leute, die mindestens eine 4 erzielten, erzielten auch mindestens eine 2.
  • Wenn wir uns Leistungsträger ansehen (Mittelwert von 3,3 oder höher), sehen wir immer noch einiges an Variationen.
  • Wenn wir „durchschnittliche“ Darsteller betrachten (Mittelwert zwischen 2,6 und 3,3), wird es wirklich trübe.

? Besuchen Sie die wirklich coole interaktive Visualisierung?

Wir waren neugierig zu sehen, ob die Volatilität überhaupt mit den Durchschnittswerten der Menschen variiert. Mit anderen Worten, waren schwächere Spieler volatiler als starke? Die Antwort ist nein. Wenn wir eine Regression der Standardabweichung gegenüber dem Mittelwert durchgeführt haben, konnten wir keine aussagekräftige Beziehung (R-Quadrat ~ = 0,03) finden, was bedeutet, dass die Menschen überall sind - unabhängig davon, wie stark sie im Durchschnitt sind.

Wenn ich mir diese Daten ansah und dann so tat, als müsste ich eine Einstellungsentscheidung auf der Grundlage eines Interviewergebnisses treffen, fühlte ich mich, als würde ich durch ein Schlüsselloch in ein schönes, verschwenderisch eingerichtetes Wohnzimmer blicken. Manchmal sieht man ein Kunstwerk an der Wand, manchmal sieht man die Auswahl an Spirituosen und manchmal sieht man nur die Rückseite einer Couch.

Wenn Sie also in einer realen Lebenssituation entscheiden, ob Sie jemanden vor Ort befördern möchten, versuchen Sie wahrscheinlich, zwei Dinge zu vermeiden: falsch positive (versehentlich Leute unter Ihre Latte bringen) und falsch negative (Leute ablehnen) wer hätte es schaffen sollen).

Das Interview-Paradigma der meisten Top-Unternehmen lautet, dass falsch negative Ergebnisse weniger schlecht sind als falsch positive. Das macht doch Sinn, oder? Mit einer ausreichend großen Pipeline und genügend Ressourcen erhalten Sie auch bei einer hohen Falsch-Negativ-Rate immer noch die gewünschten Personen.

Mit einer hohen Falsch-Positiv-Rate erhalten Sie möglicherweise günstigere Einstellungen, verursachen jedoch möglicherweise irreversiblen Schaden an Ihrem Produkt, Ihrer Kultur und zukünftigen Einstellungsstandards. Und natürlich sind die Unternehmen, die die Einstellungsstandards und -praktiken für eine ganze Branche festlegen, diejenigen mit den großen Pipelines und scheinbar unerschöpflichen Ressourcen.

Die Schattenseite der Optimierung für hohe Falsch-Negativ-Raten zeigt sich jedoch in Form unserer aktuellen Krise bei der Einstellung von Ingenieuren. Geben einzelne Interviewinstanzen in ihrer aktuellen Inkarnation genug Signal? Oder lehnen wir bei so großer Nachfrage nach Talenten qualifizierte Leute ab, weil wir alle einen großen, flüchtigen Graphen durch ein winziges Schlüsselloch betrachten?

Abgesehen von der hyperbolischen Moralisierung, wie hoch ist die Wahrscheinlichkeit, dass ein guter Kandidat einen einzelnen Telefonbildschirm nicht besteht, wenn man bedenkt, wie volatil die Interviewleistung ist?

Ergebnis Nr. 2: Ihre Wahrscheinlichkeit, ein einzelnes Interview aufgrund der Leistung in der Vergangenheit nicht zu bestehen

Unten sehen Sie die Verteilung der Durchschnittsleistung in unserer Befragtenpopulation.

Um herauszufinden, mit welcher Wahrscheinlichkeit ein Kandidat mit einer bestimmten Durchschnittspunktzahl ein Interview nicht bestehen würde, mussten wir einige Statistiken erstellen.

Zunächst haben wir die Befragten anhand ihrer Durchschnittswerte (auf 0,25 gerundet) in Kohorten aufgeteilt. Dann berechneten wir für jede Kohorte die Wahrscheinlichkeit eines Versagens, dh eine Punktzahl von 2 oder weniger. Um zu umgehen, dass unser Startdatensatz nicht riesig ist, haben wir unsere Daten erneut abgetastet.

In unserem Resampling-Verfahren haben wir ein Interviewergebnis als multinomiale Verteilung behandelt. Mit anderen Worten, wir gaben vor, dass jedes Interview eine Rolle eines gewichteten, vierseitigen Würfels war, der der Kohorte dieses Kandidaten entsprach.

Anschließend haben wir die Würfel einige Male neu gewürfelt, um für jede Kohorte einen neuen, „simulierten“ Datensatz zu erstellen, und anhand dieser Datensätze neue Ausfallwahrscheinlichkeiten für jede Kohorte berechnet. Unten sehen Sie die Ergebnisse der 10.000-fachen Wiederholung dieses Vorgangs:

Wie Sie sehen können, überlappen sich viele der oben genannten Verteilungen. Dies ist wichtig, da diese Überlappungen darauf hinweisen, dass zwischen diesen Gruppen möglicherweise keine statistisch signifikanten Unterschiede bestehen (z. B. zwischen 2,75 und 3).

Mit dem Aufkommen von viel mehr Daten können die Abgrenzungen zwischen Kohorten sicherlich klarer werden. Wenn wir jedoch eine große Datenmenge benötigen, um Unterschiede in der Ausfallrate zu erkennen, könnte dies darauf hindeuten, dass die Leistung der Mitarbeiter von Natur aus sehr unterschiedlich ist.

Obwohl wir zuversichtlich sagen können, dass es einen signifikanten Unterschied zwischen dem unteren Ende des Spektrums (2,25) und dem oberen Ende (3,75) gibt, sind die Dinge für Menschen in der Mitte trübe.

Trotzdem haben wir mit diesen Verteilungen versucht, die Wahrscheinlichkeit zu berechnen, dass ein Kandidat mit einem bestimmten Mittelwert ein einzelnes Interview nicht bestehen würde:

Die Tatsache, dass Leute, die insgesamt ziemlich stark sind (z. B. Mittelwert ~ = 3), technische Interviews in 22% der Fälle durcheinander bringen können, zeigt, dass es definitiv Raum für Verbesserungen im Prozess gibt. Und dies wird durch die allgemeine Dunkelheit in der Mitte des Spektrums noch verstärkt.

Ist das Interview also zum Scheitern verurteilt?

Wenn wir an Interviews denken, denken wir im Allgemeinen an etwas, das wiederholbare Ergebnisse haben und ein starkes Signal tragen sollte. Die von uns gesammelten Daten erzählen jedoch eine andere Geschichte.

Und diese Geschichte spiegelt sich sowohl in meiner anekdotischen Erfahrung als Personalvermittler als auch in den Gefühlen wider, die wir in der Community gesehen haben.

Zach Holmans Startup-Interview ist ein F ***** - Treffer bei der Trennung zwischen dem Interviewprozess und dem Job, den es besetzen soll.

Die feinen Herren von TripleByte kamen zu ähnlichen Ergebnissen, indem sie ihre eigenen Daten betrachteten.

Einer der ergreifenderen Ausdrücke inkonsistenter Befragungsergebnisse stammte kürzlich von reverse.us.

Sie können darauf wetten, dass viele Leute, die nach einem Telefonbildschirm von Unternehmen A abgelehnt werden - aber auf einem anderen Telefonbildschirm besser abschneiden und letztendlich an einem traditionell seriösen Ort landen - 6 Monate später von den Personalvermittlern von Unternehmen A getroffen werden.

Und trotz aller Bemühungen schreitet der trübe, flüchtige und letztendlich stochastische Massagekreis eines Rekrutierungsprozesses voran.

Ja, es ist sicherlich eine mögliche Schlussfolgerung, dass technische Interviews selbst tatsächlich zum Scheitern verurteilt sind und kein verlässliches, deterministisches Signal für eine Interviewinstanz liefern. Algorithmische Interviews sind ein heiß diskutiertes Thema und wir sind sehr daran interessiert, sie auseinander zu ziehen.

Eine Sache, über die wir uns besonders freuen, ist die Verfolgung der Interviewleistung als Funktion des Interviewtyps, da auf der Plattform immer mehr verschiedene Interviewtypen / -ansätze stattfinden. In der Tat ist es eines unserer langfristigen Ziele, unsere Daten wirklich zu untersuchen, die Landschaft verschiedener Interviewstile zu betrachten und einige ernsthafte datengesteuerte Aussagen darüber zu treffen, welche Arten von technischen Interviews zum höchsten Signal führen.

In der Zwischenzeit neige ich jedoch zu der Idee, dass es viel sinnvoller ist, auf die Gesamtleistung zurückzugreifen, als eine so wichtige Entscheidung auf der Grundlage eines einzigen, willkürlichen Interviews zu treffen.

Aggregative Leistung kann nicht nur dazu beitragen, eine ungewöhnlich schlechte Leistung zu korrigieren, sondern auch Menschen ausmerzen, die in einem Interview zufällig gut abschneiden, oder solche, die sich im Laufe der Zeit dem Biest unterwerfen und sich Cracking the Coding Interview merken .

Ich weiß, dass es nicht immer praktisch (oder möglich) ist, aggregierte Leistungsdaten in freier Wildbahn zu sammeln. Nehmen wir jedoch an, die Leistung eines Kandidaten ist grenzwertig - oder wo seine Leistung stark von den Erwartungen abweicht. Es könnte sinnvoll sein, sie noch einmal zu interviewen und sich auf anderes Material zu konzentrieren, bevor Sie die endgültige Entscheidung treffen.

Wir haben eine Tonne mehr Interviewleistungsdaten gesammelt, die noch nicht in dieser Analyse enthalten sind. Wenn Sie also neugierig sind, ob die Interviewleistung noch willkürlich ist, bleiben Sie dran!

Möchten Sie bei technischen Interviews großartig werden und Ihren nächsten Job in diesem Prozess bekommen? Mach mit bei interviewing.io.