Chihuahua oder Muffin? Meine Suche nach der besten Computer Vision API

Dieses beliebte Internet-Mem zeigt die alarmierende Ähnlichkeit zwischen Chihuahua und Muffins. Diese Bilder werden häufig in Präsentationen in der Branche der künstlichen Intelligenz (KI) geteilt (ich selbst eingeschlossen).

Aber eine Frage, die ich noch nicht beantwortet habe, ist, wie gut IS moderne KI darin ist, die Unsicherheit eines Bildes zu beseitigen, das einem Chihuahua oder einem Muffin ähneln könnte. Zu Ihrer Unterhaltung und Ausbildung werde ich diese Frage heute untersuchen.

Seit der Erfindung des Perzeptron-Algorithmus im Jahr 1957 war eine binäre Klassifizierung möglich. Wenn Sie glauben, dass die KI jetzt hochgespielt ist, berichtete die New York Times 1958, dass die Erfindung der Beginn eines Computers war, der „laufen, sprechen, sehen, sehen kann, schreibe, reproduziere dich selbst und sei dir seiner Existenz bewusst. “ Während Perzeptronmaschinen wie die Mark 1 für die Bilderkennung konzipiert wurden, können sie in Wirklichkeit nur Muster erkennen, die linear trennbar sind. Dies verhindert, dass sie die komplexen Muster lernen, die in den meisten visuellen Medien zu finden sind.

Kein Wunder, dass die Welt desillusioniert war und ein KI-Winter folgte. Seitdem haben mehrschichtige Wahrnehmungen (in den 1980er Jahren populär) und Faltungs-Neuronale Netze (1998 von Yann LeCun entwickelt) die einschichtigen Wahrnehmungen bei Bilderkennungsaufgaben deutlich übertroffen.

Mit großen beschrifteten Datensätzen wie ImageNet und leistungsstarkem GPU-Computing haben fortschrittlichere neuronale Netzwerkarchitekturen wie AlexNet, VGG, Inception und ResNet eine Leistung auf dem neuesten Stand der Computer Vision erzielt.

APIs für Computer Vision und Bilderkennung

Wenn Sie ein Ingenieur für maschinelles Lernen sind, ist es einfach, mit diesen Modellen zu experimentieren und sie zu optimieren, indem Sie vorab trainierte Modelle und Gewichte in Keras / Tensorflow oder PyTorch verwenden. Wenn Sie es nicht mögen, neuronale Netze selbst zu optimieren, haben Sie Glück. Nahezu alle führenden Technologiegiganten und vielversprechenden Startups behaupten, die KI zu demokratisieren, indem sie benutzerfreundliche Computer-Vision-APIs anbieten.

Welches ist das beste? Um diese Frage zu beantworten, müssen Sie Ihre Geschäftsziele, Produktanwendungsfälle, Testdatensätze und Erfolgsmetriken klar definieren, bevor Sie die Lösungen miteinander vergleichen können.

Anstelle einer ernsthaften Untersuchung können wir zumindest ein umfassendes Gefühl für die unterschiedlichen Verhaltensweisen jeder Plattform bekommen, indem wir sie mit unserem Spielzeugproblem testen, einen Chihuahua von einem Muffin zu unterscheiden.

Test durchführen

Dazu habe ich das kanonische Mem in 16 Testbilder aufgeteilt. Dann verwende ich Open Source Code, der von Ingenieur Gaurav Oberoi geschrieben wurde, um die Ergebnisse der verschiedenen APIs zu konsolidieren. Jedes Bild wird durch die sechs oben aufgeführten APIs geleitet, die als Vorhersagen Labels mit hoher Zuverlässigkeit zurückgeben. Ausnahmen bilden Microsoft, das sowohl Labels als auch eine Beschriftung zurückgibt, und Cloudsight, das mithilfe der Human-AI-Hybridtechnologie nur eine einzige Beschriftung zurückgibt. Aus diesem Grund kann Cloudsight unheimlich genaue Untertitel für komplexe Bilder zurückgeben, die Verarbeitung dauert jedoch 10 bis 20 Mal länger.

Unten finden Sie ein Beispiel für die Ausgabe. Klicken Sie hier, um die Ergebnisse aller 16 Chihuahua- und Muffin-Bilder anzuzeigen.

Wie gut haben sich die APIs entwickelt? Mit Ausnahme von Microsoft, das dieses Muffin für ein Stofftier verwechselte, erkannte jede andere API, dass es sich bei dem Bild um Lebensmittel handelte. Es gab jedoch keine Einigung darüber, ob es sich bei dem Essen um Brot, Kuchen, Kekse oder Muffins handelte. Google war die einzige API, die Muffin erfolgreich als das wahrscheinlichste Etikett identifizierte.

Schauen wir uns ein Chihuahua-Beispiel an.

Auch hier haben sich die APIs recht gut geschlagen. Alle erkannten, dass das Bild ein Hund ist, obwohl einige von ihnen die genaue Rasse verfehlten.

Es gab jedoch definitiv Fehler. Microsoft gab drei Mal eine offensichtlich falsche Beschriftung zurück und beschrieb den Muffin entweder als Stofftier oder als Teddybär.

Google war die ultimative Muffin-Kennung und gab "Muffin" als höchste Konfidenzmarke für 6 der 7 Muffin-Bilder im Test-Set zurück. Die anderen APIs gaben nicht "Muffin" als erstes Etikett für ein Muffinbild zurück, sondern weniger relevante Etiketten wie "Brot", "Keks" oder "Cupcake".

Trotz seiner zahlreichen Erfolge ist Google bei diesem speziellen Muffin-Bild gescheitert und hat als Vorhersagen "Schnauze" und "Hunderassengruppe" zurückgegeben.

Selbst die fortschrittlichsten Plattformen für maschinelles Lernen der Welt werden von unserer scherzhaften Herausforderung zwischen Chihuahua und Muffin gestolpert. Ein menschliches Kleinkind schlägt tiefes Lernen, wenn es darum geht herauszufinden, was Essen und was Fido ist.

Welche Computer Vision API ist die beste?

Um die Antwort auf dieses schwer fassbare Rätsel herauszufinden, müssen Sie zu TOPBOTS gehen, um den Originalartikel vollständig zu lesen!