„Künstliche Intelligenz ist wie ein dreijähriges Kind“

Ein Interview von Jörg Breithut

Microsoft-Entwickler über Apps für Blinde

„Seeing AI“ soll Blinden und Sehbehinderten den Alltag erleichtern. Nun
gibt es die Microsoft-App auch auf Deutsch. Wir fragen ihren
Chefentwickler Saqib Shaikh nach den Grenzen der Technik.

Das Smartphone liest Rezepte vor, beschreibt Urlaubsfotos und erkennt
Freunde auf Partys: Mit der iPhone-Anwendung „Seeing AI“ hat Microsoft
vor zwei Jahren einen digitalen Begleiter für Menschen mit visuellen
Einschränkungen veröffentlicht. Seit dem heutigen Dienstag gibt es die
App zusätzlich zur englischen Version auch auf Französisch, Spanisch,
Niederländisch, Japanisch und Deutsch.

Im Gespräch mit dem SPIEGEL erklärt Saqib Shaikh, Chefentwickler der App
bei Microsoft, welche neuen Funktionen der Anwendung die künstliche
Intelligenz (KI) erst ermöglicht hat. Er spricht über seine Vision von
digitalen Begleitern für sehbehinderte und blinde Menschen, aber auch
über die Probleme, vor denen die Entwickler stehen und warum man für die
Technologie viel Geduld mitbringen muss.

SPIEGEL: Herr Shaikh, vor 15 Jahren hatten Sie zum ersten Mal die Idee,
einen digitalen Begleiter für Menschen mit einer Sehbehinderung zu
entwickeln. Ist künstliche Intelligenz die Technologie, auf die Sie
schon immer gewartet haben?

Saqib Shaikh: Wir haben riesige Fortschritte gemacht bei der Forschung
mit künstlicher Intelligenz. Aber wir sind noch viele Jahre davon
entfernt, dass Computer sich umschauen und alles verstehen, was sie
sehen. Ich bin selbst blind und gehe daher gerne mit meiner Frau und
meinen Freunden spazieren. Wir diskutieren dann darüber, was sie
unterwegs sehen. Sie sagen mir dann, wenn sie etwas Spannendes
entdecken, oder ich frage nach, wenn ich ein Geräusch nicht zuordnen
kann. Ich wünsche mir, dass eine KI genau das eines Tages übernehmen
kann. Wie ein persönlicher Assistent.

SPIEGEL: Wie lange müssen wir denn noch warten, bis digitale Helfer
einen menschlichen Begleiter ersetzen?

Saqib Shaikh: Es ist sehr schwierig, in die Zukunft zu blicken. Ich kann
nur wild spekulieren. Ich weiß nicht, ob es noch zwei, drei, vier oder
fünf Jahre dauern wird. Es passiert so viel auf dem Gebiet. Jedes Jahr
gibt es einerseits so viele Fortschritte, andererseits stoßen wir aber
auch auf extrem große Herausforderungen. Es ist beispielsweise immer
noch sehr schwierig für eine KI zu erkennen, was genau Menschen in einer
bestimmten Situation gerade machen.

SPIEGEL: Was kann KI denn schon richtig gut?

Saqib Shaikh: In den vergangenen Jahren haben Computer wahnsinnig
schnell gelernt, klar definierte Aufgaben von Menschen zu übernehmen.
Vor allem Bilder und Sprache erkennen sie immer besser. Auf diesen
Gebieten ist künstliche Intelligenz am weitesten fortgeschritten. Dank
dieser Technik kann man mit „Seeing AI“ beispielsweise Fotos ertasten.
Der Anwender berührt dafür das Display seines Smartphones, um zu
erfahren, ob Text, ein Gesicht oder ein anderes Objekt unter dem Finger
zu sehen ist.

SPIEGEL: Die Texterkennung von „Seeing AI“ funktioniert ziemlich gut.
Aber die Szenenerkennung ist noch extrem fehlerhaft. Kinderrutschen
verwechselt die App mit Hydranten, runde Fenster werden als
Stoppschilder interpretiert und aus Steinbänken werden Grabsteine. Was
ist so schwierig daran, Objekte zu erkennen?

Saqib Shaikh: Künstliche Intelligenz kann man sich wie ein dreijähriges
Kind vorstellen. Man zeigt ihm viele Bilder und erklärt ihm: „Das ist
ein Auto. Das ist ein Baum. Das ist ein Hund.“ Am Anfang erkennt das
Kind nur Dinge, die es bereits gesehen hat. Dann fängt es an, diese
Dinge in Sätzen zu beschreiben. Wie ein Kind wird auch die künstliche
Intelligenz mit der Zeit besser. Wissenschaftler arbeiten zudem daran,
dass die Trainingsmethoden immer besser werden.

SPIEGEL: Es ist eine ziemlich große Verantwortung, Blinde und
Sehbehinderte mit einer App durch die Welt zu lotsen.

Saqib Shaikh: Ja. Aber es ist ein Forschungsprojekt. Viele Funktionen
sind immer noch sehr experimentell. Dennoch wollen wir den Nutzern die
Möglichkeit geben, möglichst früh bei neu entwickelten
Microsoft-Technologien mitzumachen. Wir profitieren davon, dass die
Nutzer uns mitteilen, was sie von den Funktionen halten. Wir entwickeln
die App zusammen mit unseren Kunden.

SPIEGEL: Stört es die Nutzer, dass die App immer wieder Fehler macht?

Saqib Shaikh: Für einige muss es gar nicht perfekt sein. Ein Nutzer hat
mir etwa erzählt, dass er Urlaubsfotos an seine Familie zuhause schicken
wollte. Auch wenn die App nicht alles genau erkannt hat, konnte er
zumindest die Fotos unterscheiden und die richtigen Bilder auswählen.
Ein anderer hat mir erzählt, dass er die Umgebung scannt, um zu sehen,
ob sich ein Foto für Facebook anbietet. Dafür reichte ihm eine grobe
Beschreibung der App. Ein anderer hat uns berichtet, dass er mit der App
den Fernseher bei Football-Spielen abfilmt, um das Ergebnis zu erfahren.
Der Kommentator hatte den Zwischenstand zu selten erwähnt. Andere
scannen Getränkedosen, um eine Cola von einer Diät-Cola zu
unterscheiden. Alle diese Kleinigkeiten machen die App zu einem
nützlichen Begleiter.

SPIEGEL: Unternehmen wie Google und Facebook machen viel Wirbel um ihre
KI-Forschungen, gewinnen Duelle gegen Go-Champions und besiegen
professionelle Pokerspieler. Was macht Microsoft im Wettstreit um die
KI-Vormachtstellung?

Saqib Shaikh: Wir sehen bei KI sehr viel Potenzial, um mit „Seeing AI“
vor allem das Leben von Menschen mit Sehbehinderung zu verbessern. Aber
unsere Kollegen entwickeln zum Beispiel auch Tools für Schwerhörige, um
Untertitel in Echtzeit anzuzeigen. Außerdem gibt es zahlreiche andere
Beispiele wie „Eye Gaze“, womit man allein mit Augenbewegungen einen
Windows-PC steuern kann.

Quelle:
https://www.spiegel.de/netzwelt/apps/seeing-ai-microsoft-app-fuer-blinde-jetzt-auch-auf-deutsch-a-1299254.html