Wie Sprache zu der Revolution der künstlichen Intelligenz (AI) führte
UX Corner

Wie Sprache zu der Revolution der künstlichen Intelligenz (AI) führte

Dan Rowinski •  2. Juni 2017

„Nun, wir haben etwa 10 Mal mehr Rechenleistung…“

2013 führte ich ein langes Interview mit Peter Lee, Corporate Vice President von Microsoft Research, über die Fortschritte des maschinellen Lernens und neuronaler Netzwerke und wie Sprache im Zentrum der künstlichen Intelligenz stehen wird.

Zu diesem Zeitpunkt war die Vorstellung von künstlicher Intelligenz und maschinellem Lernen noch Zukunftsmusik. Künstliche Intelligenz war etwas, das kommen würde…aber noch nicht bald.

Ich wünschte, ich hätte das Gespräch ernster genommen.

peter lee-768x855

Sprache ist und wird das wichtigste Werkzeug für den Fortschritt der künstlichen Intelligenz sein. Im Jahr 2017 treiben Maschinen, die natürliche Sprache verstehen (Natural Language Understanding Engines, NLU) den Fortschritt von Bots und sprachaktivierten persönlichen Assistenten wie Cortana von Microsoft, Assistant von Google, Alexa von Amazon und Siri von Apple voran. Sprache war der Ausgangspunkt und der Ort aller neuen Fähigkeiten maschinellen Lernens, die in den vergangenen Jahren entwickelt wurden.

Aus Sprache — sowohl geschrieben als auch gesprochen — entstand eine neue Ära der Interaktion von Mensch und Computer. Als Menschen Schwierigkeiten hatten, sich vorzustellen, was möglicherweise nach Smartphone-Apps als Höhepunkt der Nutzererfahrung kommen könnte, entwickelten Forscher die Tools für eine völlig neue Generation von Schnittstellen auf Basis der Sprache.

„Wir denken, dass mit der Zeit alles, was an Software entwickelt wird, Sprache lernen wird“, so Lili Cheng, Geschäftsführerin der Future Social Experiences (FUSE) Labs von Microsoft in einem Briefing mit Reportern in Seattle vor der Microsoft Build 2017. „Ich denke, dass sich im Laufe des Jahres in Bezug auf intelligente Gesprächsführung und Bots sehr viel getan hat.“

Der kommerzielle Durchbruch von neuronalen Netzwerken

Einer der Gründe, warum Lee und Microsoft Research sich auf Sprache konzentrieren, wenn sie maschinelles Lernen entwickeln, war, dass dies zu verschiedenen Forschungsbereichen in der künstlichen Intelligenz passt. Sprache könnte für Forscher als eine Art und Weise funktionieren, theoretische Freifeld-Versuche durchzuführen, ohne Intention für eine andere praktische Anwendung als Wissen um des Wissens willen zu erschaffen. Wie wir seither beobachten konnten, bot Sprache auch die Möglichkeit für bestimmte kommerzielle Anwendungen.

Lee sagte zu dieser Zeit:

Einmal lebten die Hoffnung und der Optimismus wieder auf, sie leben für uns wieder auf, dass es möglich sein wird, einige der am längsten bestehenden Probleme im Kernbereich der künstlichen Intelligenz zu lösen. Nämlich Maschinen dazu zu bringen, dass sie auf einem Niveau sehen und hören können und Argumente verstehen können, die menschliche Fähigkeiten verstehen und ihnen gleichkommen.

Ich denke, dass wir Ersteres beobachten können, wenn wir uns mit Sprache beschäftigen. Ich denke, dass Sprache an erster Stelle kommt, da es ein etwas simpleres Problem ist, aber eines, das kommerzielle Auswirkungen hat. Es geht also sehr schnell voran.

In Bezug auf Computer wird diese Idee angewendet, um Muster und Signale an Dingen zu finden, die jeden Tag getragen werden. Durch das Beobachten aller Instrumentierungen und den Logs der Fabriken. Durch das Beobachten der elektronischen Patientenakten, mit denen Krankenhäuser arbeiten. Diese Anwendungen sind in Bezug auf Deep Learning (tiefes Lernen) sehr beeindruckend.

Der Fokus auf Sprache hat uns einen ersten kommerziellen Vorgeschmack auf künstliche Intelligenz in der wirklichen Welt verschafft. Im Jahr 2011 fügte Microsoft zu Skype eine Übersetzungsfunktion hinzu. Virtuelle Assistenten wie Cortana, Siri, Google Assistant und Alexa schaffen neue Wege für die Interaktion von Mensch und Computer.

Und noch wichtiger, der Fokus auf Sprache (und Bilder) hat zu der Entwicklung neuronaler Netzwerke geführt, den Motoren hinter der Maschine und tiefem Lernen und zugleich Vorboten der künstlichen Intelligenz.

Wo neuronale Netze herkommen und wohin sie sich entwickeln

Das Konzept der neuronalen Netzwerke ist nicht neu.

Die Vorstellung davon existiert bereits seit mehr als 70 Jahren. Einige der ersten Versuche, Computer zu bauen, orientierten sich an dem Vorbild des menschlichen Gehirns. Aber Logik-Engines haben sich als viel effizienter erwiesen und schaffen den binären Maschinencode, der heute in jeder Software Anwendung findet. Die Vorstellung von neuronalen Netzwerken tauchte in den 1980ern wieder auf, als Forschern mit Entscheidungsalgorithmen, die sich von den String-Logik-Engines abwendeten, ein Durchbruch gelang. Das Konzept der künstlichen Intelligenz und die Forschung in diesem Bereich waren bis in die frühen 1990er Jahre angesagt, bis die Defense Advanced Research Projects Agency (DARPA), eine Behörde des Verteidigungsministeriums der Vereinigten Staaten, die Förderung von Forschung im Bereich AI einstellte und die Forscher erkannten, dass die schiere Menge an Rechenleistung, um das Konzept zu verwirklichen, einfach noch nicht existierte.

Dieser Zeitraum wird auch als der „Winter der künstlichen Intelligenz“ bezeichnet.

„Spracherkennung war einer unserer ersten Forschungsbereiche. Wir verfügen über mehr als 25 Jahre Erfahrung in diesem Bereich. In den frühen 90er Jahren hat es tatsächlich nicht funktioniert“, so Rico Malvar, anerkannter Techniker und Chefwissenschaftler für Microsoft Research in einem Briefing auf dem Microsoft Campus in Redmond. „Dann kam die Jahrtausendwende und wir kamen auf einige sehr interessante Ergebnisse. Wir erhielten erstmals Fehlerquoten unter 30%. Von 2000 bis knapp vor 2010 konnten wir kaum Fortschritte erzielen.“

microsoft research voice assistants-1024x642

2009 wird in der Community der künstlichen Intelligenz als Jahr gesehen, in dem bei Deep Learning Netzwerken tatsächlich echte Fortschritte erzielt werden konnten. Li Deng von Microsoft wendete Anwendungen für tiefes Lernen auf Sprache an und war erstaunt über die Ergebnisse. Fei Fei Li von Stanford (und nun Chefwissenschaftler bei Google) eröffnete ImageNet, ein Deep Learning-Netzwerk mit Bilderkennung.

Ab 2012 bis 2013 bildeten sich Deep Learning-Netzwerke als die Zukunft der künstlichen Intelligenz heraus. Microsoft konnte einen bahnbrechenden Durchbruch bei dem Verständnis natürlicher Sprache erringen. Google begann damit, jedes Unternehmen im Bereich künstliche Intelligenz und Robotik zu kaufen, das das Unternehmen finden konnte. Zu dieser Zeit begann Facebook damit, die massiven Datensets auf Probleme der künstlichen Intelligenz anzuwenden. 2014 wechselte der Leiter des Google Brain Projektes, Andrew Ng, zur chinesischen Suchmaschine Baidu.

Power plus Software: Die Reife neuronaler Netzwerke

Die Faktoren, die Deep Learning-Netzwerke ermöglichten, stehen mit dem Aufstieg der Rechnerstärke insgesamt in Verbindung. Die Ankunft und die Reife des Internets erforderte, dass die Berechnungsstärke massiv steigen musste. Außerhalb der Verbraucherelektronik bedeutete dies eine Expansion der Rechenzentren, um die Berechnung und das Speichern dieser massiven Datenmengen zu ermöglichen. Ein Großteil dieser Daten wird als Text und Bilder gespeichert. Das sind zufällig genau die Zutaten, die für das Training von neuronalen Netzen benötigt werden. Technikunternehmen begannen damit, große Rechenzentren zu bauen (was heute als die „Cloud“ bezeichnet wird) und haben damit mehr potenzielle Rechenkapazität geschaffen als der gegenwärtigen Nachfrage entsprechend notwendig wäre.

Es kam zu einer offensichtlichen Partnerschaft.

„Die Leute mit den tiefen neuronalen Netzwerken kommen und erfinden Dinge. Dann kommen die Sprachspezialisten und fragen ‚können wir das verwenden‘“, so Malvar. „‚Das wird aber zehnmal so viel Rechenkapazität benötigen‘ … naja, wir haben eigentlich zehnmal mehr Kapazität.“

Die Genauigkeit für Sprach-, Text-, und Bilderkennung wurde sehr viel besser. Sowohl Google als auch Microsoft brüsten sich mit einer Genauigkeit von 4,9% und 5,9%, was dem Niveau der menschlichen Fähigkeit entspricht.

rico malvar fpga-1024x698

Die Verbindung von neuronalen Netzwerken mit den enormen Rechenkapazitäten der Cloud kann zu erstaunlichen Ergebnissen führen. Microsoft hat beispielsweise die Rechenkapazität seiner Cloud Azure erweitert, indem „Field Programmable Gate Arrays“, sogenannte FPGAs, hinzugefügt wurden. Dabei handelt es sich im Grunde um leistungsfähige Chips für das maschinelle Lernen, die direkt in den Servern integriert sind. Gegenwärtig ist die Verbindung von Cloud und neuronaler Netzwerke bei Microsoft so stark, dass die gesamte Enzyklopädie Wikipedia in einer Zehntelsekunde von Englisch in Spanisch übersetzt werden kann.

Das ist die unmittelbare Zukunft für Deep Learning Netzwerke und Netzwerke für maschinelles Lernen. Rahmenwerke wie TensorFlow von Google, CNTK von Microsoft, Caffe2 von Facebook oder Torch und Theano werden immer ausgefeilter, da rekurrente neuronale Netze und Convolutional Neural Networks reifen. Die Cloud wird mit neuen Rechenzentren weiter wachsen und immer größere Datenmengen verarbeiten können, dem Moorschen Gesetz entsprechend wird Beschleunigungs-Hardware wie GPUs, FPGAs und die Tensor Procession Unit (TPU) von Google entwickelt.

Praktische Anwendung: Auf einem Computer in Ihrer Nähe

Stellen Sie sich vor, Sie wären beim Zahnarzt. Das erste, was ein Zahnarzt macht, wenn ein Patient hereinkommt, ist ein Röntgenbild der Zähne, um Karies erkennen zu können. Wenn ein Zahnarzt entsprechend typisch amerikanischer Arbeitszeiten arbeitet, wird er ca. 224 Tage im Jahr arbeiten. Wenn er täglich sechs Patienten behandelt und bei allen ein Röntgen durchführt, wird er ca. 1.342 Röntgenbilder im Jahr betrachten. Im Laufe von 20 Jahren sind das 26.850 Röntgenbilder von Zähnen.

Zwanzig Jahre und 26.850 Röntgenbilder bilden die Summe des Wissens eines Menschenlebens, die meiste Erfahrung, die ein Zahnarzt haben kann. Es gibt 1,8 Millionen Zahnärzte auf der Welt. Wenn jeder von ihnen die typische Anzahl von Röntgenbildern ansieht, sind das 48,33 Milliarden Bilder in 20 Jahren.

Und die heutigen neuronalen Netzwerke würden Stunden brauchen, um all diese 48,33 Milliarden Bilder einzuspeisen und könnten sie in Sekunden verarbeiten.

Das Gesundheitswesen ist eine der offensichtlichen Branchen für die Fortschritte bei maschinellem Lernen. Die Arbeit eines Arztes beruht oft auf Bildern wie MRI, Röntgenbildern, CT-Aufnahmen etc. Ein Arzt hat nur begrenzte Kapazitäten. Neuronale Netzwerke hingegen können so geschult werden, dass sie Bilder erkennen, Muster formen und analytische Schlüsse ziehen können, die die Gesamtheit des menschlichen Wissens zur Basis haben. Neuronale Netzwerke können die Routine- und Ratearbeit erledigen und die Arbeit von Menschen einfacher und effizienter machen.

Seit Beginn der Menschheitsgeschichte ist das die Grundaufgabe von Technik: die Arbeit von Menschen effizienter zu machen. Ist es beschwerlich, ein Feld mit der Hand zu beackern? Wie wäre es mit einem Pflug? Ist es schwer, all diese Steine vom Steinbruch in die Stadt zu schleppen? Versuche es doch mit Rädern. Das Pferd ist bockig und langsam? Diese Dampfmaschine schafft Abhilfe. Logische Berechnungen mit der Hand sind schwierig? Ich hätte da einen Computer.

google io 2017 future of ai-1024x747

Die Datenmenge kann nicht mehr manuell organisiert und verstanden werden? Starten wir das neuronale Netzwerk. Die Antwort auf die Anhäufung, das Verständnis, die Analyse und die Prognose aller menschlichen Daten, allen Wissens und allen Verhaltens wird die Reife neuronaler Netzwerke sein.

Es ist schwierig, sich des gesamten Umfangs von maschinellem Lernen bewusst zu werden. Denken Sie nur daran, dass fast das gesamte menschliche Verhalten gegenwärtig mittels Smartphones, dem Internet, Kameras und Sensoren verfolgt, gezählt und digitalisiert werden kann. Wohin Sie gehen, wie Sie dorthin gelangen, was Sie essen, wie Sie Geld ausgeben, wie unsere Branche funktioniert, all die Daten aus Ihrer Umgebung…alles. Die Maschinen der Technologiebranche werden ihre neuronalen Netzwerke bald einsetzen.