Online-Fachhandel für Industriekunden, Gewerbekunden und öffentliche Einrichtungen - Kein Verkauf an Privatkunden

Deep Learning – wenn Maschinen lernen zu lernen

In Bezug auf die Künstliche Intelligenz ist „Deep Learning“ gerade der Rekordbrecher an erster Stelle. Forscher kombinierten dazu ein eigentlich veraltetes Verfahren mit einer enormen Menge an Daten. Als eine Art Experiment aufgezogen nahmen sich IT-Forscher die Google-Datenbanken von YouTube vor und zogen daraus 10 Mio. Bilder. Diese wurden an das sog. „Google Brain“ übergeben, was nichts anderes ist als ein Netzwerk aus etwa 1000 Computern. Die Aufgabe des Google-Brains war dabei, die Bilder zu analysieren und Gemeinsamkeiten festzustellen. Nach 72h voller Analysen und Berechnungen kam es zu einem erkennbaren Muster, das sich in Kategorien einteilen ließ. Das Ergebnis dessen waren 3 Gruppen: Menschliche Gesichter, menschliche Körper und Katzen.

Der Schluss, der sich aus diesem Ergebnis ziehen ließ, war der, dass Deep Learning „zurück“ ist. Die Verfahrensweise ist zwar schon gute 30 Jahre alt, jedoch soll in Kombination mit riesigen Datenmengen und noch größerer Rechenleistung das geschafft werden, woran viele Ansätze scheitern: Sprache verstehen, undefinierte Probleme lösen und Gesichter erkennen.

Ein Rechennetzwerk für Deep Learning ist wie ein neuronales Netz zu verstehen. Die Rechenverfahren lassen sich grob mit dem Vorgehen eines Gehirns vergleichen. Einzelne Rechner sind dabei die Nerven- & Gehirnzellen, die Gesamtheit davon ergibt ein eigenständig „denkendes“ Netzwerk.
Das Google Brain übertraf mit einer Million simulierten Neuronen und einer Milliarde simulierten Synapsen jedes bisherige KI-Netzwerk um mehr als das zehnfache.

 

Deep Learning wird für viele attraktiv

Schon in den 50er Jahren, also in den ersten Generationen von Computern, sahen KI-Forscher schon eine große Zukunft für eigenständig denkende bzw. intelligente Computer. Diese Euphorie verflog jedoch so schnell, wie sie gekommen war, als klar wurde, wie kompliziert es ist, einem Computer ein Menschliches Denkvermögen und Wissen beizubringen. Besonders Aufgaben, die unter die Wahrnehmung fallen, gestalteten sich äußerst schwierig. Wie konnte man einem Computer beibringen, ein Menschliches Gesicht zu erkennen? Und wie ließ sich das weiter ausbauen, damit zwischen einem Affengesicht oder einer Maske unterschieden werden kann?
Massen von Entwicklern und Programmierern saßen mehrere Jahre daran, manuell Regeln für Merkmale auszudenken, bis man sich fragte, ob es nicht einen besseren Weg gäbe, Computern das Lernen beizubringen.

Erste „neuronale“-Netze in mehreren Ebenen

Ab 1980 optimierte sich das Lernverfahren der Computer, indem sie in einem Netzwerk zusammengeschlossen wurden, um den Austausch von verschiedenen erlangten Informationen zu ermöglichen. Über diesen Weg konnte die Lerngeschwindigkeit schneller und effizienter gestaltet werden. Die optimierte Vorgehensweise gestaltete sich so, dass zu erkennende Objekte in mehrere Ebenen aufgeteilt wurden, damit jeder Computer mit weniger Attributen beschäftigt ist, und diese schneller erkennen kann. Wenn beispielsweise ein Bild erkannt werden soll, wird dieses in mehrere Arbeitsebenen aufgeteilt. Auf der ersten Ebene wird zwischen horizontalen und vertikalen Linien differenziert. In weiteren Ebenen wird der Unterschied zwischen hellen und dunklen Pixeln erkannt, oder dass einzelne Pixel mit einer horizontalen oder vertikalen Linie verbunden sind. Dieses Vorgehen zieht sich durch so viele Ebenen, bis schließlich erkannt wird, welche Pixel ein Auge bilden und wie der Rest des zu analysierenden Gesichts aufgebaut ist. Weiterführend beinhaltet dieser Prozess, ein bestimmtes Gesicht unter verschiedenen Bedingungen (Lichtverhältnisse, Mimik etc.) zu erkennen.

Die ersten entwickelten Deep-Learning Programme waren leider ineffizienter als ein künstliches neuronales Netz, worüber hinaus auch das Problem bestand, dass die Netzwerke konstant mit Daten gefüttert werden mussten. Für damalige Verhältnisse benötigte ein Deep Learning Netzwerk Unmengen von digitalisiertem Material, was schlicht Mangelware war. Zudem waren die Rechner, die mit dem digitalen Material gefüttert wurden, mit ihrer Aufgabe maßlos überfordert.
Deep Learning war in den 80ern ein großer Traum, beschränkt durch Rechenleistung, „schlechter“ Programmierung und mangelnden digitalen Daten. Zudem gab es keinen spezifischen Anwendungsbereich auf den man sich konzentrierte, wodurch die Entwicklung in einzelnen Bereichen nur langsam voran ging. Lediglich eine Entwicklung fand populäre Verwendung: Die Programmierung von LeCun wertet bis heute noch handgeschriebene Schecks für Banken aus.

Nachdem Deep Learning die wenigen Jahre ab den 80ern kaum nennenswerte Fortschritte gemacht hatte kam mit der Jahrtausendwende neuer Wind in das Deep Learning Netzwerk. Digitale Datenbestände wuchsen rapide an und die Rechenleistung von Prozessoren wurde immer stärker.
Die ehemaligen Verfechter von Deep Learning, Dahl und Hilton, nahmen sich dem Problem der Spracherkennung in den frühen 2000ern an. Lange ohne Ergebnisse konnte 2009 endlich Erfolg gemeldet werden. Nachdem ein Programm mit mehreren Stunden Tonaufnahmen und der zugehörigen Transkription trainiert wurde, konnte die Software gesprochenen Text besser in schriftlichen umwandeln, als jedes Programm zuvor. Da diese auch nur auf einem regelbasierten System aufgebaut waren, konnten diese Programme auch über Jahrzehnte hinweg kaum Verbesserungen aufweisen. Die Software von Hilton und Dahl krempelte das System also vorerst völlig um.

 

Android und Siri

Vor allem Smartphonehersteller wurden auf das fortschrittliche Spracherkennungsprogramm aufmerksam, was fast jeden Produzenten auf Deep Learning umstiegen ließ.
Die erste große Begeisterung schuf Apple mit ihrer Sprachassistentin „Siri“, die zusammen mit dem iPhone 4S ins Leben gerufen wurde. Auch nachdem sich Google anschließend mit der Spracherkennung in Kombination mit Deep Learning auseinandersetzte sank die Fehlerquote der Erkennung um gut 25%. Im Vergleich zu früheren Jahren war diese Reduzierung der Fehlerquote wie 10 Erfolge auf einmal.
Währenddessen wurde das Google Brain zum Leben erweckt, nachdem die Google-Entwickler Programmierern Daten und Computer zur Verfügung stellten. Das Ergebnis, dass das Google Brain Zusammenhänge zwischen Bildern und deren Inhalten analysieren konnte und das, ohne dabei gesteuert bzw. überwacht zu werden, führte zu der Erkenntnis, dass das Brain auch ohne jegliche Zusatzinformationen (Namen, Überschriften oder Kategorien) zu einem Ergebnis kommen kann.

 

Ressourcenproblem

Allerdings besaß der enorme Fortschritt noch immer einen kleinen Haken, denn niemand - abgesehen von Google - verfügte über notwendige Ressourcen, um das Deep Learning weiterzubringen. Das nächste Ziel bestand also darin, günstige und trotzdem leistungsstarke Deep Learning Netzwerke zu entwickeln. Die Wahl fiel auf Prozessoren von Grafikkarten, die eigentlich dafür entwickelt wurden, Bilder für Computerspiele zu rendern. Ein 100.000$ schwerer Verbund von 64 GPUs bildete ein Netzwerk, das in der Lage war, 11 Mrd. Verknüpfungen herzustellen, was in Betracht auf die Bildverarbeitung jedoch nicht besonders beeindruckend war. So setzte man Teams darauf an, eine Software zu entwickeln, die mithilfe dieser Rechenleistung in der Lage war, unbekannte Bilder in bereits bekannte Kategorien zu sortieren. Pro Bild, das einsortiert werden sollte, durfte der Rechner 5 Vorschläge abgeben, in welche Kategorie das Bild am ehesten gehöre. War die richtige Antwort nicht unter den besagten 5 Versuchen, wurde dieser Durchlauf als Fehler gewertet. Der obere Durchschnitt der Gewinner von Deep Learning Wettbewerben lag bei einer Fehlerquote von rund 25%, bis eine Software im Jahr 2012 mit einer Fehlerquote von nur 15% abschnitt.
Daraufhin wurde auch der Internetriese Google auf diese Software aufmerksam und begann diese in ihre Google+ Bildersuche zu implementieren, wo sie stetig weiterentwickelt wurde.

 

Automatisierte Sprachverarbeitung dank Deep-Learning

Die herausragenden Erfolge von Deep Learning führten dazu, diese Technik auf natürliche Sprache anzuwenden, sprich eine Software zu entwickeln, die in der Lage war, eine gesprochene Aufforderung in eine Websuche umzusetzen oder die Umgangssprache in geschriebenen Text zu wandeln. Wie auch bei vorausgegangener Deep Learning-Programmierung, bestand die Kodierung aus reiner Handarbeit. Bekannte Texte mussten so Stück für Stück analysiert und gruppiert werden. Die heutige Leistungsfähigkeit dieses Deep Learning-Vorgangs lässt sich mit dem Google-Übersetzer einstufen. Einzelne gesprochene Wörter versteht dieser meist immer korrekt. Ein Satz wird auch vollständig übersetzt, allerdings ist das Ergebnis dessen meist weit von grammatikalischer Richtigkeit entfernt.

 

Profit durch Deep Learning

Inzwischen ist Deep Learning schon so weit, in wirklich wichtigen Angelegenheiten die besten Ergebnisse zu liefern. So wurde 2012 eine Patientendatenbank eines Pharmakonzerns mit einer Wirkungsweise eines Medikaments verbunden, um rauszufinden, bei welchen Patienten das Medikament am erfolgreichsten wirken würde und ob (wenn ja, welche) Nebenwirkungen zu erwarten sind. Darüber hinaus sollte eine Vorhersage getroffen werden, wie das Medikament mit 15 verschiedenen Zielmolekülen reagieren könnte.
Dieser Deep Learning-Prozess schnitt 15% besser als das firmeneigene Programm ab und ersetzte dies somit.
Kurz darauf wurde Deep Learning von Bioinformatikern am Massachusetts Institute of Technology angewandt, um dreidimensionale Aufnahmen aus Querschnitten von menschlichen Gehirnen zu erstellen. Dabei wurden extrem dichte Geflechte von Nervenverbindungen erstellt, die einzeln kartiert und nachverfolgt werden mussten. Davor wurde diese Aufgabe von Studenten erledigt, jedoch war eine Automation dieser Kartierungen dringend notwendig, wenn die zu erstellenden Gehirnausschnitte in Zukunft größer werden würden. Zudem eignete sich Deep Learning besonders gut, weil die Vorgehensweise des Programms von den Daten abhängt, mit denen es gefüttert wird. Erhält diese Software nun einen anderen Gehirnausschnitt, der über eine andere Struktur verfügt, kann sich das Deep Learning-Programm daran anpassen und leichter eine dreidimensionale Kartierung erstellen.
Ein Forscher namens Seung benutzt ein solches Deep Learning-System, um die Neuronen einer Netzhaut zu kartieren. Mithilfe von detaillierten Kartierungen von Gewebequerschnitten soll es in Zukunft möglich sein, künstliche Sinnesorgane zu erstellen, die der Präzision von echten Organen nahekommen. Unterdessen wurde in Seattle an einem ähnlichen Ansatz gearbeitet: Der Informatiker Noble brachte einem Rechner dank Deep Learning bei, eine Proteinstruktur aus einer einzelnen Aminosäuresequenz zu errechnen. So kann ermittelt werden, ob die Proteine Ring- oder Spiralstrukturen aufweisen und wie anfällig jene Proteine gegen verschieden Lösungsmittel sind. Das Analysesystem wurde kurz darauf auf eine Datenbank von über 100.000 Proteinstrukturen angewandt.
Ein weiteres Ziel von Deep Learning ist es, Computern Allgemeinwissen zu vermitteln. Erste Ansätze bestanden daraus, ein Deep Learning-System Standardtests auf Grundschulniveau absolvieren zu lassen, nachdem es mit Daten aus Lehrbüchern versorgt wurde. Dieses erlernte Wissen sollte Stück für Stück auf Universitätsniveau angehoben werden, wobei man allerdings vor der Hürde stand, wie das System Diagramme erkennen und verstehen könnte. Nachdem dieses Hindernis überwunden wurde, ließ man „Watson“ (ein Computer von IBM) in einem amerikanischen Fernsehquiz gegen Quizexperten antreten, mit einem Resultat, dass seine menschlichen Gegner alt aussehen ließ.
Neben Allgemeinwissen sollte Computern beigebracht werden, Schlüsse aus Fakten zu ziehen und aus bereits gezogenen Schlüssen zuvor unbekannte Fakten aufzustellen. Um diese Fähigkeit einem Computer beizubringen sind Fakten wie „Alle Frauen/Männer sind Menschen“ notwendig. Daraufhin soll der Schluss gezogen werden, dass es sich um Menschen handelt, wenn der Computer mit dem Wortlaut Frau/Mann konfrontiert wird.

Nach einer Reihe verschiedener Erfolge bleibt der Kern von Deep Learning nicht der Algorithmus der programmiert werden muss, sondern die grundlegende Hardware, die das Angegebene ausführen muss. Somit ist der Flaschenhals vom Maschinenlernen die Leistung der Hardware (sofern der Algorithmus mit 100%iger Genauigkeit arbeitet). Nachdem Nvidia mit ihrer Pascal-Architektur von GPUs an die Leistungsgrenze geraten ist, wurde Ende Q1 2017 die neue Volta-Reihe vorgestellt. Anfang des dritten Quartals wurden die ersten 15 voll funktionsfähigen GPUs an Deep Learning-Experten ausgehändigt, um Maschinenlernen weiter voranzutreiben. Die Rechenleistung der neuen Tesla V100 liegt fast 50% höher als die des ehemaligen Flakschiffs Tesla P100 und bringt damit die Recheneffizienz für Deep Learning um einen großen Schritt weiter.

Mit Deep Learning kann die künstliche Intelligenz kommerziell und praktikabel gemacht werden, da es die Eigenschaft hat, mit der Menge an bereitgestellten Daten immer präziser und effektiver zu werden. Die immer größere Verbreitung von künstlicher Intelligenz eröffnet Deep Learning enorme Möglichkeiten. Wir dürfen also gespannt in die Zukunft blicken und uns auf viele weitere Innovationen freuen, die unseren Alltag bereichern werden.

Suche läuft
Suche wird durchgeführt.
Bitte haben Sie etwas Geduld...
Fehlende Felder
Schließen
Cookies helfen uns bei der Bereitstellung unserer Dienstleistungen und einer persönlich angepassten Nutzungserfahrung. Durch die Benutzung der Website erklären Sie sich mit der Nutzung unserer Cookies einverstanden. Informationen zum Datenschutz OK und schließen