Sprache, Text und Bilder verstehen: Mit Deep Learning etabliert sich aktuell eine neue Art von Algorithmen, die menschliches Lernen imitieren. Die großen Internetunternehmen reißen sich um die Deep Learning Computerwissenschaftler.
Einem zweijährigen Baby welches noch nie zuvor ein Tier gesehen hat, wird vom Vater eine Reihe von Bildern von Katzen und Schweinen gezeigt; dabei wiederholt der Vater jedes Bild einige Male. Dann wird dem Baby ein neues Bild gegeben, welches eine pinke Sphynx-Katze - eine Katze ohne Fell - zeigt, und das Baby soll erraten ob es ein Schwein oder eine Katze ist.
Für ein Baby wahrscheinlich nicht so schwer, aber für Algorithmen ist dies eine schwere Aufgabe. Diese Algorithmen würden so über das Bild „nachdenken": „Ich erkenne mehr pinke Pixel als eine Katze hat, und die Anzahl der pinken Pixel ist in etwa gleich mit der eines Schweins - das Bild zeigt also ein Schwein."
Doch seit einigen Jahren wurden enorme Fortschritte in einer Art von Algorithmen gemacht, die Ähnlichkeit mit dem Aufbau des menschlichen Gehirn haben und auch näherungsweise wie Menschen denken können. Diese intelligenten Algorithmen kommen aus dem Bereich Deep Learning. Deep Learning Algorithmen würden ungefähr so über die pinke Katze nachdenken: „Ich erkenne das markante Gesicht einer Katze, und deren Pfoten und Schwanz, aber sie hat das „Fell" eines Schweins - drei Merkmale einer Katze gegen ein Merkmal eines Schweins, das Bild zeigt also eine Katze."
Das besondere an Deep Learning Algorithmen, was menschenähnliches denken ermöglicht, ist Feature Learning: Ein Prozess, wo Merkmale und Ideen - wie etwa Nase, Ohren, Augen und Pfoten einer Katze, oder der Ringelschwanz eines Schweines - in einem gehirnähnlichen künstlichen neuronalen Netzwerk erkannt und gespeichert werden. Dabei „lernt" dieses neuronale Netzwerk solche Merkmale automatisch, sobald es neue Daten zu sehen bekommt, indem die Verbindungen zwischen den künstlichen Gehirnzellen durch einen Algorithmus namens Backpropagration angepasst werden. Diese Gehirnzellen sind in mehreren Schichten angeordnet, die eine Hierarchie von Merkmalen bilden. Diese Merkmale können visualisiert werden, was einen Einblick in das „Gedächtnis" eines neuronalen Netzwerkes gewährt.
Geht es nun im rasanten Tempo Richtung künstliche Intelligenz?
Deep Learning ist nur acht Jahre jung, aber in der kurzen Zeit konnten diese Algorithmen vieles erreichen, was für klassische Algorithmen als unmöglich galt. Zum Beispiel galt Spracherkennung mit alten Algorithmen als unzumutbar für Verbraucher, heutzutage basiert jede erfolgreiche Spracherkennungssoftware auf Deep Learning. Auch bei der Erkennung von Objekten in Bildern sind Deep Learning Algorithmen übermenschlich gut - und das im wahrsten Sinne des Wortes: Deep Learning kann handgeschriebene Zahlen besser erkennen als Menschen, schlägt Verkehrsexperten bei der Erkennung von Verkehrsschildern, und bei der Erkennung von Gesichtern ist es auf gleicher Höhe mit Menschen.
„Noch nie haben wir gesehen, dass Technologien aus dem Bereich Machine Learning oder Künstliche Intelligenz eine so schnelle Auswirkung auf die Wirtschaft hatten. Es ist sehr beeindruckend." So Kai Yu, der Leiter des Institute of Deep Learning von Baidu[2].
Um diese beeindruckenden Ergebnisse zu erzielen brauchen Deep Learning Algorithmen vor allem schnelle Computer. Grafikkarten und Grafikkartensysteme mit mehereren Computern werden in Deep Learning seit einigen Jahren eingesetzt um die Algorithmen bis zu 30 Mal schneller zu machen. Dies führte zu enorm schellem Fortschritt in der Forschung und zum Durchbruch im Jahr 2012, wo Deep Learning im ImageNet Wettbewerb alle anderen Algorithmen mit großem Vorsprung abhängte.
Nachdem das Potenzial von Deep Learning in 2012 auch in der Wirtschaft erkannt wurde, kämpften Giganten wie Google, Facebook, Mirosoft und Baidu mit Millionenbeträgen um die raren Deep Learning Experten. Doch es gibt insgesamt nur 50 solcher Experten, schätzt Yoshua Bengio, der die größte Deep Learning Gruppe in der akademischen Welt an der University of Montreal leitet. „Ich denke, dies ist der Grund, warum Google DeepMind [für $400 Millionen] kaufte. Es ist eines der Unternehmen mit der größten Konzentration von Deep Learning Experten", sagt Bengio[3].
Überzeugt vom Potenzial von Deep Learning, wollen die Internetgiganten vor allem neue oder verbesserte Produkte im Bereich Internetsuche, Bilderkennung und Textverständnis zu schaffen - doch die Anwendungen von Deep Learning werden mit der Zeit darüber hinaus gehen: Wissenschaftlerinnen und Wissenschaftler forschen nach Deep Learning Algorithmen, die Dinge erlernen ohne das Menschen benötigt werden, die dem Algorithmus sagen was er sich gerade anschaut; stattdessen erlernt der Algorithmus selber wie das was er sieht zu anderen Dingen in Beziehung steht. „Wir können [hiermit] jede beliebige Frage beantworten wie sich Variablen zueinander verhalten. Genau dies bedeutet es, die Welt zu verstehen: Wir können die ungefähre Bedeutung von jedem unbekannten Aspekt unserer Realität erraten, wenn wir nur alle Elemente in unserer Umgebung betrachten.", so Bengio[4].
Deep Learning hat das Potenzial, die Technologien der Zukunft entscheidend zu prägen, doch trotz den ersten Erfolgen steht man noch relativ am Anfang der Reise. Obwohl bei Google mit unheimlich großen neuronale Netzwerken experimentiert wird, die auf zigtausenden von Computern laufen, besitzen diese Netzwerke weniger Gehirnzellen als eine Maus. Doch der Fortschritt von Computern ist rasant: Netzwerke, die die Größe eines menschlichen Gehirns erreichen, sind in den nächsten zehn Jahren zu erwarten.
Wie genau Deep Learning nach diesen zehn Jahren aussehen wird ist ungewiss, doch man kann sich bei den immer besser werdenden Computern und den immer größer werdenden Datenmengen sicher sein, dass Deep Learning von Jahr zu Jahr eine immer bedeutendere Rolle bei der Entwicklung der Internet- und Datenlandschaft spielen wird. Was in zehn Jahren alles möglich sein wird, ist schwer zu sagen - aber für das Unterscheiden von Katzen und Schweinen sollte es zumindest reichen.
Referenzen
[1] Lee H., Grosse R., Ranganath R., Ng A.Y. (2011). Unsupervised Learning of Hierarchical Representations with Convolutional Deep Belief Networks, Communications of the ACM, 54(10), 95-103. doi:10.1145/2001269.2001295
[2] Wired: Meet the Man Google Hired to Make AI a Reality
[3] MIT Technology Review: Is Google Cornering the Market on Deep Learning?
[4] Wired: Researcher Dreams Up Machines That Learn Without Humans
Einem zweijährigen Baby welches noch nie zuvor ein Tier gesehen hat, wird vom Vater eine Reihe von Bildern von Katzen und Schweinen gezeigt; dabei wiederholt der Vater jedes Bild einige Male. Dann wird dem Baby ein neues Bild gegeben, welches eine pinke Sphynx-Katze - eine Katze ohne Fell - zeigt, und das Baby soll erraten ob es ein Schwein oder eine Katze ist.
Für ein Baby wahrscheinlich nicht so schwer, aber für Algorithmen ist dies eine schwere Aufgabe. Diese Algorithmen würden so über das Bild „nachdenken": „Ich erkenne mehr pinke Pixel als eine Katze hat, und die Anzahl der pinken Pixel ist in etwa gleich mit der eines Schweins - das Bild zeigt also ein Schwein."
Doch seit einigen Jahren wurden enorme Fortschritte in einer Art von Algorithmen gemacht, die Ähnlichkeit mit dem Aufbau des menschlichen Gehirn haben und auch näherungsweise wie Menschen denken können. Diese intelligenten Algorithmen kommen aus dem Bereich Deep Learning. Deep Learning Algorithmen würden ungefähr so über die pinke Katze nachdenken: „Ich erkenne das markante Gesicht einer Katze, und deren Pfoten und Schwanz, aber sie hat das „Fell" eines Schweins - drei Merkmale einer Katze gegen ein Merkmal eines Schweins, das Bild zeigt also eine Katze."
Das besondere an Deep Learning Algorithmen, was menschenähnliches denken ermöglicht, ist Feature Learning: Ein Prozess, wo Merkmale und Ideen - wie etwa Nase, Ohren, Augen und Pfoten einer Katze, oder der Ringelschwanz eines Schweines - in einem gehirnähnlichen künstlichen neuronalen Netzwerk erkannt und gespeichert werden. Dabei „lernt" dieses neuronale Netzwerk solche Merkmale automatisch, sobald es neue Daten zu sehen bekommt, indem die Verbindungen zwischen den künstlichen Gehirnzellen durch einen Algorithmus namens Backpropagration angepasst werden. Diese Gehirnzellen sind in mehreren Schichten angeordnet, die eine Hierarchie von Merkmalen bilden. Diese Merkmale können visualisiert werden, was einen Einblick in das „Gedächtnis" eines neuronalen Netzwerkes gewährt.
![]() |
Merkmale des neuronalen Netzwerkes von Lee et al. (2011)[1], welches trainiert wurde Gesichter zu erkennen. Diese Merkmale kommen aus zwei Schichten von Gehirnzellen und bilden eine Hierarchie, von Nasen, Augen, Ohren usw. bis zu Gesichtern in der nächsten Schicht. |
Geht es nun im rasanten Tempo Richtung künstliche Intelligenz?
Deep Learning ist nur acht Jahre jung, aber in der kurzen Zeit konnten diese Algorithmen vieles erreichen, was für klassische Algorithmen als unmöglich galt. Zum Beispiel galt Spracherkennung mit alten Algorithmen als unzumutbar für Verbraucher, heutzutage basiert jede erfolgreiche Spracherkennungssoftware auf Deep Learning. Auch bei der Erkennung von Objekten in Bildern sind Deep Learning Algorithmen übermenschlich gut - und das im wahrsten Sinne des Wortes: Deep Learning kann handgeschriebene Zahlen besser erkennen als Menschen, schlägt Verkehrsexperten bei der Erkennung von Verkehrsschildern, und bei der Erkennung von Gesichtern ist es auf gleicher Höhe mit Menschen.
„Noch nie haben wir gesehen, dass Technologien aus dem Bereich Machine Learning oder Künstliche Intelligenz eine so schnelle Auswirkung auf die Wirtschaft hatten. Es ist sehr beeindruckend." So Kai Yu, der Leiter des Institute of Deep Learning von Baidu[2].
Um diese beeindruckenden Ergebnisse zu erzielen brauchen Deep Learning Algorithmen vor allem schnelle Computer. Grafikkarten und Grafikkartensysteme mit mehereren Computern werden in Deep Learning seit einigen Jahren eingesetzt um die Algorithmen bis zu 30 Mal schneller zu machen. Dies führte zu enorm schellem Fortschritt in der Forschung und zum Durchbruch im Jahr 2012, wo Deep Learning im ImageNet Wettbewerb alle anderen Algorithmen mit großem Vorsprung abhängte.
Nachdem das Potenzial von Deep Learning in 2012 auch in der Wirtschaft erkannt wurde, kämpften Giganten wie Google, Facebook, Mirosoft und Baidu mit Millionenbeträgen um die raren Deep Learning Experten. Doch es gibt insgesamt nur 50 solcher Experten, schätzt Yoshua Bengio, der die größte Deep Learning Gruppe in der akademischen Welt an der University of Montreal leitet. „Ich denke, dies ist der Grund, warum Google DeepMind [für $400 Millionen] kaufte. Es ist eines der Unternehmen mit der größten Konzentration von Deep Learning Experten", sagt Bengio[3].
Überzeugt vom Potenzial von Deep Learning, wollen die Internetgiganten vor allem neue oder verbesserte Produkte im Bereich Internetsuche, Bilderkennung und Textverständnis zu schaffen - doch die Anwendungen von Deep Learning werden mit der Zeit darüber hinaus gehen: Wissenschaftlerinnen und Wissenschaftler forschen nach Deep Learning Algorithmen, die Dinge erlernen ohne das Menschen benötigt werden, die dem Algorithmus sagen was er sich gerade anschaut; stattdessen erlernt der Algorithmus selber wie das was er sieht zu anderen Dingen in Beziehung steht. „Wir können [hiermit] jede beliebige Frage beantworten wie sich Variablen zueinander verhalten. Genau dies bedeutet es, die Welt zu verstehen: Wir können die ungefähre Bedeutung von jedem unbekannten Aspekt unserer Realität erraten, wenn wir nur alle Elemente in unserer Umgebung betrachten.", so Bengio[4].
Deep Learning hat das Potenzial, die Technologien der Zukunft entscheidend zu prägen, doch trotz den ersten Erfolgen steht man noch relativ am Anfang der Reise. Obwohl bei Google mit unheimlich großen neuronale Netzwerken experimentiert wird, die auf zigtausenden von Computern laufen, besitzen diese Netzwerke weniger Gehirnzellen als eine Maus. Doch der Fortschritt von Computern ist rasant: Netzwerke, die die Größe eines menschlichen Gehirns erreichen, sind in den nächsten zehn Jahren zu erwarten.
Wie genau Deep Learning nach diesen zehn Jahren aussehen wird ist ungewiss, doch man kann sich bei den immer besser werdenden Computern und den immer größer werdenden Datenmengen sicher sein, dass Deep Learning von Jahr zu Jahr eine immer bedeutendere Rolle bei der Entwicklung der Internet- und Datenlandschaft spielen wird. Was in zehn Jahren alles möglich sein wird, ist schwer zu sagen - aber für das Unterscheiden von Katzen und Schweinen sollte es zumindest reichen.
Referenzen
[1] Lee H., Grosse R., Ranganath R., Ng A.Y. (2011). Unsupervised Learning of Hierarchical Representations with Convolutional Deep Belief Networks, Communications of the ACM, 54(10), 95-103. doi:10.1145/2001269.2001295
[2] Wired: Meet the Man Google Hired to Make AI a Reality
[3] MIT Technology Review: Is Google Cornering the Market on Deep Learning?
[4] Wired: Researcher Dreams Up Machines That Learn Without Humans