Skip to content

So funktioniert Künstliche Intelligenz

KI - so funktioniert sie

Schwach, stark, superintelligent – drei Formen künstlicher Intelligenz

Wenn wir umgangssprachlich von künstlicher Inteligenz reden, meinen wir meist eine schwache KI. Diese ist in vielen Bereichen unseres Alltags bereits integriert, wir kennen z.B. Alexa oder Siri. Die Entwicklungen gehen aber weiter. Starke und superintelligente künstliche Intelligenz werden die nächsten Stufen sein. Worin unterscheiden sie sich?

  • Eine schwache künstliche Intelligenz ist ein Programm, das auf ein Gebiet spezialisiert ist. Sie ist richtig gut, aber bloss in einer einzigen Sache.
  • Eine weiterentwickelte Stufe ist die starke künstliche Intelligenz. Diese gibt es aktuell noch nicht. Sie zielt darauf ab, Maschinen zu schaffen, die menschliche Denkprozesse übernehmen. Die starke künstliche Intelligenz ist nicht nur in einem Bereich stark, sondern kann Erlerntes auf andere Bereiche übertragen.
  • Die superintelligente Form der künstlichen Intelligenz zielt darauf ab, Maschinen zu schaffen, die menschliche Denkprozesse übertreffen. Auch sie gibt es noch nicht.

So funktioniert künstliche Intelligenz

Soll eine schwache künstliche Intelligenz wirkungsvoll genutzt werden, ist es wichtig, ihre Funktionsweise zu verstehen. Was sind ihre wichtigsten Elemente? 

Wie lernt künstliche Intelligenz?

Grundsätzlich arbeitet künstliche Intelligenz mit Daten, die nach beliebigen Kriterien miteinander verknüpft werden können. Je mehr Daten und Kriterien vorhanden sind, desto besser können auch komplexe Zusammenhänge erkannt und berechnet werden. Das jedoch erfordert stets leistungsstärkere Computer. Immer mehr Daten und immer grössere Rechenleistungen treiben die Entwicklung künstlicher Intelligenz voran. 
Der Computer arbeitet mit Algorithmen, die von Menschen definiert werden. Sie geben vor, nach welchen Kriterien die Daten miteinander verknüpft werden sollen. Algorithmen werden stets weiterentwickelt. Unterdessen ist die künstliche Intelligenz immer mehr in der Lage, selbst neue Kriterien zu finden, diese zu überprüfen und selbständig weiterzuentwickeln. 
Zum Beispiel ordnet die künstliche Intelligenz aufgrund von Algorithmen visuelle Daten von Katzen dem Kriterium für «Katze» zu. Das heisst, die KI «lernt» mit der Zeit ausgezeichnet, wie eine Katze aussieht. Zeigt man der künstlichen Intelligenz das Bild eines Hundes, so erkennt sie nur, dass es keine Katze ist. Sie erkennt den Hund nicht. Das zeigt die Grenzen der künstlichen Intelligenz auf: Sie ist auf den Bereich beschränkt, auf den sie trainiert wurde.

Vergleich mit dem menschlichen Nervensystem

Mit dem Begriff «künstliche Intelligenz» ist gemeint, dass bestimmte Funktionsweisen des menschlichen Nervensystems wie Wahrnehmung und Verarbeitung nachgeahmt werden sollen: Visuelle, akustische oder andere Reize treffen auf Nervenzellen, die diese weiterleiten. Unser Gehirn bewertet diese Inputs (Reize), und je nachdem verstärkt es sie, oder es vermindert ihre Bedeutung. Entsprechend werden die Inputs an alle anderen Nervenzellen weitergegeben. Je umfassender unser Gehirn den Input prüft, desto genauer können wir eine Situation oder einen Sachverhalt einschätzen. Am Beispiel der Katze bedeutet das: Je mehr verschiedene Merkmale wie Schwanz, Fell, Grösse, Schnauzhaare, Bewegungsmuster usw. wir registrieren, abgleichen und miteinander verknüpfen, desto bestimmter können wir sagen, ob es sich um eine Katze handelt oder um einen Hasen oder einen Hund.
In ähnlicher Weise nimmt die künstliche Intelligenz die Inputs respektive die Daten auf, überprüft und verknüpft sie. Deshalb spricht man bei künstlicher Intelligenz auch von neuronalen Netzwerken. 

Was macht eine Katze zu einer Katze?

Berechnung für einen Hasen

Oder ist es vielleicht doch ein Hase?

Wenn nun mehrere dieser individuellen neuronalen Netzwerke zusammengeschlossen werden, spricht man von einem künstlichen neuronalen Netzwerk. 

Das mehrschichtige Lernen

Die Basis bildet der Input, der in verschiedenen Schichten verarbeitet wird und dann in einer Form wieder ausgegeben wird, z.B. als Bild oder Text. Dazwischen befinden sich die versteckten Schichten. In der heutigen Zeit können dies mehrere Hundert Schichten sein. Solche neuronalen Netze werden daher auch als «deep neuronal Network» bezeichnet.

ChatGPT und Multimodale Modelle

ChatGPT 3 war bei seiner Veröffentlichung im Herbst 2022 eine Texteingabe-Anwendung. Auch andere Sprachmodelle (Large Language Models) waren textbasiert. Die Ausgabe bei ChatGPT 3 konnte auch als Bild erfolgen. Dies findet sich auch in der Abkürzung von ChatGPT wieder (Chat für Textkonversation, G für generativ/erzeugender, P für pretrained, T für Transformer). Bis Ende 2022 war nur ein beschränkter Datensatz als Grundlage für die Erzeugung einer Antwort verfügbar. 
Mit GPT4 wurde ein nächster grosser Schritt möglich. Nun können sowohl Audio-, Video- und Textdateien verarbeitet und in einer neuen Form ausgegeben werden. Für die Anwendung bedeutet dies: Aus einem Text kann ein Film erstellt oder ein Film kurz in einem Text zusammengefasst werden. Damit werden Anwendungen auch Personen zugänglich, die sonst nicht über das entsprechende Können verfügt hätten – z.B. ein Hörspiel, digitale Bilder erstellen, einen Text als Film umsetzen. 

Weiterführende Links und Dokumente