3 Min. Lesezeit

Wie funktioniert DeepSeek?

Wie funktioniert DeepSeek?
Wie funktioniert DeepSeek?
5:30

Hunderte Milliarden Dollar an Börsenwert vernichtet. Das ist die Reaktion auf ein neues Sprachmodell aus China, welches um Größenordnungen günstiger trainiert werden konnte, ohne dass die Performance allzu sehr darunter leidet. Doch wie ist es dem Team aus China gelungen, ein Sprachmodell so effizient zu trainieren? Und warum kann DeepSeek dann auch noch relativ kostengünstig betrieben werden? Möglich wurde das durch eine clevere Kombination aus verschiedenen Techniken, deren Erfolg so bedeutend ist, dass DeepSeek ein wahres Beben durch die KI Branche schicken konnte.

Wie wurden LLMs bisher trainiert?

Große Sprachmodelle oder Large Language Models (LLMs) wie zum Beispiel ChatGPT benötigten bisher enorme Rechenleistung. Nur mit teurer Infrastruktur in Form von Rechenzentren und der dafür nötigen Menge an leistungsstarken Grafikkarten war das Training und der Betrieb solcher Modelle möglich. Dazu kommen die enormen Stromkosten, die das Training und der Betrieb verursachen. Doch woran liegt es, dass die Sprachmodelle so teuer sind?

Das hängt mit zwei Faktoren zusammen, die zusammen dafür sorgen, dass sowohl das Training als auch der Betrieb entsprechend teuer sind. Einerseits ist der Trainingsansatz, mit dem Sprachmodelle trainiert werden, nicht wirklich effizient. Die Idee hierbei ist schlicht, die Modelle mit gigantischen Datenmengen und der entsprechenden Rechenleistung selbstständig lernen zu lassen. Zum anderen können die Modelle nur so gut werden, weil sie entsprechend viele Parameter haben (das sind kleine mathematische Werte, mit denen das Modell rechnet). Viele Parameter bedeutet aber auch, dass die Modelle vom Speicherplatz groß werden und vor allem dass eine Anfrage an das Modell rechenintensiv ist.

 

Wie konnte DeepSeek die anderen schlagen?

Im Grunde basiert der Erfolg von DeepSeek auf drei Faktoren, die sowohl das Training als auch den Betrieb deutlich günstiger machen. Um es vorwegzunehmen: Die konkrete mathematische und technische Umsetzung ist komplex, aber auch nicht so wichtig für ein Grundverständnis von DeepSeek. Auf Englisch sind die drei Faktoren: Reinforcement Learning, Model Distillation und Chain-of-thought Reasoning.

Beginnen wir mit der Idee hinter "Chain-of-thought Reasoning". Während bisherige Modelle beim Training sozusagen sich selbst überlassen wurden, hatte das Team hinter DeepSeek die Idee, das Modell selbst erklären zu lassen, was es gerade macht. Damit kann das Training natürlich viel effizienter gestaltet werden, weil ganz konkret bekannt ist, wie und was das Modell gerade lernt bzw. denkt. Im Grunde öffnet dieser Ansatz die Blackbox, die der bisherige Trainingsansatz und die Outputberechnung dargestellt haben. Das heißt, das Modell erklärt sich sozusagen selbst anstatt einfach nur einen Output zu geben.

Im zweiten Schritt kommt Reinforcement Learning zum Einsatz. Reinforcement Learning ist ein Machine Learning Ansatz, bei dem Belohnungen oder Strafen in Form einer Funktion verwendet werden, um dem Modell sozusagen einen Rahmen zu geben, in dem es effektiver lernen kann. Bisher wurden die Sprachmodelle beim Training im Grunde sich selbst überlassen. Mit Hilfe des Reinforcement Learning Ansatzes kann man dem Modell so viel effizienter ein bestimmtes Verhalten beibringen, weil man das Modell während des Trainings in eine bestimmte Richtung lenken kann.

Zuletzt nutzt DeepSeek Model Distillation aus, um das Modell zu verkleinern, ohne die Performance zu sehr zu vernachlässigen. Die Idee hierbei ist, dass es ein Lehrer Modell mit sehr vielen Parametern und ein Schüler Modell mit einem Bruchteil der Parameter gibt. Durch das Chain-of-thought Reasoning kann das Lehrer Modell sozusagen dem Schüler Modell effizient beibringen, was es wissen muss. Das Lehrer Modell generiert die Prompts, aus denen das Schüler Modell am meisten lernen kann und erklärt im Grunde direkt, wie das Schüler Modell Prompts beantworten kann. Die Analogie wäre, dass ein Lehrer einem Schüler erklärt, wie man zum Beispiel einen Bruch kürzt anstatt den Schüler selbst herausfinden zu lassen wie das geht. Damit kann letztendlich das kleinere Schüler Modell ähnlich gut performen wie das Lehrer Modell, obwohl es weniger Parameter hat.

 

Fazit

Effizienteres Training und günstigeren Betrieb großer Sprachmodelle sind die Innovationen, die DeepSeek der Welt gegeben hat. Im Grunde kann man das durchaus positiv sehen, weil es KI erschwinglicher macht und wiederum neue Möglichkeiten eröffnet. Mit solchen Innovationen kann die Entwicklung im Bereich KI wieder in neue Dimensionen vorstoßen. Gleichzeitig bedeutet das aber auch, dass man spätestens jetzt erkennen muss, wie schnell die Entwicklungen kommen und wie gnadenlos der globale Wettbewerb ist. Auch wenn man als Unternehmen natürlich nicht direkt sein eigenes Sprachmodell entwickeln muss, lautet meine Empfehlung ganz klar, das Thema Künstliche Intelligenz sofort in die Unternehmensstrategie aufzunehmen. Wer den Entwicklungen weiter zwar interessiert aber untätig zuschaut, wird eher früher als später von ihnen überrumpelt.

Wer nicht länger untätig den KI Entwicklungen auf der Welt zuschauen will, kann mit dem Datenqualitätscheck von BRANDMAUER AI (Teil der BRANDMAUER Familie) den ersten Schritt hin zu einer eigenen möglichen KI Erfolgsgeschichte machen.

 

Wie Sie die NIS2 selbst umsetzen können

Wie Sie die NIS2 selbst umsetzen können

Die NIS2 Richtlinie ist zurzeit hochaktuell. Und mit ihr müssen sich viele Unternehmen die Frage stellen, ob und inwieweit sie davon betroffen sind....

Mehr lesen
10 Maßnahmen der NIS2 mit BRANDMAUER IT umsetzen

10 Maßnahmen der NIS2 mit BRANDMAUER IT umsetzen

Ab Oktober 2024 verpflichtet die NIS2-Richtlinie Unternehmen dazu, bestimmte Maßnahmen zur Gewährleistung der Cybersicherheit zu ergreifen. Diese...

Mehr lesen
Probleme kleiner IT Dienstleister

Probleme kleiner IT Dienstleister

Aktuell sehen wir in der Branche der IT Systemhäuser eine massive Konsolidierung durch kapitalgetriebene Übernahmen und Fusionen. Warum das so ist,...

Mehr lesen