HomeArtificial IntelligenceDeepseek R1s mutiges Wetten auf Verstärkungslernen: Wie es Openai mit 3% der...

Deepseek R1s mutiges Wetten auf Verstärkungslernen: Wie es Openai mit 3% der Kosten übertrafte

Die Veröffentlichung von Deepseek R1 hat Schockwellen durch die KI-Community geschickt und die Annahmen über das, was erforderlich ist, um eine hochmoderne KI-Leistung zu erzielen, zu stören. Dieses Open-Source-Modell entspricht dem O1 von OpenAI mit nur 3% bis 5% der Kosten und hat die Entwickler nicht nur fasziniert, sondern auch Unternehmen herausfordert, ihre KI-Strategien zu überdenken.

Das Modell hat sich auf das oberste Trendmodell gestrichen, das auf Huggingface heruntergeladen wird (109.000 Mal zum Zeitpunkt dieser Schrift) – Als Entwickler beeilen sich, es auszuprobieren und zu verstehen, was es für ihre KI -Entwicklung bedeutet. Benutzer kommentieren, dass die begleitende Suchfunktion von Deepseek (die Sie finden können Deepseeks Site) ist jetzt Überlegen gegenüber Mitbewerbern wie Openai und Verwirrungund wird nur von Googles Gemini Deep Research von Google konkurriert.

Die Auswirkungen auf Unternehmensstrategien sind tiefgreifend: Mit reduzierten Kosten und offenem Zugang haben Unternehmen jetzt eine Alternative zu teuren proprietären Modellen wie OpenAI. Deepseeks Freilassung könnte den Zugang zu modernen KI-Fähigkeiten demokratisieren und es kleineren Organisationen ermöglichen, effektiv im KI-Wettrüsten zu konkurrieren.

Diese Geschichte konzentriert sich darauf, wie Deepseek dieses Kunststück verwaltet und was sie für die große Anzahl von Benutzern von KI -Modellen bedeutet. Für Unternehmen, die KI-gesteuerte Lösungen entwickeln, fordert Deepseeks bahnbrechende Annahmen von OpenAIs Dominanz heraus-und bietet eine Blaupause für kosteneffiziente Innovationen. Es ist das „Wie“ Deepseek hat das getan, was es tat, das sollte hier am lehrreichsten sein.

Deepseeks Durchbruch: Wechsel zu reinem Verstärkungslernen

Im November machte Deepseek mit seiner Ankündigung Schlagzeilen, dass es eine Leistung über das O1 von OpenAI erzielt hatte, aber zu der Zeit bot es nur ein begrenztes Modell mit R1-Lite-Präview an. Mit der vollen Veröffentlichung von R1 und dem Begleit Technisches PapierDas Unternehmen enthüllte eine überraschende Innovation: eine absichtliche Abweichung aus dem konventionellen Übersichtsfine-Tuning-Prozess (SFT), der in der Schulung großer Sprachmodelle (LLMs) weit verbreitet ist.

SFT, ein Standardschritt in der KI-Entwicklung, beinhaltet Schulungsmodelle für kuratierte Datensätze, um schrittweise Argumentationen zu unterrichten, die häufig als Kette des Gedankens (COT) bezeichnet werden. Es gilt als wesentlich für die Verbesserung der Argumentationsfähigkeiten. Deepseek stellte diese Annahme jedoch in Frage, indem er SFT vollständig übersprang und sich stattdessen auf das Verstärkungslernen (RL) verlassen konnte, um das Modell zu trainieren.

Dieser mutige Schritt zwang Deepseek-R1, unabhängige Argumentationsfähigkeiten zu entwickeln, und vermeidet die Sprödigkeit, die häufig von präskriptiven Datensätzen eingeführt wird. Während einige Fehler auftauchen – das Team dazu veranlasst, in den letzten Phasen des Modells eine begrenzte Menge an SFT wieder einzuführen -, bestätigten die Ergebnisse den grundlegenden Durchbruch: Verstärkungslernen allein könnten erhebliche Leistungssteigerungen vorantreiben.

Das Unternehmen hat einen Groß

Erstens einige Hintergrundinformationen darüber, wie Deepseek dorthin gekommen ist, wo es tat. Deepseek, ein 2023-Spin-off von chinesischem Hedgefonds-High-Flyer-Quant, entwickelte mit der Entwicklung von KI-Modellen für seinen proprietären Chatbot, bevor sie für die öffentliche Verwendung veröffentlicht wurden. Über den genauen Ansatz des Unternehmens ist wenig bekannt, aber es hat seine Modelle schnell geöffnet, und es ist äußerst wahrscheinlich, dass das Unternehmen auf den von Meta produzierten offenen Projekten, beispielsweise dem Lama -Modell, und der ML -Bibliothek Pytorch basiert.

Um seine Modelle auszubilden, hat High-Flyer-Quant quantitativ über 10.000 Nvidia-GPUs vor US-Einschränkungen gesichert, und Berichten zufolge auf 50.000 GPUs erweitert durch alternative Versorgungsrouten trotz Handelsbarrieren. Dies verblasst im Vergleich zu führenden KI -Labors wie Openai, Google und Anthropic, die betreiben mit jeweils mehr als 500.000 GPUs.

Deepseeks Fähigkeit, Wettbewerbsergebnisse mit begrenzten Ressourcen -Highlights zu erzielen Wie Einfallsreichtum und Einfallsreichtum das kostengünstige Paradigma der Ausbildung auf dem neuesten Stand der Technik herausfordern können.

Trotz Spekulationen ist das vollständige Budget von Deepseek unbekannt

Deepseek hat Berichten zufolge sein Basismodell – genannt V3 – für ein Budget von 5,58 Millionen US -Dollar über zwei Monate ausgebildet. Laut Nvidia Engineer Jim Fan. Während das Unternehmen die genauen Schulungsdaten nicht preisgegeben hat (Randnotiz: Kritiker sagen, dass Deepseek nicht wirklich offene Source), machen moderne Techniken Schulungen im Web und öffnen Sie die Datensätze zunehmend zugänglich. Die Schätzung der Gesamtkosten für das Training von Deepseek-R1 ist eine Herausforderung. Während 50.000 GPUs erhebliche Ausgaben (potenziell Hunderte von Millionen Dollar) vorschlagen, bleiben genaue Zahlen spekulativ.

Was jedoch klar ist, ist, dass Deepseek von Anfang an sehr innovativ war. Im vergangenen Jahr wurden Berichte über einige erste Innovationen entstanden, die es machte, um Dinge wie Mischung aus Experten und latente Aufmerksamkeit mit mehreren Kopf.

Wie Deepseek-R1 zum „Aha-Moment“ kam

Die Reise zur endgültigen Iteration von Deepseek-R1 begann mit einem Zwischenmodell, Deepseek-R1-Null, das mit reinem Verstärkungslernen trainiert wurde. Indem Deepseek sich ausschließlich auf RL stützte, hat er dieses Modell dazu angeregt, unabhängig zu denken und sowohl die richtigen Antworten als auch die logischen Prozesse zu belohnen, die verwendet wurden, um sie zu erreichen.

Dieser Ansatz führte zu einem unerwarteten Phänomen: Das Modell begann, komplexere Probleme zusätzliche Verarbeitungszeit zuzuweisen und die Fähigkeit zu demonstrieren, Aufgaben aufgrund ihrer Schwierigkeit zu priorisieren. Die Forscher von Deepseek beschrieben dies als einen „AHA -Moment“, in dem das Modell selbst neuartige Lösungen für herausfordernde Probleme identifizierte und artikulierte (siehe Screenshot unten). Dieser Meilenstein unterstrich die Kraft des Verstärkungslernens, fortgeschrittene Argumentationsfunktionen freizuschalten, ohne sich auf traditionelle Trainingsmethoden wie SFT zu verlassen.

Quelle: Deepseek-R1 Paper. Lassen Sie sich von dieser Grafik nicht einschüchtern. Das wichtigste Mitnehmen ist die rote Linie, in der das Modell den Ausdruck „AHA -Moment“ buchstäblich verwendete. Die Forscher haben dies als ein auffälliges Beispiel für die Fähigkeit des Modells, Probleme in einem anthropomorphen Ton zu überdenken, eingehalten. Für die Forscher sagten sie, es sei ihr eigener “AHA -Moment”.

Die Forscher schließen zu dem Schluss: „Es unterstreicht die Kraft und Schönheit des Verstärkungslernens: Anstatt das Modell zur Lösung eines Problems explizit beizubringen, bieten wir es einfach mit den richtigen Anreizen und entwickelt autonom fortgeschrittene Strategien zur Problemlösung.“

Mehr als Rl

Es ist jedoch wahr, dass das Modell mehr als nur RL brauchte. Das Papier spricht weiter darüber, wie trotz der RL-Schaffung unerwarteter und starker Argumentationsverhalten sich dieses Zwischenmodell Deepseek-R1-Null vor einigen Herausforderungen hatte, einschließlich schlechter Lesbarkeit und Sprachmischung (beginnend in Chinesisch und zum Englischen, zum Beispiel auf Englisch, um zu wechseln, zum Beispiel ). Erst dann entschied sich das Team, ein neues Modell zu erstellen, das zum endgültigen Deepseek-R1-Modell werden würde. Dieses Modell, das wiederum auf dem V3-Basismodell basiert, wurde zunächst nur begrenzt SFT injiziert-konzentrierte sich auf eine „kleine Menge langer COT-Daten“ oder die sogenannten Kaltstart-Daten, um einige der Herausforderungen zu beheben. Danach wurde es den gleichen Verstärkungslernen von R1-Null durchgesetzt. Das Papier spricht dann darüber, wie R1 einige letzte Runden der Feinabstimmung durchlaufen hat.

Die Auswirkungen

Eine Frage ist, warum die Veröffentlichung so viel Überraschung gegeben hat. Es ist nicht so, dass Open -Source -Modelle neu sind. Open -Source -Modelle haben eine große Logik und eine große Dynamik. Ihre kostenlosen Kosten und Formbarkeit ist der Grund, warum wir kürzlich berichtet haben, dass diese Modelle im Unternehmen gewinnen werden.

Das Open-Weights Model Llama 3 von Meta explodierte zum Beispiel letztes Jahr immer beliebter, da es von Entwicklern, die ihre eigenen benutzerdefinierten Modelle wollten, fein abgestimmt wurde. In ähnlicher Weise wird Deepseek-R1 bereits verwendet, um seine Argumentation in eine Reihe anderer, viel kleinerer Modelle zu unterteilen-der Unterschied besteht darin, dass Deepseek branchenführende Leistung bietet. Dies umfasst beispielsweise winzige Versionen des Modells auf Mobiltelefonen.

Deepseek-R1 spielt nicht nur eine bessere Leistung als die führende Open-Source-Alternative, Lama 3. Es zeigt seine gesamte Gedankenkette über seine Antworten transparent. Metas Lama wurde nicht angewiesen, dies als Verzug zu tun. Es nimmt aggressive Aufforderung zu Lama, dies zu tun.

Die Transparenz hat Openai auch einen PR Black-Eye zur Verfügung gestellt, der bisher seine Gedankenketten von Benutzern versteckt hat, wobei Wettbewerbsgründe angeführt und Benutzer nicht verwirren, wenn ein Modell etwas falsch macht. Durch Transparenz können Entwickler Fehler in der Argumentation eines Modells bestimmen und angehen und Anpassungen optimieren, um die Unternehmensanforderungen effektiver zu erfüllen.

Für die Entscheidungsträger von Unternehmen unterstreicht Deepseeks Erfolg eine breitere Veränderung in der KI-Landschaft: schlankere, effizientere Entwicklungspraktiken sind zunehmend rentabel. Organisationen müssen möglicherweise ihre Partnerschaften mit proprietären KI-Anbietern neu bewerten, um zu berücksichtigen, ob die mit diesen Diensten verbundenen hohen Kosten gerechtfertigt sind, wenn Open-Source-Alternativen vergleichbare, wenn nicht sogar überlegene Ergebnisse liefern können.

Natürlich kein massiver Vorsprung

Während Deepseeks Innovation bahnbrechend ist, hat es keineswegs einen kommandierenden Marktleiter etabliert. Da es seine Forschung veröffentlichte, werden andere Modellunternehmen daraus lernen und sich anpassen. Meta und Mistral, die französische Open -Source -Modellfirma, ist vielleicht ein Takt hinter sich, aber es wird wahrscheinlich nur wenige Monate dauern, bis sie aufholen. Als Hauptforscher von Meta Yann Lecun Setzen Sie es aus: „Die Idee ist, dass jeder von den Ideen aller anderen profitiert. Niemand “übergeht” und kein Land “verliert an einen anderen. Niemand hat ein Monopol für gute Ideen. Jeder lernt von allen anderen. “ Es ist also eine Ausführung, die zählt.

Letztendlich sind es die Verbraucher, Startups und andere Benutzer, die am meisten gewinnen, da die Angebote von Deepseek weiterhin den Preis für die Verwendung dieser Modelle in der Nähe von Null fördern werden (abgesehen von den Kosten für laufende Modelle bei Inferenz). Diese schnelle Commoditisierung könnte vor Herausforderungen – in der Tat massive Schmerzen – für führende KI -Anbieter darstellen, die stark in eine proprietäre Infrastruktur investiert haben. Wie viele Kommentatoren es ausdrückt, einschließlich Chamath Palihapitiya, einem Investor und ehemaligen Exekutive bei Meta, könnte dies bedeuten, dass dies bedeuten könnte Jahre von OPEX und Capex von OpenAI und anderen werden verschwendet.

Es gibt erhebliche Kommentare darüber, ob es ethisch ist, das Deepseek-R1-Modell zu verwenden, da die chinesischen Gesetze beispielsweise die Vorurteile vermitteln, dass es keine Fragen zum brutalen Vorgehen der chinesischen Regierung auf dem Tiananmen-Platz beantworten sollte. Trotz ethischer Bedenken hinsichtlich der Vorurteile betrachten viele Entwickler diese Vorurteile als seltene Randfälle in realen Anwendungen-und können durch Feinabstimmungen gemindert werden. Darüber hinaus weisen sie auf unterschiedliche, aber analoge Verzerrungen hin, die von Modellen von OpenAI und anderen Unternehmen gehalten werden. Das Lama von Meta hat sich trotz seiner nicht veröffentlichten Datensätze als beliebtes offenes Modell entwickelt, und trotz versteckter Vorurteile und und dadurch eingereicht gegen sie eingereicht.

Es gibt viele Fragen um den ROI der großen Investitionen von OpenAI

Dies alles wirft große Fragen zu den von OpenAI, Microsoft und anderen verfolgten Investitionsplänen auf. Das 500 -Milliarden -Dollar -Stargate -Projekt von OpenAI spiegelt sein Engagement für den Aufbau massiver Rechenzentren wider, um seine fortschrittlichen Modelle zu versorgen. Diese Strategie wird von Partnern wie Oracle und SoftBank unterstützt und beruht auf der Überzeugung, dass die Erreichung künstlicher allgemeiner Intelligenz (AGI) beispiellose Rechenressourcen erfordert. Deepseeks Demonstration eines leistungsstarken Modells zu einem Bruchteil der Kosten in der Nachhaltigkeit dieses Ansatzes stellt jedoch die Fähigkeit von OpenAI, Renditen für eine solche monumentale Investition zu erzielen, die Zweifel an der Fähigkeit von Openai hervorzubringen.

Unternehmer und Kommentator Arnaud Bertrand erfasste diese Dynamikim Gegensatz zu Chinas sparsamer, dezentraler Innovation mit dem Abhängigkeit von zentralisierten, ressourcenintensiven Infrastruktur in den USA: „Es geht um die Welt, die erkennen, dass China aufgeholt hat-und in einigen Bereichen überholt-die USA in Technik und Innovation, trotz der Bemühungen, genau das zu verhindern . ““ In der Tat, gestern eine andere chinesische Firma, Bytedance Annénce Dooba-15-Proroder einen „tiefen Denken“ -Modus enthält, der Openai's O1 auf der Aime -Benchmark übertrifft.

Möchten Sie tiefer in die Entwicklung von AI-Entwicklung eintauchen? Schauen Sie sich unsere detaillierte Diskussion auf YouTube an, wo ich diesen Durchbruch mit dem ML-Entwickler Sam Witteveen erforsche. Gemeinsam brechen wir die technischen Details, Auswirkungen auf Unternehmen und was dies für die Zukunft der KI bedeutet:

https://www.youtube.com/watch?v=bjzj5ltiqe0

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Must Read