Forscher am Massachusetts Institute of Technology (MIT) gewinnen erneut Aufmerksamkeit für die Entwicklung und Open Sourcing Eine Technik, die es großen Sprachmodellen (LLMs) – wie denen, die ChatGPT und den meisten modernen KI-Chatbots zugrunde liegen – ermöglicht, sich selbst zu verbessern, indem synthetische Daten zur Feinabstimmung generiert werden.
Die als SEAL (Self-Adapting LLMs) bekannte Technik wurde erstmals in einem bereits im Juni veröffentlichten Artikel beschrieben und damals von VentureBeat abgedeckt.
Eine deutlich erweiterte und Die aktualisierte Version des Papiers wurde letzten Monat veröffentlichtsowie Open-Source-Code auf Github veröffentlicht (unter einer MIT-Lizenz, die die kommerzielle und geschäftliche Nutzung ermöglicht) und sorgt diese Woche im sozialen Netzwerk X für neue Wellen unter KI-Power-Usern.
SEAL ermöglicht es LLMs, autonom ihre eigenen Feinabstimmungsstrategien zu generieren und anzuwenden. Im Gegensatz zu herkömmlichen Modellen, die auf festen externen Daten und von Menschen erstellten Optimierungspipelines basieren, ermöglicht SEAL die Weiterentwicklung von Modellen durch die Erstellung eigener synthetischer Trainingsdaten und entsprechender Optimierungsanweisungen.
Die Entwicklung stammt von einem Team, das dem Improbable AI Lab des MIT angeschlossen ist, darunter Adam Zweiger, Jyothish Pari, Han Guo, Ekin Akyürek, Yoon Kim und Pulkit Agrawal. Ihre Forschung wurde kürzlich auf der 39. Konferenz über neuronale Informationsverarbeitungssysteme (NeurIPS 2025) vorgestellt.
Hintergrund: Von „Beyond Static AI“ zu selbstadaptiven Systemen
Anfang dieses Jahres berichtete VentureBeat erstmals über SEAL als ein Framework im Frühstadium, das es Sprachmodellen ermöglichte, ihre eigenen synthetischen Daten zu generieren und zu trainieren – ein potenzielles Mittel gegen die Stagnation vorab trainierter Modelle nach der Implementierung.
Zu diesem Zeitpunkt wurde SEAL als Proof-of-Concept konzipiert, der es KI-Agenten in Unternehmen ermöglichen könnte, in dynamischen Umgebungen ohne manuelle Umschulung kontinuierlich zu lernen.
Seitdem hat die Forschung erhebliche Fortschritte gemacht. Die neue Version erweitert das vorherige Framework, indem sie zeigt, dass die Selbstanpassungsfähigkeit von SEAL mit der Modellgröße skaliert, Verstärkungslernen effektiver integriert, um katastrophales Vergessen zu reduzieren, und die Dual-Loop-Struktur von SEAL (innere überwachte Feinabstimmung und äußere Verstärkungsoptimierung) für Reproduzierbarkeit formalisiert.
Das aktualisierte Papier führt außerdem Bewertungen verschiedener Aufforderungsformate, verbesserte Stabilität während Lernzyklen und eine Diskussion praktischer Herausforderungen bei der Bereitstellung zum Zeitpunkt der Inferenz ein.
Umgang mit den Einschränkungen statischer Modelle
Während LLMs bemerkenswerte Fähigkeiten bei der Textgenerierung und dem Textverständnis bewiesen haben, erfolgt ihre Anpassung an neue Aufgaben oder Kenntnisse oft manuell, spröde oder kontextabhängig.
SEAL stellt diesen Status quo in Frage, indem es Modelle mit der Fähigkeit ausstattet, das zu generieren, was die Autoren „Selbstbearbeitungen“ nennen – Ausgaben in natürlicher Sprache, die angeben, wie das Modell seine Gewichte aktualisieren soll.
Diese Selbständerungen können in Form neu formulierter Informationen, logischer Implikationen oder Werkzeugkonfigurationen zur Erweiterung und Schulung erfolgen. Nach der Generierung passt sich das Modell anhand dieser Änderungen selbst an. Der Prozess wird durch Reinforcement Learning gesteuert, wobei das Belohnungssignal aus einer verbesserten Leistung bei einer nachgelagerten Aufgabe resultiert.
Das Design ahmt nach, wie menschliche Lernende Lernmaterialien umformulieren oder neu organisieren könnten, um Informationen besser zu verinnerlichen. Diese Umstrukturierung des Wissens vor der Assimilation stellt einen entscheidenden Vorteil gegenüber Modellen dar, die neue Daten passiv „wie sie sind“ nutzen.
Leistung über Aufgaben hinweg
SEAL wurde in zwei Hauptbereichen getestet: Wissensintegration und Lernen in wenigen Schritten.
Im Rahmen der Wissenseingliederung bewerteten die Forscher, wie gut ein Modell neue Sachinhalte aus Passagen verinnerlichen konnte, die denen im SQuAD-Datensatz ähneln, einem 2016 von der Stanford University eingeführten Benchmark-Datensatz zum Leseverständnis, der aus über 100.000 Crowdsourcing-Frage-Antwort-Paaren auf der Grundlage von Wikipedia-Artikeln besteht (Rajpurkar et al., 2016).
Anstatt direkt am Text einer Passage zu feilen, Das Modell erzeugte synthetische Implikationen der Passage und dann eine Feinabstimmung darauf vorgenommen.
Nach zwei Runden verstärkenden Lernens verbesserte das Modell die Genauigkeit der Fragebeantwortung von 33,5 % auf 47,0 % bei einer kontextlosen Version von SQuAD – und übertraf damit die Ergebnisse, die mit synthetischen Daten von GPT-4.1 erzielt wurden.
In der Lernumgebung mit wenigen Schüssen wurde SEAL anhand einer Teilmenge des ARC-Benchmarks bewertet, bei dem Aufgaben eine Argumentation anhand nur weniger Beispiele erfordern. Hier generierte SEAL Selbstbearbeitungen, die Datenerweiterungen und Hyperparameter spezifizierten.
Nach dem Verstärkungslernen Die Erfolgsquote bei der korrekten Lösung angehaltener Aufgaben stieg auf 72,5 %, verglichen mit 20 % bei Selbstbearbeitungen, die ohne Verstärkungslernen erstellt wurden. Modelle, die ausschließlich auf kontextbezogenem Lernen ohne Anpassung beruhten, erzielten einen Wert von 0 %.
Technischer Rahmen
SEAL arbeitet mit einer Zwei-Schleifen-Struktur: Eine innere Schleife führt eine überwachte Feinabstimmung basierend auf der Selbstbearbeitung durch, während eine äußere Schleife Reinforcement Learning nutzt, um die Richtlinie zu verfeinern, die diese Selbstbearbeitungen generiert.
Der verwendete Reinforcement-Learning-Algorithmus basiert auf ReSTEM, das Sampling mit gefiltertem Verhaltensklonen kombiniert. Während des Trainings werden nur Selbständerungen verstärkt, die zu Leistungsverbesserungen führen. Dieser Ansatz lehrt das Modell effektiv, welche Arten von Änderungen für das Lernen am vorteilhaftesten sind.
Aus Effizienzgründen wendet SEAL eine LoRA-basierte Feinabstimmung anstelle vollständiger Parameteraktualisierungen an, was ein schnelles Experimentieren und eine kostengünstige Anpassung ermöglicht.
Stärken und Grenzen
Die Forscher berichten, dass SEAL mit minimaler Aufsicht Trainingsdaten mit hohem Nutzen erzeugen kann und bei bestimmten Aufgaben sogar große externe Modelle wie GPT-4.1 übertrifft.
Sie zeigen auch, dass SEAL über sein ursprüngliches Setup hinaus verallgemeinert werden kann: Es funktioniert weiterhin gut, wenn von Single-Pass-Updates bis hin zu Szenarios mit fortlaufendem Vortraining mit mehreren Dokumenten skaliert wird.
Der Rahmen ist jedoch nicht ohne Einschränkungen. Ein Problem ist das katastrophale Vergessen, bei dem Aktualisierungen zur Einbindung neuer Informationen die Leistung bei zuvor erlernten Aufgaben beeinträchtigen können.
Als Reaktion auf diese Bedenken teilte Co-Autor Jyo Pari VentureBeat per E-Mail mit, dass Reinforcement Learning (RL) das Vergessen offenbar wirksamer mildert als standardmäßiges Supervised Fine-Tuning (SFT) und zitierte dabei einen aktuellen Artikel zu diesem Thema. Er fügte hinzu, dass die Kombination dieser Erkenntnisse mit SEAL zu neuen Varianten führen könnte, bei denen SEAL nicht nur Trainingsdaten, sondern auch Belohnungsfunktionen lernt.
Eine weitere Herausforderung ist der Rechenaufwand: Die Auswertung jeder Selbstbearbeitung erfordert eine Feinabstimmung und Leistungstests, die 30–45 Sekunden pro Bearbeitung dauern können – deutlich mehr als Standardaufgaben des Verstärkungslernens.
Wie Jyo erklärte: „Das Training von SEAL ist nicht trivial, da es zwei Optimierungsschleifen erfordert, eine äußere RL-Schleife und eine innere SFT-Schleife. Zur Inferenzzeit erfordert die Aktualisierung der Modellgewichte auch eine neue Systeminfrastruktur.“ Er betonte die Notwendigkeit zukünftiger Forschung zu Bereitstellungssystemen als entscheidenden Weg zur praktischen Umsetzung von SEAL.
Darüber hinaus setzt das aktuelle Design von SEAL das Vorhandensein gepaarter Aufgaben und Referenzantworten für jeden Kontext voraus, was seine direkte Anwendbarkeit auf unbeschriftete Korpora beschränkt. Jyo stellte jedoch klar, dass SEAL trainiert werden kann, sich entsprechend anzupassen, solange es eine nachgelagerte Aufgabe mit einer berechenbaren Belohnung gibt – sogar in sicherheitskritischen Bereichen. Im Prinzip könnte ein SEAL-trainiertes Modell lernen, das Training auf schädliche oder böswillige Eingaben zu vermeiden, wenn es sich an dem entsprechenden Belohnungssignal orientiert.
Reaktionen der KI-Community
Die KI-Forschungs- und Builder-Community hat mit einer Mischung aus Aufregung und Spekulation auf das SEAL-Papier reagiert. Auf X, ehemals Twitter, äußerten sich mehrere prominente KI-fokussierte Accounts zu den möglichen Auswirkungen.
Benutzer @Vraserxein selbst beschriebener Pädagoge und KI-Enthusiast, nannte SEAL „die Geburt der kontinuierlichen selbstlernenden KI“ und sagte voraus, dass Modelle wie OpenAIs GPT-6 eine ähnliche Architektur übernehmen könnten.
In ihren Worten stellt SEAL „das Ende der Ära der eingefrorenen Gewichte“ dar und leitet Systeme ein, die sich weiterentwickeln, während sich die Welt um sie herum verändert.
Sie hoben die Fähigkeit von SEAL hervor, dauerhafte Erinnerungen zu bilden, Wissen zu reparieren und aus Echtzeitdaten zu lernen, und verglichen es mit einem grundlegenden Schritt hin zu Modellen, die Informationen nicht nur nutzen, sondern absorbieren.
In der Zwischenzeit, @alex_prompterMitbegründer eines KI-gestützten Marketingunternehmens, bezeichnete SEAL als einen Sprung hin zu Modellen, die sich buchstäblich selbst neu schreiben. „Das MIT hat gerade eine KI entwickelt, die ihren eigenen Code umschreiben kann, um intelligenter zu werden“, schrieb er. Unter Berufung auf die wichtigsten Ergebnisse des Papiers – eine 40-prozentige Steigerung der sachlichen Erinnerung und eine bessere Leistung als GPT-4.1 mithilfe selbst generierter Daten – Er beschrieb die Ergebnisse als Bestätigung dafür, dass „LLMs, die sich selbst verfeinern, keine Science-Fiction mehr sind.“
Die Begeisterung spiegelt ein breiteres Interesse im KI-Bereich an Modellen wider, die sich ohne ständige Umschulung oder menschliche Aufsicht weiterentwickeln können – insbesondere in sich schnell ändernden Bereichen oder personalisierten Anwendungsfällen.
Zukünftige Richtungen und offene Fragen
Als Antwort auf Fragen zur Skalierung von SEAL auf größere Modelle und Aufgaben verwies Jyo auf Experimente (Anhang B.7), die zeigten, dass mit zunehmender Modellgröße auch ihre Selbstanpassungsfähigkeit zunimmt. Er verglich dies damit, dass Studierende ihre Lerntechniken im Laufe der Zeit verbessern – größere Modelle sind einfach besser darin, nützliche Selbstbearbeitungen zu generieren.
Auf die Frage, ob SEAL auf neue Aufforderungsstile verallgemeinert, bestätigte er dies und zitierte Tabelle 10 im Papier. Allerdings räumte er auch ein, dass das Team die Fähigkeit von SEAL zur Übertragung über völlig neue Domänen oder Modellarchitekturen noch nicht getestet habe.
„SEAL ist ein erstes Werk, das die Möglichkeiten aufzeigt“, sagte er. „Aber es erfordert viel mehr Tests.“ Er fügte hinzu, dass sich die Verallgemeinerung verbessern könnte, wenn SEAL auf eine breitere Aufgabenverteilung geschult wird.
Interessanterweise stellte das Team fest, dass bereits wenige Reinforcement-Learning-Schritte zu messbaren Leistungssteigerungen führten. „Das ist aufregend“, bemerkte Jyo, „denn es bedeutet, dass wir mit mehr Rechenleistung hoffentlich noch mehr Verbesserungen erzielen könnten.“ Er schlug vor, dass in zukünftigen Experimenten fortgeschrittenere Methoden des verstärkenden Lernens über ReSTEM hinaus untersucht werden könnten, beispielsweise die Group Relative Policy Optimization (GRPO).
Auf dem Weg zu adaptiveren und agentenbasierteren Modellen
SEAL stellt einen Schritt hin zu Modellen dar, die sich im Laufe der Zeit autonom verbessern können, sowohl durch die Integration neuen Wissens als auch durch die Neukonfiguration ihrer Lernweise. Die Autoren stellen sich zukünftige Erweiterungen vor, bei denen SEAL bei der Selbstvorbereitung, dem kontinuierlichen Lernen und der Entwicklung von Agentensystemen helfen könnte – Modelle, die mit sich entwickelnden Umgebungen interagieren und sich schrittweise anpassen.
In solchen Situationen könnte ein Modell SEAL verwenden, um Gewichtsaktualisierungen nach jeder Interaktion zu synthetisieren und so Verhaltensweisen oder Erkenntnisse schrittweise zu verinnerlichen. Dies könnte die Notwendigkeit wiederholter Überwachung und manueller Eingriffe verringern, insbesondere in datenbeschränkten oder spezialisierten Bereichen.
Da der öffentliche Webtext gesättigt ist und die weitere Skalierung von LLMs durch die Datenverfügbarkeit eingeschränkt wird, könnten selbstgesteuerte Ansätze wie SEAL eine entscheidende Rolle dabei spielen, die Grenzen dessen, was LLMs erreichen können, zu verschieben.
Sie können auf das SEAL-Projekt, einschließlich Code und weiterer Dokumentation, zugreifen unter: https://jyopari.github.io/posts/seal

