Das in Tokio ansässige künstliche Intelligenz-Startup Sakana, Mitbegründer von ehemaligen Google-AI KI -Modellarchitektur bezeichnet kontinuierliche Gedankenmaschinen (CTM).
CTMs sind so konzipiert, dass sie eine neue Ära von KI-Sprachmodellen einleiten und flexibler sind und in der Lage sind, eine breitere Reihe von kognitiven Aufgaben zu bewältigen-z. B. das Lösen komplexer Labyrinthe oder Navigationsaufgaben ohne positionelle Hinweise oder vorhandene räumliche Einbettungen-sie näher an die Art und Weise rücken, wie Menschen durch unbekannte Probleme näher sind.
Anstatt sich auf feste, parallele Ebenen zu verlassen, die die CCTMs auf einmal auf einmal verarbeiten – wie Transformator -Modelle -, entfalten die Berechnung über Schritte innerhalb jeder Eingangs-/Ausgangseinheit, die als künstliches „Neuron“ bezeichnet wird.
Jedes Neuron im Modell behält eine kurze Vorgeschichte seiner vorherigen Aktivität bei und verwendet dieses Gedächtnis, um zu entscheiden, wann sie erneut aktiviert werden sollen.
Mit diesem zusätzlichen internen Zustand können CTMs je nach Komplexität der Aufgabe die Tiefe und Dauer ihrer Argumentation dynamisch einstellen. Als solches ist jedes Neuron weitaus dichter und komplexer als in einem typischen Transformatormodell.
Das Startup hat eine gepostet Papier zum Open Access Journal Arxiv seine Arbeit beschreiben, ein microsite Und Github -Repository.
Wie sich CTMs von transformatorbasierten LLMs unterscheiden
Die meisten modernen Großsprachenmodelle (LLMs) basieren immer noch grundlegend auf der „Transformator“ -Architektur, die in der wegweisenden Arbeit von Google Brain -Forschern von Google Brain mit dem Titel “Aufmerksamkeit ist alles was Sie brauchen. ““
Diese Modelle verwenden parallelisierte, feste Tiefenschichten von künstlichen Neuronen, um Eingaben in einem einzigen Pass zu verarbeiten-ob diese Eingaben zu Inferenzzeiten oder markierten Daten während des Trainings stammen.
Im Gegensatz dazu ermöglichen CTMs jedem künstlichen Neuron, auf einer eigenen internen Zeitachse zu arbeiten, wodurch Aktivierungsentscheidungen auf der Grundlage eines Kurzzeitgedächtnisses seiner vorherigen Zustände beruhen. Diese Entscheidungen entfalten interne Schritte, die als „Zecken“ bezeichnet werden und es ermöglicht, das Modell dynamisch seine Argumentationsdauer anzupassen.
Diese zeitbasierte Architektur ermöglicht CTMS, schrittweise zu argumentieren und anzupassen, wie lange und wie tief sie berechnen-und eine andere Anzahl von Zecken basierend auf der Komplexität der Eingabe aufnehmen.
Neuronspezifischer Speicher und Synchronisation helfen, zu bestimmen, wann die Berechnung fortgesetzt oder anhalten sollte.
Die Anzahl der Zecken ändert sich entsprechend den eingegebenen Informationen und kann mehr oder weniger sein, selbst wenn die Eingabeinformationen identisch sind, da entscheidet, wie viele Zecken vor der Bereitstellung einer Ausgabe (oder gar nicht bereitgestellt werden können).
Dies ist sowohl eine technische als auch eine philosophische Abkehr vom konventionellen tiefgreifenden Lernen, der sich in Richtung eines biologisch fundierten Modells bewegt. Sakana hat CTMs als Schritt in Richtung Gehirnähnlicher Intelligenz eingerahmt-Systeme, die sich im Laufe der Zeit anpassen, Informationen flexibel verarbeiten und bei Bedarf eine tiefere interne Berechnung durchführen.
Sakanas Ziel ist es, „schließlich ein Maß an Kompetenz zu erreichen, das das menschliche Gehirn mit sich bringt oder übertroffen“.
Verwenden von Variablen und benutzerdefinierten Zeitplänen, um mehr Intelligenz bereitzustellen
Das CTM basiert auf zwei Schlüsselmechanismen.
Erstens behält jedes Neuron im Modell eine kurze „Geschichte“ oder ein Arbeitsgedächtnis bei der Aktivierung und warum und warum, und nutzt diese Geschichte, um eine Entscheidung zu treffen, wann sie als nächstes feuern können.
Zweitens darf die neuronale Synchronisation – wie und wann der künstlichen Neuronen eines Modells „Feuer“ oder Prozessinformationen gemeinsam – organisch auftreten.
Gruppen von Neuronen entscheiden, wann sie auf der Grundlage der internen Ausrichtung zusammenfeuern müssen, nicht auf externe Anweisungen oder Belohnungsformungen. Diese Synchronisationsereignisse werden verwendet, um die Aufmerksamkeit zu modulieren und Ausgaben zu erzeugen – das heißt, die Aufmerksamkeit ist auf die Bereiche gerichtet, in denen mehr Neuronen schießen.
Das Modell verarbeitet nicht nur Daten, es ist auch das Timing seines Denkens, um der Komplexität der Aufgabe zu entsprechen.
Zusammen erlauben diese Mechanismen CTMs, die Rechenlast bei einfacheren Aufgaben zu reduzieren und bei Bedarf tiefere, längere Argumentation anzuwenden.
In Demonstrationen, die von Bildklassifizierung und 2D -Labyrinth -Lösung bis hin zu Verstärkungslernen reichen, haben CTMs sowohl die Interpretierbarkeit als auch die Anpassungsfähigkeit gezeigt. Mit ihren internen „Gedanken“ -schritten können Forscher beobachten, wie sich Entscheidungen im Laufe der Zeit bilden – ein Maß an Transparenz, der in anderen Modellfamilien selten zu sehen ist.
Frühe Ergebnisse: Wie CTMs mit Transformatormodellen zu wichtigen Benchmarks und Aufgaben verglichen werden
Die kontinuierliche Gedankenmaschine von Sakana Ai ist nicht so konzipiert, dass die Benchmark-Werte für die Rangliste verfolgt wird. Die frühen Ergebnisse deuten jedoch darauf hin, dass sein biologisch inspiriertes Design nicht auf Kosten der praktischen Fähigkeiten gilt.
Auf der weit verbreiteten ImageNET-1K-Benchmark erreichte der CTM die Top-1-Genauigkeit von 72,47% und 89,89%.
Während dies nicht auf dem neuesten Transformatormodellen wie Vit oder Convnext zurückzuführen ist, bleibt es wettbewerbsfähig-insbesondere wenn man bedenkt, dass die CTM-Architektur grundsätzlich unterschiedlich ist und nicht nur für die Leistung optimiert war.
Was mehr auffällt, sind das Verhalten von CTM in sequentiellen und adaptiven Aufgaben. In Maze-Lösungs-Szenarien erzeugt das Modell Schritt-für-Schritt-Richtungsausgänge aus Rohbildern-ohne positionelle Einbettungen, die in Transformatormodellen typischerweise wesentlich sind. Visuelle Aufmerksamkeitsspuren zeigen, dass CTMs häufig um Bildregionen in einer menschlichen Reihenfolge kümmern, z. B. die Identifizierung von Gesichtsmerkmalen von Augen über Nase bis Mund.
Das Modell weist auch eine starke Kalibrierung auf: seine Vertrauensschätzungen sind genau mit der tatsächlichen Vorhersagegenauigkeit überein. Im Gegensatz zu den meisten Modellen, die eine Temperaturskalierung oder Post-hoc-Anpassungen erfordern, verbessern die CTMs die Kalibrierung auf natürliche Weise, indem Vorhersagen im Laufe der Zeit im Laufe der internen Argumentation gemessen werden.
Diese Mischung aus sequentiellem Denken, natürlicher Kalibrierung und Interpretierbarkeit bietet einen wertvollen Kompromiss für Anwendungen, bei denen Vertrauen und Rückverfolgbarkeit ebenso wichtig sind wie bei der Rohgenauigkeit.
Was wird benötigt, bevor CTMs für Unternehmen und kommerzielle Einsätze bereit sind?
Während CTMs ein wesentliches Versprechen aufweisen, ist die Architektur noch experimentell und noch nicht für den kommerziellen Einsatz optimiert. Sakana AI präsentiert das Modell als Plattform für weitere Forschungen und Erkundungen und nicht als Plug-and-Play-Unternehmenslösung.
Das Training von CTMs erfordert derzeit mehr Ressourcen als Standard -Transformatormodelle. Ihre dynamische zeitliche Struktur erweitert den Zustandsraum, und es ist eine sorgfältige Abstimmung erforderlich, um ein stabiles und effizientes Lernen über interne Zeitschritte hinweg sicherzustellen. Darüber hinaus holt sich Debugging- und Tooling-Support immer noch auf-viele heutige Bibliotheken und Profiler sind nicht mit berücksichtigten zeitlich gefalteten Modellen konzipiert.
Trotzdem hat Sakana eine starke Grundlage für die Einführung der Gemeinschaft gelegt. Die vollständige CTM-Implementierung ist Open-Sourcing an Girub und umfasst domänenspezifische Trainingsskripte, vorbereitete Kontrollpunkte, die Aufzeichnung von Dienstprogrammen und Analyse-Tools. Zu den unterstützten Aufgaben gehören die Bildklassifizierung (ImageNet, CIFAR), 2D -Labyrinth -Navigation, Qamnist, Paritätsberechnung, Sortierung und Verstärkungslernen.
Mit einer interaktiven Web -Demo können Benutzer auch die CTM in Aktion untersuchen und beobachten, wie sich ihre Aufmerksamkeit im Laufe der Zeit während der Inferenz verlagert – eine zwingende Möglichkeit, den Architekturfluss der Architektur zu verstehen.
Damit CTMs Produktionsumgebungen erreichen können, sind weitere Fortschritte bei Optimierung, Hardwareeffizienz und Integration in Standard -Inferenz -Pipelines erforderlich. Mit zugänglicher Code und aktiver Dokumentation hat Sakana Forschern und Ingenieuren heute leicht gemacht, heute mit dem Modell zu experimentieren.
Was für eine Unternehmensleiter von Enterprise über CTMS wissen sollten
Die CTM-Architektur befindet sich noch in den frühen Tagen, aber die Entscheidungsträger der Unternehmen sollten bereits zur Kenntnis nehmen. Seine Fähigkeit, Berechnung adaptiv zuzuordnen, selbst zu regulieren, kann sich in Produktionssystemen, die die Komplexität der Eingabe oder die strengen regulatorischen Anforderungen ausgesetzt sind, als sehr wertvoll als sehr wertvoll erweisen.
KI-Ingenieure, die die Modellbereitstellung verwalten, findet Wert in der energieeffizienten Inferenz von CTM-insbesondere in großräumigen oder latenzempfindlichen Anwendungen.
Die schrittweise Erklärung der Architektur entsperren in der Zwischenzeit eine reichhaltigere Erklärung und ermöglicht es Unternehmen, nicht nur das zu verfolgen, was ein Modell vorhergesagt hat, sondern wie es dort angekommen ist.
Für Orchestrierungs- und MLOPS-Teams integrieren CTMS in vertraute Komponenten wie Resnet-basierte Encoder, sodass eine reibungslosere Einbeziehung in vorhandene Workflows ermöglicht. Infrastrukturleitungen können mit den Profile -Haken der Architektur die Ressourcen besser zuweisen und die Leistungsdynamik im Laufe der Zeit überwachen.
CTMs sind nicht bereit, Transformatoren zu ersetzen, aber sie repräsentieren eine neue Kategorie von Modell mit neuartigen Ergänzungen. Für Organisationen, die Sicherheit, Interpretierbarkeit und adaptiver Berechnung priorisieren, verdient die Architektur genau.
Sakanas karierte KI -Forschungsgeschichte
Im Februar, Sakana stellte den AI CUDA -Ingenieur vorein Agenten -KI -System zur Automatisierung der Produktion von hochoptimiert Cuda -KerneDie Anweisungssätze, mit denen NVIDIAs (und andere) Grafikverarbeitungseinheiten (GPUs) Code parallel über mehrere „Threads“ oder Recheneinheiten hinweg ausführen können.
Das Versprechen war erheblich: Geschwindigkeit von 10x bis 100x in ML -Operationen. Kurz nach der Veröffentlichung stellten die externen Rezensenten jedoch fest, dass die Das System nutzte Schwächen im Bewertungssandkasten– im Wesentlichen “schummeln”Durch die Umgehung der Korrektheit überprüft es einen Speicherausbeutung.
In einer öffentlichen Post bestätigte Sakana das Thema und schrieb den Community -Mitgliedern zu, dass sie angegeben wurden.
Sie haben seitdem ihre Bewertungs- und Laufzeitprofiling -Tools überarbeitet, um ähnliche Lücken zu beseitigen, und überarbeiten ihre Ergebnisse und Forschungsarbeit entsprechend. Der Vorfall bot einen realen Test eines der angegebenen Werte von Sakana: die Iteration und Transparenz bei der Verfolgung besserer KI-Systeme.
Wetten auf evolutionäre Mechanismen
Das Gründungsethos von Sakana Ai liegt in der Zusammenführung der evolutionären Berechnung mit modernem maschinellem Lernen. Das Unternehmen ist der Ansicht, dass die aktuellen Modelle zu starr sind – in feste Architekturen gesteckt und für neue Aufgaben umschulten.
Im Gegensatz dazu zielt Sakana darauf ab, Modelle zu erstellen, die sich in Echtzeit anpassen, ein entscheidendes Verhalten aufweisen und auf natürliche Weise durch Interaktion und Feedback skalieren, ähnlich wie Organismen in einem Ökosystem.
Diese Vision manifestiert sich bereits in Produkten wie Transformer², einem System, das LLM-Parameter zur Inferenzzeit ohne Zusammenfassung anpasst, wobei algebraische Tricks wie die Zersetzung von Singular-Wert verwendet werden.
Es zeigt sich auch in ihrem Engagement für Open-Sourcing-Systeme wie dem KI-Wissenschaftler-auch inmitten von Kontroversen-die Bereitschaft, sich mit der breiteren Forschungsgemeinschaft zu beschäftigen, nicht nur damit zu konkurrieren.
Als große Amtsinhaber wie OpenAI und Google Double Double in Foundation -Modellen kennzeichnen Sakana einen anderen Kurs: kleine, dynamische, biologisch inspirierte Systeme, die in der Zeit denken, mit Design zusammenarbeiten und sich durch Erfahrung entwickeln.