HomeNewsNatürliche Sprache steigert die LLM-Leistung in den Bereichen Codierung, Planung und Robotik

Natürliche Sprache steigert die LLM-Leistung in den Bereichen Codierung, Planung und Robotik

Große Sprachmodelle (LLMs) werden für Programmier- und Robotikaufgaben immer nützlicher, aber bei komplizierteren Denkproblemen ist die Kluft zwischen diesen Systemen und Menschen groß. Ohne die Fähigkeit, neue Konzepte zu erlernen, wie es Menschen tun, gelingt es diesen Systemen nicht, gute Abstraktionen zu bilden – im Wesentlichen hochrangige Darstellungen komplexer Konzepte, die weniger wichtige Details überspringen – und stottern daher, wenn sie anspruchsvollere Aufgaben erledigen müssen.

Glücklicherweise haben Forscher des MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) einen Schatz an Abstraktionen in der natürlichen Sprache gefunden. In drei Beiträgen, die diesen Monat auf der International Conference on Learning Representations vorgestellt werden, zeigt die Gruppe, wie unsere Alltagswörter eine reichhaltige Kontextquelle für Sprachmodelle sind und ihnen dabei helfen, bessere übergreifende Darstellungen für Codesynthese, KI-Planung und Roboternavigation zu erstellen Manipulation.

Die drei separaten Frameworks erstellen Abstraktionsbibliotheken für ihre jeweilige Aufgabe: VERWENDEN (Bibliothekseinleitung aus Sprachbeobachtungen) kann Code synthetisieren, komprimieren und dokumentieren; Ada (Action Domain Acquisition) erforscht die sequentielle Entscheidungsfindung für Agenten der künstlichen Intelligenz; Und LGA (sprachgesteuerte Abstraktion) hilft Robotern, ihre Umgebung besser zu verstehen, um praktikablere Pläne zu entwickeln. Jedes System ist eine neurosymbolische Methode, eine Art KI, die menschenähnliche neuronale Netze und programmähnliche logische Komponenten verbindet.

LILO: Ein neurosymbolisches Gerüst, das kodiert

Große Sprachmodelle können verwendet werden, um schnell Lösungen für kleine Codierungsaufgaben zu schreiben, sie können jedoch noch keine vollständigen Softwarebibliotheken erstellen, wie sie von menschlichen Softwareentwicklern geschrieben wurden. Um ihre Softwareentwicklungsfähigkeiten weiter auszubauen, müssen KI-Modelle Code in Bibliotheken prägnanter, lesbarer und wiederverwendbarer Programme umgestalten (kürzen und kombinieren).

Refactoring-Tools wie das zuvor entwickelte MIT-geführte Stich Der Algorithmus kann Abstraktionen automatisch identifizieren. In Anlehnung an den Disney-Film „Lilo & Stitch“ kombinierten CSAIL-Forscher diese algorithmischen Refactoring-Ansätze mit LLMs. Ihre neurosymbolische Methode LILO verwendet ein Standard-LLM zum Schreiben von Code und kombiniert ihn dann mit Stitch, um Abstraktionen zu finden, die umfassend in einer Bibliothek dokumentiert sind.

LILOs einzigartiger Schwerpunkt auf natürlicher Sprache ermöglicht es dem System, Aufgaben auszuführen, die menschenähnliches Wissen über den gesunden Menschenverstand erfordern, wie etwa das Identifizieren und Entfernen aller Vokale aus einer Codefolge und das Zeichnen einer Schneeflocke. In beiden Fällen übertraf das CSAIL-System eigenständige LLMs sowie einen früheren Bibliotheks-Lernalgorithmus des MIT namens DreamCoder, was auf seine Fähigkeit hinweist, ein tieferes Verständnis der Wörter in Eingabeaufforderungen aufzubauen. Diese ermutigenden Ergebnisse deuten darauf hin, dass LILO beispielsweise beim Schreiben von Programmen zur Bearbeitung von Dokumenten wie Excel-Tabellen, bei der Unterstützung der KI bei der Beantwortung von Fragen zu visuellen Elementen und beim Zeichnen von 2D-Grafiken hilfreich sein könnte.

„Sprachmodelle arbeiten bevorzugt mit Funktionen, die in natürlicher Sprache benannt sind“, sagt Gabe Grand SM '23, MIT-Doktorand in Elektrotechnik und Informatik, CSAIL-Partner und Hauptautor der Forschung. „Unsere Arbeit erstellt einfachere Abstraktionen für Sprachmodelle und weist jedem einzelnen natürliche Sprachnamen und Dokumentation zu, was zu besser interpretierbarem Code für Programmierer und einer verbesserten Systemleistung führt.“

Wenn LILO zu einer Programmieraufgabe aufgefordert wird, verwendet LILO zunächst ein LLM, um schnell Lösungen auf der Grundlage der Daten vorzuschlagen, auf denen es trainiert wurde, und sucht dann langsam und umfassender nach externen Lösungen. Als nächstes identifiziert Stitch effizient gemeinsame Strukturen im Code und zieht nützliche Abstraktionen heraus. Diese werden dann von LILO automatisch benannt und dokumentiert, wodurch vereinfachte Programme entstehen, mit denen das System komplexere Aufgaben lösen kann.

Das MIT-Framework schreibt Programme in domänenspezifischen Programmiersprachen wie Logo, einer Sprache, die in den 1970er Jahren am MIT entwickelt wurde, um Kindern das Programmieren beizubringen. Die Skalierung automatisierter Refactoring-Algorithmen zur Handhabung allgemeinerer Programmiersprachen wie Python wird ein Schwerpunkt zukünftiger Forschung sein. Dennoch stellt ihre Arbeit einen Fortschritt dar, wie Sprachmodelle immer aufwändigere Codierungsaktivitäten erleichtern können.

Ada: Natürliche Sprache leitet die KI-Aufgabenplanung

Genau wie beim Programmieren mangelt es KI-Modellen, die mehrstufige Aufgaben in Haushalten und befehlsbasierten Videospielen automatisieren, an Abstraktionen. Stellen Sie sich vor, Sie kochen das Frühstück und bitten Ihren Mitbewohner, ein heißes Ei auf den Tisch zu bringen – er wird sein Hintergrundwissen über das Kochen in Ihrer Küche intuitiv in eine Abfolge von Aktionen abstrahieren. Im Gegensatz dazu wird ein LLM, der auf ähnlichen Informationen geschult ist, immer noch Schwierigkeiten haben, darüber nachzudenken, was er für die Erstellung eines flexiblen Plans benötigt.

Benannt nach der berühmten Mathematikerin Ada Lovelace, die viele für die erste Programmiererin der Welt halten, macht das von CSAIL geleitete „Ada“-Framework bei diesem Thema Fortschritte, indem es Bibliotheken mit nützlichen Plänen für virtuelle Küchenarbeiten und Spiele entwickelt. Die Methode trainiert potenzielle Aufgaben und ihre Beschreibungen in natürlicher Sprache. Anschließend schlägt ein Sprachmodell Aktionsabstraktionen aus diesem Datensatz vor. Ein menschlicher Bediener bewertet und filtert die besten Pläne in einer Bibliothek, sodass die bestmöglichen Aktionen in hierarchische Pläne für verschiedene Aufgaben implementiert werden können.

„Traditionell hatten große Sprachmodelle aufgrund von Problemen wie dem Denken über Abstraktionen mit komplexeren Aufgaben zu kämpfen“, sagt der leitende Ada-Forscher Lio Wong, ein MIT-Absolvent in Gehirn- und Kognitionswissenschaften, CSAIL-Partner und LILO-Mitautor. „Aber wir können die Tools, die Softwareentwickler und Robotiker verwenden, mit LLMs kombinieren, um schwierige Probleme zu lösen, wie zum Beispiel die Entscheidungsfindung in virtuellen Umgebungen.“

Als die Forscher das weit verbreitete große Sprachmodell GPT-4 in Ada einbauten, erledigte das System mehr Aufgaben in einem Küchensimulator und Mini Minecraft als die KI-Entscheidungsgrundlage „Code as Policies“. Ada nutzte die in der natürlichen Sprache verborgenen Hintergrundinformationen, um zu verstehen, wie man gekühlten Wein in einen Schrank stellt und ein Bett herstellt. Die Ergebnisse zeigten eine erstaunliche Verbesserung der Aufgabengenauigkeit um 59 bzw. 89 Prozent.

Mit diesem Erfolg hoffen die Forscher, ihre Arbeit auf reale Haushalte übertragen zu können, in der Hoffnung, dass Ada bei anderen Haushaltsaufgaben helfen und mehreren Robotern in einer Küche helfen könnte. Derzeit besteht die größte Einschränkung darin, dass ein generisches LLM verwendet wird. Daher möchte das CSAIL-Team ein leistungsfähigeres, feiner abgestimmtes Sprachmodell anwenden, das bei einer umfassenderen Planung hilfreich sein könnte. Wong und ihre Kollegen erwägen auch die Kombination von Ada mit einem Robotermanipulations-Framework, das frisch aus CSAIL stammt: LGA (Sprachgesteuerte Abstraktion).

Sprachgesteuerte Abstraktion: Darstellungen für Roboteraufgaben

Andi Peng SM '23, eine MIT-Absolventin in Elektrotechnik und Informatik und CSAIL-Partnerin, und ihre Co-Autoren entwickelten eine Methode, die Maschinen dabei hilft, ihre Umgebung eher wie Menschen zu interpretieren, indem unnötige Details in einer komplexen Umgebung wie einer Fabrik oder Küche herausgeschnitten werden. Genau wie LILO und Ada legt LGA einen neuartigen Fokus darauf, wie natürliche Sprache uns zu besseren Abstraktionen führt.

In diesen eher unstrukturierten Umgebungen benötigt ein Roboter ein gewisses Maß an gesundem Menschenverstand darüber, wofür er zuständig ist, selbst wenn er zuvor eine Grundschulung absolviert hat. Bitten Sie beispielsweise einen Roboter, Ihnen eine Schüssel zu reichen, und die Maschine muss ein allgemeines Verständnis dafür haben, welche Funktionen in ihrer Umgebung wichtig sind. Von dort aus kann darüber nachgedacht werden, wie Sie den gewünschten Artikel erhalten.

Im Fall von LGA stellen Menschen zunächst ein vorab trainiertes Sprachmodell mit einer allgemeinen Aufgabenbeschreibung in natürlicher Sprache bereit, etwa „Bring mir meinen Hut“. Anschließend übersetzt das Modell diese Informationen in Abstraktionen über die wesentlichen Elemente, die zur Ausführung dieser Aufgabe erforderlich sind. Schließlich kann eine auf einigen Demonstrationen trainierte Nachahmungspolitik diese Abstraktionen implementieren, um einen Roboter anzuleiten, den gewünschten Gegenstand zu greifen.

Frühere Arbeiten erforderten, dass eine Person umfangreiche Notizen zu verschiedenen Manipulationsaufgaben machte, um einen Roboter vorab zu trainieren, was kostspielig sein kann. Bemerkenswert ist, dass LGA Sprachmodelle so anleitet, dass sie Abstraktionen erzeugen, die denen eines menschlichen Annotators ähneln, jedoch in kürzerer Zeit. Um dies zu veranschaulichen, hat die LGA Roboterrichtlinien entwickelt, die dem Spot-Vierbeiner von Boston Dynamics dabei helfen sollen, Früchte aufzusammeln und Getränke in einen Recyclingbehälter zu werfen. Diese Experimente zeigen, wie die vom MIT entwickelte Methode die Welt scannen und effektive Pläne in unstrukturierten Umgebungen entwickeln kann, um möglicherweise autonome Fahrzeuge auf der Straße und Roboter bei der Arbeit in Fabriken und Küchen zu steuern.

„In der Robotik ignorieren wir oft die Tatsache, wie sehr wir unsere Daten verfeinern müssen, um einen Roboter in der realen Welt nützlich zu machen“, sagt Peng. „Wir wollten uns nicht nur einfach merken, was in einem Bild enthalten ist, um Roboter für die Ausführung von Aufgaben zu trainieren, sondern auch Computer-Vision- und Untertitelungsmodelle in Verbindung mit Sprache nutzen. Indem wir Textunterschriften aus dem erstellen, was ein Roboter sieht, zeigen wir, dass Sprachmodelle im Wesentlichen wichtiges Weltwissen für einen Roboter aufbauen können.“

Die Herausforderung für LGA besteht darin, dass einige Verhaltensweisen nicht in der Sprache erklärt werden können, wodurch bestimmte Aufgaben unzureichend spezifiziert werden. Um die Darstellung von Merkmalen in einer Umgebung zu erweitern, erwägen Peng und ihre Kollegen die Einbeziehung multimodaler Visualisierungsschnittstellen in ihre Arbeit. In der Zwischenzeit bietet LGA Robotern die Möglichkeit, ein besseres Gespür für ihre Umgebung zu entwickeln, während sie Menschen helfen.

Eine „spannende Grenze“ in der KI

„Bibliothekslernen stellt eine der aufregendsten Grenzen in der künstlichen Intelligenz dar und bietet einen Weg zur Entdeckung und Argumentation kompositorischer Abstraktionen“, sagt Robert Hawkins, Assistenzprofessor an der University of Wisconsin-Madison, der nicht an den Arbeiten beteiligt war. Hawkins weist darauf hin, dass frühere Techniken zur Untersuchung dieses Themas „zu rechenintensiv waren, um sie in großem Maßstab einzusetzen“ und ein Problem mit den von ihnen generierten Lambdas bzw. Schlüsselwörtern zur Beschreibung neuer Funktionen in vielen Sprachen haben. „Sie neigen dazu, undurchsichtige ‚Lambda-Salate‘ zu produzieren, große Mengen schwer zu interpretierender Funktionen. Diese aktuellen Arbeiten zeigen einen überzeugenden Weg nach vorn auf, indem große Sprachmodelle in eine interaktive Schleife mit symbolischen Such-, Komprimierungs- und Planungsalgorithmen gestellt werden. Diese Arbeit ermöglicht den schnellen Erwerb besser interpretierbarer und anpassungsfähigerer Bibliotheken für die jeweilige Aufgabe.“

Durch den Aufbau von Bibliotheken hochwertiger Codeabstraktionen in natürlicher Sprache erleichtern die drei neurosymbolischen Methoden es Sprachmodellen, künftig komplexere Probleme und Umgebungen zu bewältigen. Dieses tiefere Verständnis der genauen Schlüsselwörter innerhalb einer Eingabeaufforderung bietet einen Weg nach vorne bei der Entwicklung menschenähnlicherer KI-Modelle.

MIT CSAIL-Mitglieder sind leitende Autoren für jeden Artikel: Joshua Tenenbaum, Professor für Gehirn- und Kognitionswissenschaften, sowohl für LILO als auch für Ada; Julie Shah, Leiterin der Abteilung für Luft- und Raumfahrt der LGA; und Jacob Andreas, außerordentlicher Professor für Elektrotechnik und Informatik, für alle drei. Die weiteren MIT-Autoren sind allesamt Doktoranden: Maddy Bowers und Theo X. Olausson für LILO, Jiayuan Mao und Pratyusha Sharma für Ada und Belinda Z. Li für LGA. Muxin Liu vom Harvey Mudd College war Mitautor von LILO; Zachary Siegel von der Princeton University, Jaihai Feng von der University of California in Berkeley und Noa Korneev von Microsoft waren Co-Autoren von Ada; und Ilia Sucholutsky, Theodore R. Sumers und Thomas L. Griffiths aus Princeton waren Co-Autoren von LGA.

LILO und Ada wurden teilweise vom MIT Quest for Intelligence, dem MIT-IBM Watson AI Lab, Intel, dem US Air Force Office of Scientific Research, der US Defense Advanced Research Projects Agency und dem US Office of Naval Research unterstützt , wobei letzteres Projekt auch vom Center for Brains, Minds and Machines gefördert wird. LGA erhielt Fördermittel von der US National Science Foundation, Open Philanthropy, dem Natural Sciences and Engineering Research Council of Canada und dem US-Verteidigungsministerium.

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Must Read