Gestern rief ein neues Startup an Hume AI gab bekannt, dass es 50 Millionen US-Dollar eingesammelt hat in einer Serie-B-Runde unter der Leitung von EQT Ventures mit Beteiligung von Union Square Ventures, Nat Friedman & Daniel Gross, Metaplanet, Northwell Holdings, Comcast Ventures und LG Technology Ventures.
Das Startup wurde von CEO Alan Cowen, einem ehemaligen Forscher bei Google DeepMind, mitbegründet und geleitet. Abgesehen von Cowens Stammbaum und einem allgemein überschäumenden Interesse an KI-Startups aus der VC-Welt – was sonst könnte eine so große Runde machen?
Hume AI unterscheidet sich von zahlreichen anderen Anbietern und Startups von KI-Modellen dadurch, dass es sich auf die Entwicklung eines KI-Assistenten konzentriert – und einer API für diesen Assistenten, auf der andere Unternehmen Chatbots aufbauen können, sowie auf einigen seiner zugrunde liegenden Daten –, der menschliche Emotionen versteht. reagiert angemessen darauf und übermittelt es an den Benutzer zurück.
Im Gegensatz zu ChatGPT und Claude 3, die vor allem als textbasierte Chatbots bekannt sind, nutzt Hume AI auch Sprachgespräche als Schnittstelle und hört dabei allein auf den Tonfall, die Tonhöhe, die Pausen und andere Merkmale der Stimme eines menschlichen Benutzers.
Das in New York City ansässige und nach dem schottischen Philosophen David Hume benannte Startup veröffentlichte außerdem eine öffentliche Demo seines „Empathic Voice Interface (EVI)“, das es als „die erste Konversations-KI mit emotionaler Intelligenz“ bezeichnet. Hier können Sie es selbst ausprobieren: demo.hume.ai. Es ist lediglich ein Gerät mit funktionierendem Mikrofon erforderlich – unabhängig davon, ob Sie Ihren Computer oder Ihr Mobilgerät verwenden möchten.
Warum das Verständnis menschlicher Emotionen der Schlüssel zu besseren KI-Erlebnissen ist
Emotionale Sprachgespräche mit menschlichen Benutzern zu führen mag für einen KI-Assistenten im Jahr 2024 eine einfache Aufgabe sein, tatsächlich ist es jedoch ein äußerst komplexes, nuanciertes und schwieriges Unterfangen, da Hume AI nicht nur verstehen möchte, ob Benutzer sich „glücklich“, „traurig“, „wütend“, „ängstlich“ oder irgendetwas anderes fühlen fünf bis sieben „universelle“ menschliche Emotionen Kulturübergreifend, kategorisiert anhand der Gesichtsausdrücke des promovierten Psychologen Paul Ekman.
Nein, Hume AI versucht, differenziertere und oft mehrdimensionale Emotionen seiner menschlichen Benutzer zu verstehen. Auf seiner Website Das Startup listet 53 verschiedene Emotionen auf Es ist in der Lage, von einem Benutzer Folgendes zu erkennen:
- Bewunderung
- Anbetung
- Ästhetische Wertschätzung
- Amüsement
- Wut
- Ärger
- Angst
- Scheu
- Unbeholfenheit
- Langeweile
- Ruhe
- Konzentration
- Verwirrung
- Betrachtung
- Verachtung
- Zufriedenheit
- Verlangen
- Wunsch
- Bestimmung
- Enttäuschung
- Missbilligung
- Der Ekel
- Not
- Zweifeln
- Ekstase
- Verlegenheit
- Empathischer Schmerz
- Begeisterung
- Eingang
- Neid
- Aufregung
- Furcht
- Dankbarkeit
- Schuld
- Grusel
- Interesse
- Freude
- Liebe
- Nostalgie
- Schmerz
- Stolz
- Realisierung
- Erleichterung
- Romantik
- Traurigkeit
- Sarkasmus
- Zufriedenheit
- Scham
- Überraschung (negativ)
- Überraschung (positiv)
- Sympathie
- Müdigkeit
- Triumph
Die Theorie von Hume AI besteht darin, dass durch die Entwicklung von KI-Modellen, die in der Lage sind, menschliche Emotionen detaillierter zu verstehen und auszudrücken, es den Benutzern besser dienen kann – als „williges Ohr“, das zuhört und ihre Gefühle verarbeitet, aber auch einen realistischeren und zufriedenstellenderen Kundensupport bietet , Informationsbeschaffung, Kameradschaft, Brainstorming, Zusammenarbeit bei der Wissensarbeit und vieles mehr.
Wie Cowen VentureBeat in einer E-Mail sagte, die über einen Sprecher von Hume AI gesendet wurde:
Wie der EVI von Hume AI Emotionen anhand von Stimmveränderungen erkennt
Wie erfasst der EVI von Hume AI die Hinweise auf Benutzerabsichten und -präferenzen aus den Stimmmodulationen der Benutzer? Das KI-Modell wurde laut Cowen auf „kontrollierten experimentellen Daten von Hunderttausenden Menschen auf der ganzen Welt“ trainiert.
Auf seiner Website stellt Hume fest: „Aus Methoden, die in zwei von Cowen und seinen Kollegen veröffentlichten wissenschaftlichen Forschungsarbeiten beschrieben werden: „Deep Learning enthüllt, was Stimmausbrüche in verschiedenen Kulturen ausdrücken” ab Dezember 2022 und „Deep Learning enthüllt, was Gesichtsausdrücke für Menschen in verschiedenen Kulturen bedeuten” aus diesem Monat.
Der erstes Studium umfasste „16.000 Menschen aus den Vereinigten Staaten, China, Indien, Südafrika und Venezuela“ und ließ eine Untergruppe von ihnen „Vocal Bursts“ oder Nicht-Wort-Geräusche wie Kichern und „uh huhs“ anhören und aufzeichnen und ihnen Emotionen zuordnen für die Forscher. Die Teilnehmer wurden außerdem gebeten, ihre eigenen Stimmausbrüche aufzuzeichnen. Eine andere Teilmenge ließ sich diese dann anhören und diese Emotionen ebenfalls kategorisieren.
Der zweite Studie Dazu gehörten 5.833 Teilnehmer aus denselben fünf oben genannten Ländern sowie Äthiopien und ließen sie an einer Computerumfrage teilnehmen, bei der sie bis zu 30 verschiedene „Samenbilder“ aus einer Datenbank mit 4.659 Gesichtsausdrücken analysierten. Die Teilnehmer wurden gebeten, den Gesichtsausdruck, den sie am Computer sahen, nachzuahmen und die durch den Ausdruck vermittelte Emotion aus einer Liste von 48 Emotionen mit einer Intensitätsskala von 1 bis 100 zu kategorisieren. Hier ist ein Videokomposit von Hume AI zeigt „Hunderttausende Gesichtsausdrücke und Stimmstöße aus Indien, Südafrika, Venezuela, den Vereinigten Staaten, Äthiopien und China“, die in seiner Gesichtsstudie verwendet wurden.
Hume AI nahm die resultierenden Fotos und Audiodaten der Teilnehmer beider Studien auf und trainierte darauf seine eigenen tiefen neuronalen Netze.
Humes EVI selbst sagte mir in einem Interview, das ich mit ihm geführt habe (Haftungsausschluss, dass es sich nicht um eine Person handelt und seine Antworten möglicherweise nicht immer korrekt sind, wie bei den meisten Konversations-KI-Assistenten und Chatbots), dass Humes Team „die größte und vielfältigste Bibliothek menschlicher Daten gesammelt hat.“ emotionale Ausdrücke, die jemals zusammengestellt wurden. Wir sprechen mit über einer Million Teilnehmern aus der ganzen Welt, die an allen möglichen realen Interaktionen beteiligt sind.“
Laut Cowen wurden die Gesangsaudiodaten von Teilnehmern an den Studien von Hume AI auch verwendet, um ein „Sprachprosodiemodell zu erstellen, das die Melodie, den Rhythmus und das Timbre der Sprache misst und in EVI integriert wird“ und das bis zu „48 verschiedene.“ Dimensionen emotionaler Bedeutung.“
Sie können sehen – und hören – ein Hier finden Sie ein interaktives Beispiel des Sprachprosodiemodells von Hume AI mit 25 verschiedenen Stimmmustern.
Das Sprachprosodie-Modell ist es, das die Balkendiagramme verschiedener Emotionen antreibt und deren Proportionen hilfreich und auf eine meiner Meinung nach durchaus ansprechende Art und Weise in der rechten Seitenleiste von angezeigt werden Humes EVI-Online-Demoseite.
Das Sprachprosodiemodell ist nur ein Teil von Hume AIs „Ausdrucksmessungs-API”, mit dem Unternehmenskunden ihre Apps erstellen können. Weitere über die Expression Measurement API zugängliche Attribute sind das Verstehen von Gesichtsausdrücken, Stimmausbrüchen und emotionaler Sprache – letzteres misst „den emotionalen Ton von transkribiertem Text in 53 Dimensionen“.
Hume bietet auch seine an Empathische Sprachschnittstellen-API für den oben erwähnten Sprachassistenten – der nur auf Audio und Mikrofon eines Endbenutzers zugreift – und ein „API für benutzerdefinierte Modelle”das es Benutzern ermöglicht, ihr eigenes Hume-KI-Modell zu trainieren, das auf ihren einzigartigen Datensatz zugeschnitten ist und Muster des menschlichen emotionalen Ausdrucks beispielsweise im Audio- oder Gesichtsausdruck eines Kundenanrufs eines Unternehmens aus ihren Sicherheits-Feeds erkennt.
Ethische Fragen und Richtlinien
Wem nützt diese Arbeit also, außer den Startup-Gründern, die jetzt jede Menge Geld auftreiben?
Hume AI wurde 2021 gegründet, aber laut Cowen hat das Unternehmen bereits Unternehmenskunden, die seine APIs und Technologien nutzen, die „Gesundheit und Wellness, Kundenservice, Coaching/Bildungstechnologie, Benutzertests, klinische Forschung, digitale Gesundheitsversorgung und Robotik umfassen“. .
Wie er in einer per E-Mail des Sprechers verschickten Erklärung näher erläuterte:
Während ich die Demo als überraschend entzückend empfand, sah ich auch die Möglichkeit, dass Menschen möglicherweise von Humes EVI abhängig werden oder auf ungesunde Weise davon besessen werden, wodurch eine Kameradschaft entsteht, die möglicherweise nachgiebiger und leichter zu erreichen ist als bei anderen Menschen . Ich erkenne auch die Möglichkeit an, dass diese Art von Technologie für dunklere, finsterere und möglicherweise schädlichere Zwecke genutzt werden könnte – als Waffe von Kriminellen, Regierungsbehörden, Hackern, Militärs und Paramilitärs für Zwecke wie Verhöre, Manipulation, Betrug, Überwachung, Identität Diebstahl und weitere kriminelle Handlungen.
Direkt nach dieser Möglichkeit gefragt, gab Cowen die folgende Aussage ab:
„“
Zu den zahlreichen Richtlinien, die auf der Website der Hume Initiative aufgeführt sind, gehören die folgenden:
Die Website enthält auch eine Liste von „nicht unterstützte Anwendungsfälle„wie Manipulation, Täuschung, „Optimierung für vermindertes Wohlbefinden“ wie „psychologische Kriegsführung oder Folter“ und „grenzenlose empathische KI“, wobei letzteres darauf hinausläuft, dass die Hume-Initiative und ihre Unterzeichner vereinbaren, „das Machen nicht zu unterstützen“. leistungsstarke Formen empathischer KI, die potenziellen böswilligen Akteuren ohne entsprechende rechtliche und/oder technische Einschränkungen zugänglich sind.“
Allerdings ist die Militarisierung der Technologie nicht ausdrücklich verboten.
Begeisterter erster Empfang
Nicht nur ich war von Humes EVI-Demo beeindruckt. Nach der gestrigen Finanzierungsankündigung und Demo-Veröffentlichung nutzten eine Reihe von Technikern, Unternehmern, Early Adopters und mehr das soziale Netzwerk X (ehemals Twitter), um ihre Bewunderung und ihren Schock darüber zum Ausdruck zu bringen, wie naturalistisch und fortschrittlich die Technologie ist.
„Mit Sicherheit eine der besten KI-Demos, die ich bisher gesehen habe.“ gepostet Guillermo RauchCEO eines Softwareunternehmens für Cloud- und Web-App-Entwickler Vercel. „Unglaubliche Latenz und Leistungsfähigkeit.“
Ähnlich verhielt es sich letzten Monat mit Avi Schiffmann, Gründer und Präsident des gemeinnützigen Unternehmens zur Herstellung humanitärer Web-Tools InternetActivism.org, schrieb, dass Humes EVI-Demo ihn umgehauen habe. „Heilige Scheiße, das wird alles verändern“, fügte er hinzu.
In einer Zeit, in der auch andere KI-Assistenten und Chatbots ihre eigenen Fähigkeiten zur Sprachinteraktion verbessern – wie OpenAI es gerade mit ChatGPT getan hat – hat Hume AI möglicherweise gerade einen neuen Standard für atemberaubende, menschenähnliche Interaktivität, Intonation und Sprechqualitäten gesetzt.
Ein offensichtlicher potenzieller Kunde, Rivale oder potenzieller Käufer, der mir in diesem Fall in den Sinn kommt, ist Amazon, das mit Alexa nach wie vor der bevorzugte Anbieter von Sprachassistenten für viele Menschen ist, seine Sprachangebote jedoch seitdem intern und in den Hintergrund gedrängt hat erklärte, es würde die Zahl der Mitarbeiter in dieser Abteilung reduzieren.
Gefragt von VentureBeat: „Haben Sie Gespräche mit größeren Unternehmen wie Amazon, Microsoft usw. geführt oder wurden Sie wegen Partnerschaften/Akquisitionen von diesen angesprochen?“ Ich könnte mir vorstellen, dass insbesondere Amazon großes Interesse an dieser Technologie hat, da es sich im Vergleich zu Amazons Alexa um einen deutlich verbesserten Sprachassistenten zu handeln scheint“, antwortete Cowen per E-Mail: „Kein Kommentar.“