Figure's humanoid robot nimmt Sprachbefehle entgegen, um im Haushalt zu helfen

Figure founder and CEO Brett Adcock hat am Donnerstag ein neues maschinelles Lernmodell für humanoide Roboter vorgestellt. Die Nachricht kommt zwei Wochen nachdem Adcock die Entscheidung der Bay Area-Robotikfirma bekannt gegeben hat, sich von einer OpenAI-Kollaboration zurückzuziehen, und dreht sich um Helix, ein 'generalistisches' Vision-Language-Action (VLA)-Modell.

VLAs sind ein neues Phänomen für die Robotik, das Seh- und Sprachbefehle nutzt, um Informationen zu verarbeiten. Derzeit ist das bekannteste Beispiel dieser Kategorie Google DeepMind's RT-2, der Roboter durch eine Kombination von Video und großen Sprachmodellen (LLMs) trainiert.

Helix funktioniert ähnlich, indem es visuelle Daten und Sprachanweisungen kombiniert, um einen Roboter in Echtzeit zu steuern. Figure schreibt: 'Helix zeigt eine starke Objektverallgemeinerung, indem es in der Lage ist, Tausende von neuen Haushaltsgegenständen mit unterschiedlichen Formen, Größen, Farben und Materialeigenschaften aufzunehmen, die während des Trainings nie zuvor gesehen wurden, einfach durch die Frage in natürlicher Sprache.'

Bildcredits: Figure

In einer idealen Welt könnten Sie einem Roboter einfach sagen, was er tun soll, und er würde es einfach tun. Hier kommt Helix ins Spiel, laut Figure. Die Plattform ist darauf ausgelegt, die Lücke zwischen der Visual- und Sprachverarbeitung zu schließen. Nach Erhalt einer natürlichen Sprachstimmenaufforderung beurteilt der Roboter seine Umgebung visuell und führt dann die Aufgabe aus.

Figure bietet Beispiele wie: 'Geben Sie die Tüte mit Keksen an den Roboter rechts von Ihnen' oder 'Empfangen Sie die Tüte mit Keksen vom Roboter links von Ihnen und legen Sie sie in die offene Schublade'. Beide Beispiele beinhalten ein Paar Roboter, die zusammenarbeiten. Dies liegt daran, dass Helix darauf ausgelegt ist, gleichzeitig zwei Roboter zu steuern, wobei einer dem anderen hilft, verschiedene Haushaltsaufgaben zu erledigen.

Figure präsentiert das VLM, indem das Unternehmen die Arbeiten zeigt, die es mit seinem humanoiden Roboter 02 im häuslichen Umfeld durchgeführt hat. Häuser sind für Roboter berüchtigt schwierig, da ihnen die Struktur und Konsistenz von Lagern und Fabriken fehlt.

Schwierigkeiten beim Lernen und Steuern sind die Hauptprobleme, die zwischen komplexen Robotersystemen und dem Haushalt stehen. Zusammen mit Preisschildern im fünf- bis sechsstelligen Bereich sind dies die Gründe, warum der Heimroboter für die meisten humanoiden Robotikunternehmen nicht im Vordergrund steht. Im Allgemeinen ist der Ansatz, Roboter für Industriekunden zu bauen, um die Zuverlässigkeit zu verbessern und die Kosten zu senken, bevor man sich den Wohnungen zuwendet. Hausarbeiten sind erst in einigen Jahren ein Thema.

Als TechCrunch 2024 die Büros von Figure in der Bay Area besuchte, präsentierte Adcock einige der Herausforderungen, denen das Unternehmen seinen humanoiden Roboter im häuslichen Umfeld aussetzte. Damals schien die Arbeit nicht Priorität zu haben, da sich Figure auf Pilotprojekte mit Unternehmen wie BMW konzentriert.

Bildcredits: Figure

Mit der Ankündigung von Helix am Donnerstag macht Figure deutlich, dass das Zuhause ein eigenständiger Schwerpunkt sein sollte. Es ist eine anspruchsvolle und komplexe Umgebung für das Testen dieser Trainingsmodelle. Roboter komplexe Aufgaben in der Küche beizubringen - zum Beispiel - eröffnet ihnen eine breite Palette von Aktionen in verschiedenen Umgebungen.

'Damit Roboter in Haushalten nützlich sein können, müssen sie in der Lage sein, intelligent neue Verhaltensweisen auf Abruf zu generieren, insbesondere für Objekte, die sie noch nie zuvor gesehen haben', sagt Figure. 'Roboter auch nur eine neue Verhaltensweise beizubringen erfordert derzeit erheblichen menschlichen Aufwand: entweder Stunden von manueller Programmierung auf PhD-Niveau oder tausende von Vorführungen.'

Manuelle Programmierung wird im Haushalt nicht skalieren. Es gibt einfach zu viele Unbekannte. Küchen, Wohnzimmer und Badezimmer variieren dramatisch voneinander. Das Gleiche gilt für die Werkzeuge, die zum Kochen und Reinigen verwendet werden. Außerdem hinterlassen Menschen Unordnung, richten Möbel um und bevorzugen eine Reihe verschiedener Umgebungsbeleuchtungen. Diese Methode ist zeitaufwändig und kostspielig - obwohl Figure sicherlich genügend von Letzterem hat.

Die andere Option ist Training - und viel davon. Roboterarme, die in Labors darauf trainiert sind, Objekte zu greifen und zu platzieren, verwenden oft diese Methode. Was man nicht sieht, sind die hunderten Stunden Wiederholung, die erforderlich sind, um eine Demo robust genug zu machen, um hochvariable Aufgaben zu bewältigen. Um etwas beim ersten Mal richtig aufzuheben, muss ein Roboter dies in der Vergangenheit bereits hunderte Male getan haben.

Wie bei so vielen Themen rund um humanoide Robotik befindet sich die Arbeit an Helix derzeit noch in einem sehr frühen Stadium. Die Zuschauer sollten darauf hingewiesen werden, dass viel Arbeit im Hintergrund geleistet wird, um die Art von kurzen, gut produzierten Videos zu erstellen, die in diesem Beitrag zu sehen sind. Die heutige Ankündigung ist im Grunde ein Rekrutierungstool, um mehr Ingenieure an Bord zu holen, um das Projekt weiter wachsen zu lassen.