
Das japanische Startup Sakana gab bekannt, dass ihre KI den ersten peer-reviewed wissenschaftlichen Artikel generiert hat. Aber obwohl die Behauptung nicht falsch ist, gibt es bedeutende Einschränkungen zu beachten.
Der in der Diskussion um KI und ihre Rolle im wissenschaftlichen Prozess brodelnde Streit nimmt von Tag zu Tag zu. Viele Forscher glauben nicht, dass KI schon bereit ist, als 'Mitwissenschaftler' zu dienen, während andere das Potenzial sehen — aber zugestehen, dass es noch früh ist.
Sakana gehört zu letzterer Gruppe.
Das Unternehmen sagte, dass es ein KI-System namens The AI Scientist-v2 verwendete, um einen Artikel zu generieren, den Sakana dann bei einem Workshop auf der ICLR, einer langjährigen und renommierten KI-Konferenz, eingereicht hat. Sakana behauptet, dass die Organisatoren des Workshops sowie die Führung der ICLR zugestimmt hatten, mit dem Unternehmen zusammenzuarbeiten, um ein Experiment zur doppelt verblindeten Begutachtung von KI-generierten Manuskripten durchzuführen.
Sakana sagte, dass es mit Forschern der University of British Columbia und der University of Oxford zusammengearbeitet hat, um drei KI-generierte Artikel bei dem genannten Workshop zur Begutachtung einzureichen. Der AI Scientist-v2 generierte die Artikel 'von Anfang bis Ende', behauptet Sakana, einschließlich der wissenschaftlichen Hypothesen, Experimente und experimentellen Code, Datenanalysen, Visualisierungen, Texte und Titel.
'Wir haben Forschungsideen generiert, indem wir dem KI das Workshop-Abstract und die Beschreibung bereitgestellt haben', sagte Robert Lange, ein Forschungswissenschaftler und Gründungsmitglied bei Sakana, gegenüber TechCrunch per E-Mail. 'Dadurch wurde sichergestellt, dass die generierten Artikel zum Thema passend und geeignet waren.'
Einer der drei Artikel wurde für den ICLR-Workshop akzeptiert — ein Artikel, der einen kritischen Blick auf Trainingsmethoden für KI-Modelle wirft. Sakana sagte, dass es den Artikel sofort zurückzog, bevor er veröffentlicht werden konnte, im Interesse der Transparenz und des Respekts vor den ICLR-Konventionen.

'Der akzeptierte Artikel stellt sowohl eine neue vielversprechende Methode zur Schulung neuronaler Netze vor als auch zeigt er, dass es noch verbleibende empirische Herausforderungen gibt', sagte Lange. 'Er liefert einen interessanten Datenpunkt, um weitere wissenschaftliche Untersuchungen anzustoßen.'
Aber die Leistung ist nicht so beeindruckend, wie es auf den ersten Blick erscheinen mag.
In einem Blogbeitrag gibt Sakana zu, dass ihre KI gelegentlich 'peinliche' Zitierfehler gemacht hat, z.B. indem sie eine Methode fälschlicherweise einem Papier von 2016 zugeordnet hat, anstatt dem Original von 1997.
Sakanas Artikel wurde auch nicht so gründlich geprüft wie einige andere peer-reviewed Veröffentlichungen. Da das Unternehmen ihn nach der ersten Prüfung zurückzog, erhielt der Artikel keine zusätzliche 'Meta-Prüfung', bei der die Workshop-Organisatoren ihn theoretisch ablehnen könnten.
Hinzu kommt, dass die Akzeptanzraten für Konferenz-Workshops tendenziell höher sind als die Akzeptanzraten für den Haupt-'Konferenztrack' — ein Umstand, den Sakana ehrlich in ihrem Blogbeitrag erwähnt. Das Unternehmen sagte, dass keines seiner KI-generierten Studien den internen Maßstab für die Veröffentlichung im ICLR-Konferenztrack erfüllt hat.
Matthew Guzdial, ein KI-Forscher und Assistenzprofessor an der University of Alberta, nannte die Ergebnisse von Sakana 'ein wenig irreführend'.
'Die Sakana-Leute haben die Artikel aus einigen generierten ausgewählt, was bedeutet, dass sie menschliche Beurteilung verwendet haben, um Ausgaben auszuwählen, von denen sie dachten, dass sie angenommen werden könnten', sagte er per E-Mail. 'Was ich denke, dass das zeigt, ist dass Menschen plus KI effektiv sein können, nicht dass KI allein wissenschaftlichen Fortschritt schaffen kann.'
Mike Cook, ein Forschungsstipendiat am King's College London, der sich auf KI spezialisiert hat, zweifelte an der Strenge der Gutachter und des Workshops.
'Neue Workshops, wie dieser, werden oft von jüngeren Forschern begutachtet', sagte er TechCrunch. 'Es ist auch erwähnenswert, dass dieser Workshop über negative Ergebnisse und Schwierigkeiten geht — was super ist, ich habe bereits einen ähnlichen Workshop geleitet — aber es ist möglicherweise einfacher, eine KI über ein Scheitern überzeugend schreiben zu lassen.'
Cook fügte hinzu, dass es ihn nicht überrascht, dass eine KI das Peer-Review bestehen kann, bedenkt man, dass KI darin glänzt, menschenähnliche Prosa zu schreiben. Teilweise KI-generierte Artikel, die das Journal-Review bestehen, sind nicht einmal neu, merkte Cook an, genauso wie die ethischen Dilemmata, die dies für die Wissenschaften darstellt.
Die technischen Mängel von KI — wie ihre Tendenz zum 'Halluzinieren' — machen viele Wissenschaftler vorsichtig, sie für ernsthafte Arbeit zu befürworten. Darüber hinaus befürchten Experten, dass KI einfach nur Lärm in der wissenschaftlichen Literatur erzeugen könnte, anstatt Fortschritt zu fördern.
'Wir müssen uns fragen, ob [Sakanas] Ergebnis darum geht, wie gut KI bei der Gestaltung und Durchführung von Experimenten ist, oder ob es darum geht, wie gut sie darin ist, Ideen an Menschen zu verkaufen — was wir wissen, dass KI bereits großartig kann', sagte Cook. 'Es gibt einen Unterschied zwischen dem Bestehen des peer reviews und dem Beitrag zum Wissen in einem Bereich.'
Zu Sakanas Kredit macht das Unternehmen keine Behauptung, dass ihre KI bahnbrechende — oder auch nur besonders neuartige — wissenschaftliche Arbeit produzieren kann. Vielmehr war das Ziel des Experiments, 'die Qualität der KI-generierten Forschung zu untersuchen', wie das Unternehmen sagte, und die dringende Notwendigkeit für 'Normen in Bezug auf KI-generierte Wissenschaft' aufzuzeigen.
'Es gibt schwierige Fragen darüber, ob [KI-generierte] Wissenschaft zunächst nach ihren eigenen Verdiensten beurteilt werden sollte, um Vorurteile dagegen zu vermeiden', schrieb das Unternehmen. 'In Zukunft werden wir den Meinungsaustausch mit der Forschergemeinschaft über den Stand dieser Technologie fortsetzen, um sicherzustellen, dass sie sich nicht zu einer Situation entwickelt, in der ihr einziger Zweck darin besteht, das Peer Review zu bestehen, was den Wert des wissenschaftlichen Peer-Review-Prozesses erheblich untergraben würde.'