Microsoft erforscht einen Weg, um Beitragende für das Training von KI-Daten zu belohnen

Intelligente Informationen

Wednesday, April 16 2025

Microsoft startet ein Forschungsprojekt, um den Einfluss bestimmter Trainingsbeispiele auf den Text, Bilder und andere Arten von Medien zu schätzen, die von generativen KI-Modellen erstellt werden.

\n\n

Das geht aus einer Stellenausschreibung hervor, die auf Dezember zurückgeht und kürzlich auf LinkedIn erneut verbreitet wurde.

\n\n

Laut der Ausschreibung, die nach einem Forschungspraktikanten sucht, wird das Projekt versuchen zu zeigen, dass Modelle so trainiert werden können, dass der Einfluss bestimmter Daten - z.B. Fotos und Bücher - auf ihre Ausgaben "effizient und nützlich geschätzt werden kann.

\n\n

„Aktuelle neuronale Netzwerkarchitekturen sind undurchsichtig, was die Quellen für ihre Generationen betrifft, und es gibt [...] gute Gründe, dies zu ändern,", heißt es in der Anzeige. „Einer davon ist Anreize, Anerkennung und möglicherweise Bezahlung für Personen, die bestimmte wertvolle Daten für unvorhergesehene Arten von Modellen beitragen, die wir in Zukunft haben möchten, vorausgesetzt, die Zukunft wird uns grundlegend überraschen.

\n\n

Von durch KI betriebenen Text-, Code-, Bild-, Video- und Musikgeneratoren sind zahlreiche geistige Eigentumsklagen gegen KI-Unternehmen anhängig. Oft trainieren diese Unternehmen ihre Modelle auf riesigen Datenmengen von öffentlichen Websites, von denen einige urheberrechtlich geschützt sind. Viele der Unternehmen argumentieren, dass die Fair-Use-Doktrin ihre Datensammlungs- und Trainingspraktiken abschirmt. Kreative - von Künstlern über Programmierer bis hin zu Autoren - sind jedoch größtenteils anderer Meinung.

\n\n

Auch Microsoft sieht sich mindestens zwei rechtlichen Herausforderungen von Rechteinhabern gegenüber.

\n\n

Die New York Times verklagte den Technologieriesen und seinen gelegentlichen Partner OpenAI im Dezember und warf den beiden Unternehmen vor, das Urheberrecht der Times zu verletzen, indem sie Modelle einsetzten, die auf Millionen ihrer Artikel trainiert wurden. Mehrere Softwareentwickler haben ebenfalls Klage gegen Microsoft eingereicht und behauptet, dass der AI-Codierungsassistent GitHub Copilot des Unternehmens rechtswidrig unter Verwendung ihrer geschützten Werke trainiert wurde.

\n\n

Microsofts neues Forschungsvorhaben, das in der Anzeige als „Herkunftsverfolgung zur Trainingszeit“ beschrieben wird, soll Berichten zufolge die Beteiligung von Jaron Lanier haben, dem erfahrenen Technologen und interdisziplinären Wissenschaftler bei Microsoft Research. In einem Artikel vom April 2023 in The New Yorker schrieb Lanier über das Konzept der „Datenwürde“, was für ihn bedeutet, „digitale Dinge“ mit den „Menschen zu verbinden, die dafür bekannt sein möchten, sie geschaffen zu haben“.

\n\n

„Ein datenwürdiger Ansatz würde die einflussreichsten und einzigartigsten Beitragenden verfolgen, wenn ein großes Modell eine wertvolle Ausgabe liefert“, schrieb Lanier. „Wenn Sie zum Beispiel ein Modell nach ‚einem animierten Film meiner Kinder in einer Welt aus Ölgemälden von sprechenden Katzen auf einem Abenteuer‘ fragen, könnten bestimmte Schlüsselmaler, Katzenporträtisten, Synchronsprecher und Autoren - oder ihre Nachlässe - als einzigartig wesentlich für die Schaffung des neuen Meisterwerks berechnet worden sein. Sie würden anerkannt und motiviert werden. Sie könnten sogar bezahlt werden.“

\n\n

Es gibt bereits mehrere Unternehmen, die dies versuchen. Der KI-Modellentwickler Bria, der kürzlich 40 Millionen Dollar Risikokapital eingesammelt hat, behauptet, Dateninhaber „programmgesteuert“ entsprechend ihrer „gesamten Einfluss“ zu entschädigen. Adobe und Shutterstock zahlen auch regelmäßig an Datensatzbeitragende aus, obwohl die genauen Auszahlungsbeträge oft undurchsichtig sind.

\n\n

Einige große Labore haben außerhalb des Abschlusses von Lizenzvereinbarungen mit Verlagen, Plattformen und Datensammlern individuelle Beitragenden-Auszahlungsprogramme eingerichtet. Stattdessen haben sie Mittel für Rechteinhaber geschaffen, sich „abzumelden“ vom Training. Einige dieser Opt-Out-Prozesse sind jedoch mühsam und gelten nur für zukünftige Modelle - nicht für bereits trainierte.

\n\n

Natürlich könnte Microsofts Projekt nicht mehr als ein Konzeptnachweis sein. Es gibt Präzedenzfälle dafür. Im Mai sagte OpenAI, dass es eine ähnliche Technologie entwickelte, die es Schöpfern ermöglichen würde, festzulegen, wie ihre Werke in das Trainingsmaterial einbezogen werden sollen oder nicht. Doch fast ein Jahr später ist das Tool noch nicht erschienen und wurde intern oft nicht als Priorität angesehen.

\n\n

Microsoft könnte hier auch versuchen, „Ethikwaschung“ durchzuführen - oder regulatorischen und/oder gerichtlichen Entscheidungen vorzugreifen, die den Betrieb seiner KI-Geschäfte stören könnten.

\n\n

Dass das Unternehmen Wege erforscht, um Trainingsdaten nachzuvollziehen, ist angesichts der kürzlich geäußerten Standpunkte anderer KI-Labors zur fair use bemerkenswert. Mehrere der Top-Labore, darunter Google und OpenAI, haben Policy-Dokumente veröffentlicht, in denen sie empfehlen, dass die Trump-Regierung die Urheberrechtsschutzrechte hinsichtlich der KI-Entwicklung schwächt. OpenAI hat explizit die US-Regierung aufgefordert, fair use für das Modelltraining zu kodifizieren, was die Entwickler von belastenden Beschränkungen befreien würde.

\n\n

Microsoft hat nicht sofort auf eine Anfrage nach Kommentar reagiert.

Intelligente Informationen

Microsoft erforscht einen Weg, um Beitragende für das Training von KI-Daten zu belohnen

Recent Posts

Dieses Gaming-Startup versucht zu zeigen, dass 'AI + Krypto' kein vorübergehender Trend ist

A16z's Joshua Lu sagt, dass KI bereits Videospiele radikal verändert und Discord die Zukunft ist

Guardians sichern sich mit Giménezs 2-Run-Homerun und Boyds starkem Auftritt einen 3:1-Sieg gegen die Dodgers

Google X gründet Heritable Agriculture, ein Startup, das KI zur Verbesserung des Ernteertrags nutzt

Moon Rover erhält 3,5 Millionen Dollar von NCSoft zur Entwicklung von aufstrebenden FPS-Spielen