
Microsoft startet ein Forschungsprojekt, um den Einfluss bestimmter Trainingsbeispiele auf den Text, Bilder und andere Arten von Medien zu schätzen, die von generativen KI-Modellen erstellt werden.
\n\nDas geht aus einer Stellenausschreibung hervor, die auf Dezember zurückgeht und kürzlich auf LinkedIn erneut verbreitet wurde.
\n\nLaut der Ausschreibung, die nach einem Forschungspraktikanten sucht, wird das Projekt versuchen zu zeigen, dass Modelle so trainiert werden können, dass der Einfluss bestimmter Daten - z.B. Fotos und Bücher - auf ihre Ausgaben "effizient und nützlich geschätzt werden kann.
\n\n„Aktuelle neuronale Netzwerkarchitekturen sind undurchsichtig, was die Quellen für ihre Generationen betrifft, und es gibt [...] gute Gründe, dies zu ändern,", heißt es in der Anzeige. „Einer davon ist Anreize, Anerkennung und möglicherweise Bezahlung für Personen, die bestimmte wertvolle Daten für unvorhergesehene Arten von Modellen beitragen, die wir in Zukunft haben möchten, vorausgesetzt, die Zukunft wird uns grundlegend überraschen.
\n\nVon durch KI betriebenen Text-, Code-, Bild-, Video- und Musikgeneratoren sind zahlreiche geistige Eigentumsklagen gegen KI-Unternehmen anhängig. Oft trainieren diese Unternehmen ihre Modelle auf riesigen Datenmengen von öffentlichen Websites, von denen einige urheberrechtlich geschützt sind. Viele der Unternehmen argumentieren, dass die Fair-Use-Doktrin ihre Datensammlungs- und Trainingspraktiken abschirmt. Kreative - von Künstlern über Programmierer bis hin zu Autoren - sind jedoch größtenteils anderer Meinung.
\n\nAuch Microsoft sieht sich mindestens zwei rechtlichen Herausforderungen von Rechteinhabern gegenüber.
\n\nDie New York Times verklagte den Technologieriesen und seinen gelegentlichen Partner OpenAI im Dezember und warf den beiden Unternehmen vor, das Urheberrecht der Times zu verletzen, indem sie Modelle einsetzten, die auf Millionen ihrer Artikel trainiert wurden. Mehrere Softwareentwickler haben ebenfalls Klage gegen Microsoft eingereicht und behauptet, dass der AI-Codierungsassistent GitHub Copilot des Unternehmens rechtswidrig unter Verwendung ihrer geschützten Werke trainiert wurde.
\n\nMicrosofts neues Forschungsvorhaben, das in der Anzeige als „Herkunftsverfolgung zur Trainingszeit“ beschrieben wird, soll Berichten zufolge die Beteiligung von Jaron Lanier haben, dem erfahrenen Technologen und interdisziplinären Wissenschaftler bei Microsoft Research. In einem Artikel vom April 2023 in The New Yorker schrieb Lanier über das Konzept der „Datenwürde“, was für ihn bedeutet, „digitale Dinge“ mit den „Menschen zu verbinden, die dafür bekannt sein möchten, sie geschaffen zu haben“.
\n\n„Ein datenwürdiger Ansatz würde die einflussreichsten und einzigartigsten Beitragenden verfolgen, wenn ein großes Modell eine wertvolle Ausgabe liefert“, schrieb Lanier. „Wenn Sie zum Beispiel ein Modell nach ‚einem animierten Film meiner Kinder in einer Welt aus Ölgemälden von sprechenden Katzen auf einem Abenteuer‘ fragen, könnten bestimmte Schlüsselmaler, Katzenporträtisten, Synchronsprecher und Autoren - oder ihre Nachlässe - als einzigartig wesentlich für die Schaffung des neuen Meisterwerks berechnet worden sein. Sie würden anerkannt und motiviert werden. Sie könnten sogar bezahlt werden.“
\n\nEs gibt bereits mehrere Unternehmen, die dies versuchen. Der KI-Modellentwickler Bria, der kürzlich 40 Millionen Dollar Risikokapital eingesammelt hat, behauptet, Dateninhaber „programmgesteuert“ entsprechend ihrer „gesamten Einfluss“ zu entschädigen. Adobe und Shutterstock zahlen auch regelmäßig an Datensatzbeitragende aus, obwohl die genauen Auszahlungsbeträge oft undurchsichtig sind.
\n\nEinige große Labore haben außerhalb des Abschlusses von Lizenzvereinbarungen mit Verlagen, Plattformen und Datensammlern individuelle Beitragenden-Auszahlungsprogramme eingerichtet. Stattdessen haben sie Mittel für Rechteinhaber geschaffen, sich „abzumelden“ vom Training. Einige dieser Opt-Out-Prozesse sind jedoch mühsam und gelten nur für zukünftige Modelle - nicht für bereits trainierte.
\n\nNatürlich könnte Microsofts Projekt nicht mehr als ein Konzeptnachweis sein. Es gibt Präzedenzfälle dafür. Im Mai sagte OpenAI, dass es eine ähnliche Technologie entwickelte, die es Schöpfern ermöglichen würde, festzulegen, wie ihre Werke in das Trainingsmaterial einbezogen werden sollen oder nicht. Doch fast ein Jahr später ist das Tool noch nicht erschienen und wurde intern oft nicht als Priorität angesehen.
\n\nMicrosoft könnte hier auch versuchen, „Ethikwaschung“ durchzuführen - oder regulatorischen und/oder gerichtlichen Entscheidungen vorzugreifen, die den Betrieb seiner KI-Geschäfte stören könnten.
\n\nDass das Unternehmen Wege erforscht, um Trainingsdaten nachzuvollziehen, ist angesichts der kürzlich geäußerten Standpunkte anderer KI-Labors zur fair use bemerkenswert. Mehrere der Top-Labore, darunter Google und OpenAI, haben Policy-Dokumente veröffentlicht, in denen sie empfehlen, dass die Trump-Regierung die Urheberrechtsschutzrechte hinsichtlich der KI-Entwicklung schwächt. OpenAI hat explizit die US-Regierung aufgefordert, fair use für das Modelltraining zu kodifizieren, was die Entwickler von belastenden Beschränkungen befreien würde.
\n\nMicrosoft hat nicht sofort auf eine Anfrage nach Kommentar reagiert.