Apple sagt, dass es einen 'verantwortungsbewussten' Ansatz zur Schulung seiner Apple-Intelligenzmodelle verfolgt hat

Apple hat ein technisches Papier veröffentlicht, das die Modelle detailliert beschreibt, die es entwickelt hat, um die Apple-Intelligenz zu steuern, die in den nächsten Monaten auf iOS, macOS und iPadOS verfügbar sein wird.

In dem Papier wehrt sich Apple gegen Vorwürfe, dass es einen ethisch fragwürdigen Ansatz zur Schulung einiger seiner Modelle gewählt hat, und betont, dass es keine privaten Benutzerdaten verwendet hat und auf eine Kombination von öffentlich verfügbaren und lizenzierten Daten für die Apple-Intelligenz zurückgegriffen hat.

„[Der] Vor-Trainingsdatensatz besteht aus ... Daten, die wir von Verlagen lizenziert haben, kuratierten öffentlich verfügbaren oder Open-Source-Datensätzen und öffentlich verfügbaren Informationen, die von unserem Webcrawler, Applebot, durchsucht wurden“, schreibt Apple im Papier. „Angesichts unseres Schwerpunkts auf den Schutz der Privatsphäre der Benutzer beachten wir, dass keine privaten Apple-Benutzerdaten in der Datensammlung enthalten sind.“

Im Juli berichtete Proof News, dass Apple einen Datensatz namens The Pile verwendet hat, der Untertitel von Hunderttausenden von YouTube-Videos enthält, um eine Familie von Modellen zu schulen, die für die On-Device-Verarbeitung konzipiert sind. Viele YouTube-Ersteller, deren Untertitel in The Pile aufgenommen wurden, waren sich dessen nicht bewusst und haben dem nicht zugestimmt; Apple veröffentlichte später eine Erklärung, dass es nicht beabsichtigt war, diese Modelle zur Stromversorgung von KI-Funktionen in seinen Produkten zu verwenden.

Das technische Papier, das die Modelle enthüllt, die Apple erstmals im Juni 2024 auf der WWDC vorgestellt hat, die sogenannten Apple Foundation Models (AFM), hebt hervor, dass die Trainingsdaten für die AFM-Modelle auf verantwortungsvolle Weise beschafft wurden - oder zumindest nach Apples Definition verantwortungsbewusst.

Die Trainingsdaten der AFM-Modelle umfassen öffentlich verfügbare Webdaten sowie lizenzierte Daten von ungenannten Verlagen. Laut The New York Times hat Apple gegen Ende des Jahres 2023 mehrere Verlage kontaktiert, darunter NBC, Condé Nast und IAC, um mehrjährige Deals im Wert von mindestens 50 Millionen US-Dollar abzuschließen, um Modelle auf den Nachrichtenarchiven der Verlage zu schulen. Apples AFM-Modelle wurden auch mit Open-Source-Code auf GitHub trainiert, insbesondere mit Swift-, Python-, C-, Objective-C-, C++, JavaScript-, Java- und Go-Code.

Das Training von Modellen auf Code ohne Genehmigung, auch auf offenem Code, ist ein umstrittener Punkt unter Entwicklern. Einige Open-Source-Codebasen sind nicht lizenziert oder erlauben keine KI-Schulung in ihren Nutzungsbedingungen, argumentieren einige Entwickler. Aber Apple sagt, dass es den Code „lizenzgefiltert“ hat, um nur Repositorys mit minimalen Nutzungsbeschränkungen einzubeziehen, wie beispielsweise solche unter einer MIT-, ISC- oder Apache-Lizenz.

Um die mathematischen Fähigkeiten der AFM-Modelle zu verbessern, hat Apple speziell Mathematikfragen und -antworten von Webseiten, Mathematikforen, Blogs, Tutorials und Seminaren in den Trainingsdatensatz aufgenommen, so das Papier. Das Unternehmen griff auch auf „hochwertige, öffentlich verfügbare“ Datensätze zurück (die im Papier nicht genannt werden) mit „Lizenzen, die die Verwendung zur Schulung von ... Modellen erlauben“, die gefiltert wurden, um sensible Informationen zu entfernen.

Insgesamt wiegt der Trainingsdatensatz für die AFM-Modelle rund 6,3 Billionen Tokens. (Tokens sind bissgroße Datenstücke, die für generative KI-Modelle im Allgemeinen einfacher zu verarbeiten sind.) Zum Vergleich, das sind weniger als die Hälfte der Tokens - 15 Billionen -, die Meta verwendet hat, um sein Flaggschiff-Textgenerierungsmodell, Llama 3.1 405B, zu trainieren.

Apple beschaffte zusätzliche Daten, einschließlich Daten von menschlichem Feedback und synthetischen Daten, um die AFM-Modelle zu optimieren und unerwünschte Verhaltensweisen wie Toxizität zu mildern.

„Unsere Modelle wurden mit dem Zweck geschaffen, Benutzern jeden Tag bei ihren Apple-Produkten zu helfen, gegründet auf den Kernwerten von Apple und verwurzelt in unseren verantwortungsbewussten KI-Prinzipien in jeder Phase“, sagt das Unternehmen.

Es gibt keine Rauchbombe oder schockierende Erkenntnisse im Papier - und das ist sorgfältig geplant. Selten sind solche Papiere sehr aufschlussreich, aufgrund von Wettbewerbsdruck, aber auch weil zu viel preiszugeben, Unternehmen rechtliche Probleme einbringen könnte.

Einige Unternehmen, die Modelle durch Scraping öffentlicher Webdaten trainieren, behaupten, dass ihre Praxis durch die fair use-doctrine geschützt ist. Aber es ist eine Angelegenheit, über die heftig debattiert wird und die Gegenstand einer wachsenden Zahl von Klagen ist.

In dem Papier merkt Apple an, dass es Webmastern erlaubt, seinen Crawler daran zu hindern, ihre Daten zu durchsuchen. Aber das lässt einzelne Ersteller im Stich. Was soll ein Künstler zum Beispiel tun, wenn sein Portfolio auf einer Seite gehostet wird, die sich weigert, das Daten-Scrapping von Apple zu blockieren?

Gerichtsverfahren werden über das Schicksal von generativen KI-Modellen und ihrer Schulung entscheiden. Aber im Moment versucht sich Apple als ethischer Akteur zu positionieren, während es unerwünschter rechtlicher Prüfung aus dem Weg geht.