OpenAI's neue GPT-4.1 KI-Modelle konzentrieren sich auf das Codieren

OpenAI hat am Montag eine neue Modellfamilie namens GPT-4.1 eingeführt. Ja, "4.1" - als ob die Nomenklatur des Unternehmens nicht schon verwirrend genug wäre. Es gibt GPT-4.1, GPT-4.1 Mini und GPT-4.1 Nano, von denen OpenAI sagt, dass sie sich hervorragend beim Codieren und der Befolgung von Anweisungen bewähren. Die multimodalen Modelle sind über die OpenAI-API verfügbar, jedoch nicht über ChatGPT, und verfügen über ein 1-Millionen-Token-Kontextfenster, das bedeutet, dass sie ungefähr 750.000 Wörter auf einmal aufnehmen können (länger als "Krieg und Frieden"). GPT-4.1 kommt, während OpenAI-Rivalen wie Google und Anthropic ihre Bemühungen verstärken, hochentwickelte Programmiermodelle zu entwickeln. Googles kürzlich veröffentlichtes Gemini 2.5 Pro, das auch über ein 1-Millionen-Token-Kontextfenster verfügt, rangiert in gängigen Codierungstests sehr hoch. Das gleiche gilt für Anthropics Claude 3.7 Sonnet und das aufgerüstete V3 des chinesischen KI-Startups DeepSeek. Es ist das Ziel vieler Technologieriesen, einschließlich OpenAI, KI-Codierungsmodelle zu trainieren, die komplexe Software-Engineering-Aufgaben ausführen können. OpenAIs großes Ziel ist es, einen "agierenden Software-Engineer" zu erschaffen, wie CFO Sarah Friar es während eines Tech-Gipfels in London letzten Monat ausdrückte. Das Unternehmen behauptet, dass seine zukünftigen Modelle in der Lage sein werden, vollständige Apps von Anfang bis Ende zu programmieren, Aspekte wie Qualitätssicherung, Fehlerprüfung und Dokumentationserstellung zu übernehmen. GPT-4.1 ist ein Schritt in diese Richtung. 'Wir haben GPT-4.1 basierend auf direktem Feedback für den praxisnahen Einsatz optimiert, um in Bereichen, die Entwickler besonders wichtig sind, zu verbessern: Frontend-Codierung, weniger überflüssige Änderungen, zuverlässiges Befolgen von Formaten, Einhaltung der Antwortstruktur und -reihenfolge, konsistente Werkzeugverwendung und mehr', erklärte ein OpenAI-Sprecher via E-Mail gegenüber TechCrunch. 'Diese Verbesserungen ermöglichen es Entwicklern, Agenten zu bauen, die wesentlich besser in praxisnahen Software-Engineering-Aufgaben sind.' OpenAI behauptet, dass das vollständige GPT-4.1-Modell seine GPT-4o- und GPT-4o-Mini-Modelle in Codierungstests, einschließlich von SWE-Bench, übertrifft. GPT-4.1 Mini und Nano sollen effizienter und schneller sein, aber zu Lasten einiger Genauigkeit, wobei OpenAI behauptet, dass GPT-4.1 Nano sein schnellstes - und günstigstes - Modell aller Zeiten ist. GPT-4.1 kostet 2 USD pro Million Eingabetoken und 8 USD pro Million Ausgabetoken. GPT-4.1 Mini kostet 0,40 USD/Million Eingabetoken und 1,60 USD/Million Ausgabetoken, und GPT-4.1 Nano kostet 0,10 USD/Million Eingabetoken und 0,40 USD/Million Ausgabetoken. Laut internen Tests von OpenAI erzielte GPT-4.1, das mehr Tokens auf einmal generieren kann als GPT-4o (32.768 gegenüber 16.384), auf SWE-Bench Verified, einem vom Menschen validierten Teil von SWE-Bench, zwischen 52 % und 54,6 %. In einer separaten Bewertung untersuchte OpenAI GPT-4.1 mit Video-MME, das darauf ausgelegt ist, die Fähigkeit eines Modells zu messen, den Inhalt von Videos zu 'verstehen'. GPT-4.1 erreichte eine Spitzenwertung von 72 % Genauigkeit in der Kategorie 'lang, keine Untertitel' Videos, behauptet OpenAI. Obwohl GPT-4.1 vernünftig gut bei Tests abschneidet und einen neueren "Wissensabschnitt" aufweist, was ihm einen besseren Bezugspunkt für aktuelle Ereignisse (bis Juni 2024) gibt, ist es wichtig zu bedenken, dass selbst einige der besten Modelle heute mit Aufgaben kämpfen, die Experten nicht stören würden. Zum Beispiel haben viele Studien gezeigt, dass codegenerierende Modelle oft Schwierigkeiten haben, Sicherheitslücken und Fehler zu beheben und sogar einzuführen. OpenAI räumt ebenfalls ein, dass GPT-4.1 unzuverlässiger wird (d. h. häufiger Fehler macht), je mehr Eingabetokens es verarbeiten muss. Bei einem der eigenen Tests des Unternehmens, OpenAI-MRCR, sank die Genauigkeit des Modells von etwa 84 % bei 8.000 Tokens auf 50 % bei 1 Million Tokens. GPT-4.1 neigte auch dazu, 'wörtlicher' zu sein als GPT-4o, sagt das Unternehmen, manchmal wurden spezifischere, explizitere Eingabeaufforderungen benötigt.