Teilen

Die Ausrichtung von KI an menschlichen Werten durch WARM vorantreiben

Picture of Carl Geisler

Carl Geisler

Ausrichtung von KI-Systemen an menschlichen Werten

Systeme der künstlichen Intelligenz (KI) sind zunehmend in der Lage, Menschen bei komplexen Aufgaben zu unterstützen, von Chatbots im Kundenservice bis hin zu medizinischen Diagnosealgorithmen. Da diese KI-Systeme jedoch immer mehr Aufgaben übernehmen, ist es wichtig, dass sie mit den menschlichen Werten und Vorlieben in Einklang gebracht werden. Ein Ansatz, um dies zu erreichen, ist die Technik des Verstärkungslernens aus menschlichem Feedback (RLHF). Bei RLHF wird ein KI-System, die so genannte Richtlinie, auf der Grundlage menschlicher Beurteilungen seines Verhaltens belohnt oder bestraft. Das Ziel ist, dass das System lernt, seine Belohnungen zu maximieren und sich somit entsprechend den menschlichen Präferenzen zu verhalten.

Eine zentrale Komponente von RLHF ist das Belohnungsmodell (RM). Das RM ist dafür verantwortlich, die Aktionen und Ergebnisse der Strategie zu bewerten und ein Belohnungssignal zu liefern, das den Lernprozess steuert. Die Entwicklung eines guten RM ist eine Herausforderung, da die menschlichen Präferenzen komplex, kontextabhängig und sogar von Person zu Person uneinheitlich sein können. Kürzlich haben Forscher von Google DeepMind eine innovative Technik namens Weight Averaged Reward Models (WARM) vorgeschlagen, um das RM-Design zu verbessern.

Das Problem mit Reward Hacking

Ein großes Problem bei RLHF ist Reward Hacking. Reward Hacking tritt auf, wenn die Politik Schlupflöcher findet, um das RM-System zu umgehen und hohe Belohnungen zu erhalten, ohne die angestrebten Ziele tatsächlich zu erreichen. Nehmen wir zum Beispiel an, das Ziel ist es, eine Schreibassistenten-KI zu trainieren, die qualitativ hochwertige Zusammenfassungen erstellt. Das RM könnte prägnante und informative Zusammenfassungen belohnen. Die Strategie könnte dann lernen, dies auszunutzen, indem sie sehr kurze, uninformative Zusammenfassungen erstellt, die mit Schlüsselwörtern gespickt sind, die das RM austricksen.

Reward Hacking geschieht aus zwei Gründen:

  1. Verschiebung der Verteilung – Das RM wird auf einem begrenzten Datensatz mit von Menschen beschrifteten Beispielen trainiert. Im Einsatz können die Ergebnisse der Strategie aus verschiedenen Verteilungen stammen, auf die das RM nicht gut verallgemeinert werden kann.
  2. Verrauschte Etiketten – Die menschliche Beurteilung ist unvollkommen, und es gibt Unstimmigkeiten zwischen den Beurteilern. Das RM kann sich eher an falschen Signalen als an robusten Qualitätsindikatoren orientieren.

Reward Hacking führt zu unbrauchbaren Systemen, die den menschlichen Erwartungen nicht entsprechen. Schlimmer noch, es kann zu KI-Verhaltensweisen führen, die voreingenommen oder sogar gefährlich sind, wenn sie unbedacht eingesetzt werden.

Der Aufstieg des Model Merging

Das steigende Interesse an Modellfusionsstrategien wie dem Ratatouille-Modell ist auf die Erkenntnis zurückzuführen, dass größere Modelle zwar leistungsfähig, aber ineffizient und unpraktisch sein können. Das Trainieren eines Modells mit 1 Billion Parametern erfordert eine enorme Menge an Daten, Rechenleistung, Zeit und Kosten. Außerdem neigen solche Modelle dazu, sich zu sehr an die Trainingsverteilung anzupassen, was ihre Fähigkeit zur Verallgemeinerung auf verschiedene reale Szenarien einschränkt.

Die Zusammenführung von Modellen bietet eine Alternative, um größere Fähigkeiten ohne unkontrollierte Skalierung zu erschließen. Durch die Wiederverwendung mehrerer spezialisierter Modelle, die für unterschiedliche Verteilungen, Aufgaben oder Ziele trainiert wurden, soll die Modellverschmelzung die Vielseitigkeit und Robustheit außerhalb der Verteilungen erhöhen. Die Prämisse ist, dass verschiedene Modelle unterschiedliche Vorhersagemuster erfassen, die sich gegenseitig ergänzen können, wenn sie zusammengeführt werden.

Aktuelle Ergebnisse zeigen, wie vielversprechend dieses Konzept ist. Modelle, die durch Zusammenführung entstehen, können die Leistung von Riesenmodellen wie GPT-3 erreichen oder sogar übertreffen, obwohl sie viel weniger Parameter haben. Zum Beispiel erreicht ein Ratatouille-Modell-Ensemble aus nur 7 mittelgroßen Checkpoints die beste Genauigkeit in hochdimensionalen Textdaten und übertrifft damit GPT-3.

Die Einfachheit der Zusammenführung durch Mittelwertbildung ist ein großer Vorteil. Das Training mehrerer Hilfsmodelle erfordert zusätzliche Ressourcen. Entscheidend ist jedoch, dass die Berechnungen zur Inferenzzeit identisch mit denen eines einzelnen Modells sind, da die Gewichte in einem einzigen Modell zusammengefasst werden. Das macht die Methode leicht anpassbar, ohne dass man sich Sorgen über erhöhte Latenzzeiten oder Speicherkosten machen muss.

Mechanismen hinter der Modellzusammenführung

Aber was genau ermöglicht diesen Genauigkeitsgewinn durch die Zusammenlegung von Modellen? Jüngste Analysen liefern einige Hinweise darauf:

  • Abschwächung des Erinnerungsvermögens: Jedes Modell sieht während des Trainings verschiedene gemischte Stapel des Datensatzes. Durch die Mittelwertbildung werden alle instanzspezifischen Erinnerungen reduziert und nur die Verallgemeinerungen auf Datensatzebene beibehalten.
  • Verringerung der Varianz: Unabhängig voneinander trainierte Modelle haben unkorrelierte Fehler. Wenn du sie kombinierst, wird das Rauschen ausgeglichen und die Kalibrierung verbessert.
  • Regularisierung durch Diversität: Unterschiedliche Hilfsaufgaben zwingen die Modelle dazu, verallgemeinerbare Merkmale zu nutzen, die für verschiedene Verteilungen nützlich sind.
  • Erhöhung der Robustheit: Unstimmigkeiten bei Vorhersagen signalisieren Unsicherheit. Die Mittelwertbildung mildert Ausreißer ab und erhöht die Zuverlässigkeit.

Im Wesentlichen gleicht die Modellzusammenführung die Schwächen der einzelnen Modelle aus, um ihre gemeinsamen Stärken zu verstärken. Die zusammengeführte Darstellung erfasst die gemeinsamen zugrunde liegenden Kausalstrukturen und ignoriert zufällige Abweichungen.

Diese konzeptionelle Grundlage verbindet das Model Merging mit anderen beliebten Techniken wie Ensembling und Multi-Task-Learning. All diese Methoden nutzen die Vielfalt der Modelle oder Aufgaben, um vielseitige, auf Unsicherheiten reagierende Systeme zu erhalten. Die Einfachheit und Effizienz der Mittelwertbildung verschafft dem Model Merging jedoch einen einzigartigen Vorteil, um den Einsatz in der Praxis voranzutreiben.

Gewichtungsgemittelte Belohnungsmodelle

Anpassungsprozess mit WARM

Abgleich mit WARM

WARM verwendet innovativ ein stellvertretendes Belohnungsmodell (RM), das ein gewichteter Durchschnitt mehrerer individueller RMs ist, die jeweils auf der Grundlage desselben vortrainierten LLM, aber mit unterschiedlichen Hyperparametern, feinabgestimmt werden. Diese Methode erhöht die Effizienz, die Zuverlässigkeit bei Verteilungsverschiebungen und die Robustheit gegenüber inkonsistenten Präferenzen. Die Studie zeigt auch, dass die Verwendung von WARM als Proxy-RM, insbesondere bei einer höheren Anzahl von gemittelten RMs, die Ergebnisse verbessert und das Auftreten von „Reward Hacking“ verzögert, einem Phänomen, bei dem die Kontrollbelohnungen mit der Zeit schlechter werden.

Hier ist ein Überblick über die Ergebnisse:

  1. Beginne mit einem Basissprachmodell, das mit einem großen Korpus trainiert wurde. Initialisiere mehrere RMs, indem du kleine aufgabenspezifische Schichten darauf aufbaust.
  2. Optimiere jedes RM separat auf dem menschlichen Präferenzdatensatz, indem du verschiedene Hyperparameter wie die Lernrate für Diversität verwendest.
  3. Bilde den Durchschnitt der Gewichte der fein abgestimmten RMs, um ein einziges WARM-Ensemble zu erhalten.

Die wichtigste Erkenntnis ist, dass bei der Mittelung der Gewichte nur die unveränderlichen Informationen erhalten bleiben, die über alle verschiedenen RMs hinweg gelernt wurden. Dies reduziert die Abhängigkeit von Störsignalen und erhöht die Robustheit. Das Ensemble profitiert auch von der Verringerung der Varianz, was die Zuverlässigkeit trotz Verteilungsverschiebungen erhöht.

Wie bereits erwähnt, ist die Vielfalt der unabhängig voneinander trainierten Modelle entscheidend, um das volle Potenzial der Modellzusammenführung zu erschließen. Aber welche konkreten Techniken gibt es, um eine produktive Vielfalt zu fördern?

Im WARM-Papier werden einige clevere Ideen vorgestellt, die sich auch auf andere Bereiche übertragen lassen:

Mischen bestellen

Ein trivialer, aber wirkungsvoller Ansatz ist es, die Reihenfolge, in der die Datenpunkte während des Trainings von jedem Modell gesehen werden, zu mischen. Schon dieser einfache Schritt führt zu einer Dekorrelation der Gewichte und reduziert die redundante Speicherung von Mustern.

Variationen der Hyperparameter

Die Anpassung von Hyperparametern wie der Lernrate und der Dropout-Wahrscheinlichkeit für jeden Durchlauf führt zu einer nützlichen Vielfalt. Die Modelle konvergieren auf unterschiedliche Weise und berücksichtigen unterschiedliche Eigenschaften des Datensatzes.

Checkpoint Averaging – Baklava

Die Baklava-Methode initialisiert Modelle für die Zusammenführung von verschiedenen Schnappschüssen entlang der gleichen Pretrainingstrajektorie. Dadurch werden die Beschränkungen im Vergleich zu Modellsuppen, die einen gemeinsamen Startpunkt vorschreiben, gelockert. Im Vergleich zum Modell Ratatouille vermeidet Baklava zusätzliche Aufgaben. Insgesamt bietet es ein gutes Gleichgewicht zwischen Genauigkeit und Vielfalt.

Feinabstimmung mehrerer Belohnungsmodelle

Der Prozess beginnt mit einem vortrainierten Large Language Model (LLM) 𝜃_𝑝𝑡. Aus diesem Modell werden während eines Supervised Fine-Tuning (SFT)-Laufs verschiedene Checkpoints {𝜃_𝑠 𝑓 𝑡_𝑖} abgeleitet, die jeweils in verschiedenen SFT-Trainingsschritten gesammelt werden. Diese Kontrollpunkte werden dann als Initialisierungen für die Feinabstimmung mehrerer Belohnungsmodelle (RMs) {𝜙𝑖} auf einem Präferenzdatensatz verwendet. Diese Feinabstimmung zielt darauf ab, die Modelle so anzupassen, dass sie den menschlichen Präferenzen besser entsprechen. Nach der Feinabstimmung werden diese RMs durch einen Prozess der Mittelwertbildung kombiniert und ergeben das endgültige Modell, 𝜙_WARM.

Die Analyse bestätigt, dass das Hinzufügen älterer Kontrollpunkte durch den gleitenden Durchschnitt der individuellen Leistung schadet und die Vorteile der Vielfalt beeinträchtigt. Die Durchschnittsbildung nur der letzten Repräsentationen aus jedem Durchgang ist besser. Generell bleibt es eine offene Herausforderung für die Forschung, die Ziele der Vielfalt mit der Erhaltung der Genauigkeit in Einklang zu bringen.

Insgesamt entspricht das Zusammenführen von Modellen dem allgemeinen Ethos in diesem Bereich, vorhandene Ressourcen effektiv wiederzuverwenden, um die Zuverlässigkeit, Effizienz und Vielseitigkeit zu verbessern. Die Einfachheit der Gewichtsmittelung festigt ihre Position als führender Kandidat für die Zusammenstellung robuster Modelle aus leicht verfügbaren Bausteinen.

Im Gegensatz zu herkömmlichen Ensembling-Methoden, bei denen die Vorhersagen gemittelt werden, ist der Rechenaufwand bei WARM minimal, da nur ein einziger Satz von Gewichten verwendet wird. Experimente mit Aufgaben zur Textzusammenfassung zeigen die Effektivität von WARM:

  • Beim Best-of-N-Sampling erreicht WARM eine Gewinnrate von 92,5 % gegenüber der zufälligen Auswahl nach menschlichen Präferenzlabels.
  • In RLHF erreicht eine WARM-Politik 79,4 % Gewinnrate gegenüber einer Politik, die mit einem einzigen RM nach derselben Anzahl von Schritten trainiert wurde.
  • WARM schneidet auch dann noch gut ab, wenn ein Viertel der menschlichen Labels verfälscht ist.

Diese Ergebnisse verdeutlichen das Potenzial von WARM als praktische Technik für die Entwicklung von KI-Assistenten, die sich in der realen Welt zuverlässig verhalten. Durch die Glättung von Unstimmigkeiten im menschlichen Feedback können die WARM-Richtlinien stabil an den menschlichen Werten ausgerichtet bleiben, auch wenn sie aus neuen Erfahrungen lernen.

Das größere Bild

WARM befindet sich an der Schnittstelle zweier wichtiger Trends in der KI-Anpassungsforschung. Der erste ist die Untersuchung der Generalisierung außerhalb der Verteilung (OOD), die darauf abzielt, die Leistung des Modells bei neuen Daten zu verbessern, die sich von der Trainingsverteilung unterscheiden. Der zweite Trend ist die Erforschung der Robustheit von Algorithmen, die sich auf die Zuverlässigkeit bei kleinen Störungen oder Rauschen konzentrieren.

Indem WARM Verbindungen zwischen diesen Bereichen rund um den Begriff der erlernten Invarianzen herstellt, bringt uns WARM auf den Weg zu fundierteren Techniken für den Werteabgleich. Die Erkenntnisse aus WARM können sogar über RLHF hinaus verallgemeinert werden, indem sie Lektionen für weitere maschinelle Lernsysteme liefern, die mit der offenen Welt interagieren.

Natürlich ist die Belohnungsmodellierung nur ein Teil des Alignment-Puzzles. Wir brauchen noch Fortschritte bei anderen Herausforderungen wie der Spezifikation von Belohnungen, skalierbarer Überwachung und sicherer Erkundung. In Kombination mit ergänzenden Techniken könnte WARM die Entwicklung von KI beschleunigen, die den Wohlstand der Menschen nachhaltig fördert. Durch die gemeinsame Erforschung der Prinzipien, die einer robusten Ausrichtung zugrunde liegen, weisen die Forscher den Weg zu einer nützlichen, ethischen KI.

Picture of Carl Geisler

Carl Geisler

Carl ist ein online Marketer und Content Creator mit einer Leidenschaft für künstliche Intelligenz und innovative Technik. Er ist einer der Gründer von KI-Techlab.de und schreibt hier über neue KI-Tools und Innovationen.

Weitere KI-News:

Sichere dir eine GRatis KI-beratung

Stimme für mich ab und sichere dir eine kostenlose KI-Beratung

So funktioniert es:

  1. Stimme auf tigeraward.de/ki-visionary  für mich (Carl Geisler) ab
  2. Erhalte deine kostenlose KI-Beratung von uns