Teilen

Microsoft bringt den Phi-3 Mini auf den Markt, einen kleinen, aber leistungsstarken LM

Picture of Carl Geisler

Carl Geisler

Microsoft hat Phi-3 Mini vorgestellt, ein winziges Sprachmodell, das Teil der Strategie des Unternehmens ist, leichtgewichtige, funktionsspezifische KI-Modelle zu entwickeln.

Im Laufe der Entwicklung von Sprachmodellen wurden immer größere Parameter, Trainingsdatensätze und Kontextfenster verwendet. Die Skalierung der Größe dieser Modelle führte zu leistungsfähigeren Funktionen, allerdings zu einem höheren Preis.

Der traditionelle Ansatz für das Training eines LLMs besteht darin, dass es riesige Datenmengen verarbeitet, was enorme Rechenressourcen erfordert. Das Training eines LLM wie GPT-4 zum Beispiel hat schätzungsweise 3 Monate gedauert und über 21 Mio. $ gekostet.

GPT-4 ist eine großartige Lösung für Aufgaben, die komplexes Denken erfordern, aber ein Overkill für einfachere Aufgaben wie die Erstellung von Inhalten oder einen Verkaufs-Chatbot. Es ist, als würde man ein Schweizer Taschenmesser benutzen, obwohl man nur einen einfachen Brieföffner braucht.

Mit nur 3,8B Parametern ist der Phi-3 Mini winzig. Dennoch sagt Microsoft, dass es eine ideale, leichtgewichtige und kostengünstige Lösung für Aufgaben wie das Zusammenfassen eines Dokuments, das Extrahieren von Erkenntnissen aus Berichten und das Schreiben von Produktbeschreibungen oder Social Media Posts ist.

Die MMLU-Benchmarks zeigen, dass der Phi-3 Mini und die noch zu veröffentlichenden größeren Phi-Modelle größere Modelle wie Mistral 7B und Gemma 7B.

Die Leistung der Phi-3 Modelle beim Massive Multitask Language Understanding (MMLU) Benchmark im Vergleich zu anderen Modellen ähnlicher Größe. Quelle: Microsoft

Microsoft sagt, dass Phi-3-small (7B Parameter) und Phi-3-medium (14B Parameter) „in Kürze“ im Azure AI Model Catalog verfügbar sein werden.

Größere Modelle wie GPT-4 sind immer noch der Goldstandard und wir können wahrscheinlich erwarten, dass GPT-5 noch größer sein wird.

SLMs wie der Phi-3 Mini bieten einige wichtige Vorteile, die größere Modelle nicht haben. SLMs sind billiger in der Feinabstimmung, benötigen weniger Rechenleistung und können auch in Situationen, in denen kein Internetzugang verfügbar ist, auf dem Gerät laufen.

Der Einsatz eines SLMs am Netzwerkrand führt zu geringeren Latenzzeiten und maximaler Privatsphäre, da die Daten nicht zur Cloud hin- und hergeschickt werden müssen.

Hier ist Sebastien Bubeck, VP der GenAI-Forschung bei Microsoft AI mit einer Demo des Phi-3 Mini. Er ist superschnell und beeindruckend für so ein kleines Modell.

Kuratierte synthetische Daten

Phi-3 Mini ist ein Ergebnis der Abkehr von der Vorstellung, dass riesige Datenmengen die einzige Möglichkeit sind, ein Modell zu trainieren.

Sebastien Bubeck, Vizepräsident für generative KI-Forschung bei Microsoft, fragte: „Warum trainiert man nicht einfach mit rohen Webdaten, sondern sucht nach Daten, die von extrem hoher Qualität sind?“

Ronen Eldan, Experte für maschinelles Lernen bei Microsoft Research, las seiner Tochter gerade Gute-Nacht-Geschichten vor, als er sich fragte, ob ein Sprachmodell nur mit Wörtern lernen kann, die eine Vierjährige versteht.

Dies führte zu einem Experiment, bei dem sie einen Datensatz mit 3.000 Wörtern erstellten. Mit Hilfe dieses begrenzten Vokabulars veranlassten sie ein LLM, Millionen von kurzen Kindergeschichten zu erstellen, die in einem Datensatz namens TinyStories zusammengefasst wurden.

Mit TinyStories trainierten die Forscher/innen dann ein extrem kleines Modell mit 10 Millionen Parametern, das anschließend „flüssige Erzählungen mit perfekter Grammatik“ erzeugen konnte.

Diese Methode zur Generierung synthetischer Daten wurde weiter verfeinert und skaliert, um fortschrittlichere, aber sorgfältig kuratierte und gefilterte synthetische Datensätze zu erstellen, die schließlich zum Training von Phi-3 Mini verwendet wurden.

Das Ergebnis ist ein winziges Modell, das erschwinglicher ist und eine vergleichbare Leistung wie GPT-3.5 bietet.

Kleinere, aber leistungsfähigere Modelle werden dazu führen, dass Unternehmen nicht mehr einfach auf große LLMs wie GPT-4 zurückgreifen. Wir könnten auch bald Lösungen sehen, bei denen ein LLM die schweren Aufgaben übernimmt und einfachere Aufgaben an leichtgewichtige Modelle delegiert.

Picture of Carl Geisler

Carl Geisler

Carl ist ein online Marketer und Content Creator mit einer Leidenschaft für künstliche Intelligenz und innovative Technik. Er ist einer der Gründer von KI-Techlab.de und schreibt hier über neue KI-Tools und Innovationen.

Weitere KI-News:

Sichere dir eine GRatis KI-beratung

Stimme für mich ab und sichere dir eine kostenlose KI-Beratung

So funktioniert es:

  1. Stimme auf tigeraward.de/ki-visionary  für mich (Carl Geisler) ab
  2. Erhalte deine kostenlose KI-Beratung von uns