Die Leistung des 20B-Großmodells ist vergleichbar mit Llama2-70B. Es ist vollständig Open Source und die gesamte Anordnung von der Basis bis zu den Werkzeugen ist klar.


Quelle: Xinzhiyuan

Gerade wurde der Parameterdatensatz des inländischen Open-Source-Modells erneut aktualisiert.

Am 20. September haben das Shanghai Artificial Intelligence Laboratory (Shanghai AI Laboratory) und SenseTime in Zusammenarbeit mit der Chinese University of Hong Kong und der Fudan University das Modell InternLM-20B mit 20 Milliarden Parametern offiziell als Open Source veröffentlicht.

Projektadresse: https://github.com/InternLM/InternLM

Magic Scope-Community: https://modelscope.cn/organization/Shanghai_AI_Laboratory

Diesmal kann man sagen, dass die 20-Milliarden-Parameter-Version des Shusheng·Puyu-Großmodells „die Menge erhöht, ohne den Preis zu erhöhen“. Die Anzahl der Parameter beträgt weniger als ein Drittel, aber ihre Leistung kann mit der heutigen Benchmark mithalten Open-Source-Modelle – Llama2-70B. Die aktuellen Mainstream-Open-Source-13B-Modelle werden von InternLM-20B in allen Dimensionen hinter sich gelassen.

Darüber hinaus wurde gleichzeitig das Full-Chain-Toolsystem für die Entwicklung und Anwendung großer Modelle aktualisiert.

Vom Open-Source-Modell selbst bis zur gesamten Kette von Open-Source-Tools hat das Shanghai AI Laboratory dieses Mal alle Schätze hervorgeholt, die es aus seiner eigenen groß angelegten Modellforschung und -entwicklung angesammelt hat, in der Hoffnung, Forschern, Institutionen und Sozialpraktikern zu helfen . Jeder kann zu sehr geringen Kosten und Schwellenwerten an der technologischen Revolution teilhaben, die durch große Modelle hervorgerufen wird.

Die Leistung sei „führend in seiner Klasse“ und der Schwellenwert sei „direkt einsatzbereit“. InternLM-20B ist der Katalysator und neue Dreh- und Angelpunkt dafür, dass große Modelle in Tausende von Branchen Einzug halten.

Diese Welle großer Modelle wird allen zugute kommen.

Alles, was wir verwenden, ist Open Source

Wie wir alle wissen, gibt es im gesamten F&E-System großer Modelle mehrere aneinandergereihte Verbindungen, was einen sehr komplexen Satz geschlossener Kreisläufe darstellt.

Wie kann man es standardisierter organisieren? Wie verwende ich das Basismodell, nachdem ich es erhalten habe? Welche Vorkehrungen sind bei der schrittweisen Umsetzung zu beachten? Es gibt überall Probleme.

Durch echte Praxis in der täglichen Arbeit hat das Team des Shanghai AI Laboratory eine Reihe wertvoller Erfahrungen gesammelt.

Um das Open-Source-Ökosystem zu fördern, öffnen sie einfach alle am Modell beteiligten Tools von der Datenvorbereitung über das Vortraining und die Bereitstellung bis hin zu Evaluierungsanwendungen als Open Source.

Entschlüsseln Sie die „Exklusivformel“

Die Bedeutung von Daten für große Modelle ist mit den Rohstoffen für die Produktion vergleichbar: Ohne eine Energiequelle können sie den Betrieb intelligenter KI-Systeme nicht vorantreiben. Insbesondere qualitativ hochwertige Daten sind eines der Schlüsselelemente für die Industrialisierung großer Modelle.

Im Hinblick auf die Sammlung ist es nicht nur notwendig, die Originalmaterialien, die aus verschiedenen Kanälen wie Webseiten, Büchern, Fachberichten und Aufsätzen gecrawlt wurden, effektiv zu filtern und zu bereinigen, sondern auch das Feedback der modellinternen Testbenutzer voll auszunutzen.

Damit LLM jedoch Schlüsselkompetenzen wie Verständnis, Programmierung und logisches Denken erwerben und ein echter „Hexagon-Krieger“ werden kann, ist es wichtiger, Daten selbst zu konstruieren.

In dieser Hinsicht ist auch die akademische Forschung sehr aktiv. Beispielsweise kann Microsofts „Textbooks Are All You Need“ durch den Aufbau eines datentrainierten Modells phi-1 einen relativen Vorsprung gegenüber dem Benchmark erzielen.

Was das Team des Shanghai AI Laboratory betrifft, haben sie sich dafür entschieden, Daten nicht aus einer einzigen Richtung zu konstruieren, sondern aus einer „vollständigen Dimension“, indem sie das gesamte Wissenssystem sortieren und einen Korpus aufbauen.

Daher ist die Wissens- und Logikdichte in diesen Korpora sehr hoch.

Das Hinzufügen einer kleinen Menge „Katalysator“ zu einer großen Menge regulärer Inhalte kann nicht nur die Schlüsselfunktionen von LLM besser stimulieren, sondern es dem Modell auch ermöglichen, relevante Informationen besser aufzunehmen und zu verstehen.

Mit den Worten von Lin Dahua, einem führenden Wissenschaftler am Shanghai AI Laboratory: „In gewisser Weise kann ein Token hier der Wirksamkeit von 10 oder sogar 100 traditionellen Token entsprechen.“

In Bezug auf die Rechenleistung ist es für die meisten Entwickler in der Open-Source-Community schwierig, mehr Rechenleistung zu erhalten, mit Ausnahme der großen Internetunternehmen, die über reichlich Ressourcen verfügen.

„Ich hoffe, dass es leichte Werkzeuge geben wird, die das Modell nutzen können.“ Dies ist das meiste Community-Feedback, das das Shanghai AI Lab erhalten hat.

Mit dem leichten Open-Source-Feinabstimmungstool XTuner können Benutzer ihre eigenen Daten verwenden, um das Open-Source-Modell des Shanghai AI Laboratory auf einer 8-GB-GPU für Verbraucher zu optimieren.

Darüber hinaus ist der „Chat-Dialog“ im Hinblick auf die Modellanwendung immer noch ein sehr wichtiger Teil der Fähigkeiten des Modells.

Das Shanghai AI Laboratory möchte außerdem hervorheben, dass das große Modell als zentraler Knotenpunkt dient und Tools zur Lösung von Problemen verwendet, ähnlich wie Code Interpreter Tools aufruft.

Gleichzeitig kann das große Modell während dieses Prozesses auch eine Selbstreflexion durchführen. Dies ist das enorme Potenzial intelligenter Agenten mit Unterstützung von LLM.

Lin Dahua glaubt, dass Agent eine sehr wertvolle Richtung für die langfristige Entwicklung sein wird, die es zu erkunden gilt.

In der endgültigen Welt der intelligenten Agenten wird sich die gesamte organisatorische Arbeitsteilung weiter verbessern und weiterentwickeln. In Zukunft wird es definitiv viele intelligente Agenten geben, die jeweils über ihr eigenes Fachgebiet verfügen, und es wird viele Technologien geben das kann Transaktionen zwischen ihnen fördern. Ort.

Wo ist also das konkrete Upgrade dieser Toolkette?

– Daten: OpenDataLab Open-Source-Vorschulungskorpus „Scholar·Ten Thousand Volumes“.

In Bezug auf die Daten wurde der multimodale Trainingskorpus Scholar·Ten Thousand Volume 1.0 am 14. August offiziell als Open Source bereitgestellt. Das Gesamtdatenvolumen übersteigt 2 TB, einschließlich Textdatensatz, Grafikdatensatz und Videodatensatz.

Durch die „Verdauung“ eines hochwertigen Korpus haben die Modelle der Shusheng-Serie eine hervorragende Leistung bei verschiedenen generativen Aufgaben wie semantischem Verständnis, Wissensfrage und -antwort, visuellem Verständnis und visueller Frage und Antwort gezeigt.

Bisher gab es fast 100.000 Downloads.

– Vorschulung: Effizientes InternLM-Rahmenwerk für die Vorschulung

In der Vorschulungsphase hat das InternLM-Lager auch das Vorschulungs-Framework InternLM-Train als Open-Source-Lösung bereitgestellt.

Einerseits werden Transformer-Modelloperatoren tief integriert, um die Trainingseffizienz zu verbessern. Andererseits schlägt es die einzigartige Hybrid Zero-Technologie vor, um eine effiziente Überlappung von Berechnung und Kommunikation zu erreichen und den knotenübergreifenden Kommunikationsverkehr während des Trainingsprozesses erheblich zu reduzieren.

Dank der ultimativen Leistungsoptimierung erreicht dieses Open-Source-System eine hohe Effizienz des Kilokarten-Parallelrechnens und seine Trainingsleistung hat das branchenführende Niveau erreicht.

– Feinabstimmung: Vollparameter-Feinabstimmung von InternLM, leichte XTuner-Feinabstimmung

Die kostengünstige Feinabstimmungs-Toolbox für große Modelle XTuner ist seit Kurzem ebenfalls Open-Source-fähig und unterstützt eine Vielzahl von Open-Source-Großmodellen wie Llama sowie Feinabstimmungsalgorithmen wie LoRA und QLoRA.

Hinsichtlich der Hardwareanforderungen benötigt XTuner nur mindestens 8 GB Videospeicher, um eine kostengünstige Feinabstimmung des 7B-Modells durchzuführen. Die Feinabstimmung des 20B-Modells kann auch auf einer Consumer-Grafikkarte mit 24 GB durchgeführt werden Videospeicher.

XTuner bietet eine Vielzahl von Feinabstimmungs-Frameworks für verschiedene Open-Source-Modelle

– Bereitstellung: LMDeploy unterstützt die effiziente Inferenz von Milliarden bis Hunderten von Milliarden Parameter-Sprachmodellen

Was die Bereitstellung angeht, deckt LMDeploy ein komplettes Set an leichtgewichtigen Inferenz-Bereitstellungs- und Servicelösungen für große Modelle ab.

Es unterstützt eine effiziente Modellinferenz von einer Milliarde bis einhundert Milliarden Parametern und übertrifft die Mainstream-Open-Source-Projekte FasterTransformer, vLLM, Deepspeed usw. der Community in Bezug auf Durchsatz und andere Leistung.

– Evaluierung: OpenCompass, eine Komplett-Evaluierungsplattform für große Modelle aus einer Hand

Im Bewertungsteil bietet die Open-Source-Bewertungsplattform für große Modelle OpenCompass ein Bewertungssystem in fünf Dimensionen: Fach, Sprache, Wissen, Verständnis und Argumentation.

Gleichzeitig unterstützt es mehr als 50 Bewertungsdatensätze, 300.000 Bewertungsfragen sowie Nullstichproben-, Kleinstichproben- und Denkkettenbewertungen und ist derzeit die umfassendste Open-Source-Bewertungsplattform.

– Anwendung: Leichtes und flexibles Agent-Framework von Lagent

In der letzten Anwendungsphase konzentrierte sich das Team des Shanghai AI Laboratory auf den Agenten, indem es das leichte und flexible Agenten-Framework von Lagent entwickelte und als Open-Source-Lösung zur Verfügung stellte.

Es kann Benutzer dabei unterstützen, ein großes Sprachmodell schnell in mehrere Agententypen umzuwandeln, und typische Tools zur Unterstützung großer Sprachmodelle bereitstellen.

Dieses Open-Source-Framework integriert verschiedene Arten von Agentenfunktionen, darunter klassisches ReAct, AutoGPT und ReWoo.

Die Codestruktur dieses Frameworks ist nicht nur klar, sondern auch einfach. Mit weniger als 20 Codezeilen können Entwickler einen eigenen Agenten erstellen.

Darüber hinaus unterstützt Lagent mehrere große Modelle, darunter InternLM, Llama und ChatGPT.

Mit der Unterstützung von Lagent können diese Agenten große Sprachmodelle für Planungsbegründungen und Werkzeugaufrufe aufrufen und während des Ausführungsprozesses zeitnahe Reflexion und Selbstkorrektur durchführen.

Inländischer erster 16.000-Kontext, 20 Milliarden Parameter verknüpft mit Llama2-70B

Zusätzlich zu einem vollständigen Satz großer Modell-Toolketten verfügt das Shanghai AI Laboratory auch über das neue Open-Source-Programm InternLM-20B mit bis zu 20 Milliarden Parametern.

Die Bewertungsergebnisse zeigen, dass InternLM-20B unter Open-Source-Modellen derselben Größenordnung wohlverdient die beste Gesamtleistung aufweist.

– Extra lange Kontextunterstützung

Erstens kann InternLM-20B in Bezug auf die Kontextlänge Kontextfenster bis zu 16 KB unterstützen.

Wie in der Abbildung unten dargestellt, konnte InternLM-20B drei Fragen genau beantworten, nachdem er einen langen Nachrichtenartikel über eine bekannte Kaffeemarke gelesen hatte.

Bei extrem langen Aufsätzen und Berichten kann InternLM-20B auch Abstracts präzise extrahieren.

Nach der Eingabe des klassischen ResNet-Papiers wird beispielsweise sofort eine Zusammenfassung geschrieben, in der die Kernideen und experimentellen Ergebnisse von ResNet genau zusammengefasst werden.

– Nutzen Sie Werkzeuge und lernen Sie selbst

Zweitens werden durch die Unterstützung eines langen Kontexts die Fähigkeiten des Modells erheblich erweitert und es gibt mehr Raum für Werkzeugaufrufe, Codeerklärungen sowie Reflexion und Korrektur. Und dies ist zu einer Schlüsseltechnologie für den Aufbau intelligenter Körper auf InternLM-20B geworden.

Jetzt kann InternLM-20B nicht nur die Ausgabe von Inhalten in Dutzende von Richtungen wie Datum, Wetter, Reisen, Sport usw. sowie Zehntausende verschiedene APIs unterstützen, sondern kann auch Tools auf ähnliche Weise wie Code Interpreter aufrufen .

Gleichzeitig kann es dabei auch reflektieren, revidieren und an reale Szenen anknüpfen.

In ToolBench, einem von der Tsinghua-Universität und anderen Institutionen gemeinsam herausgegebenen großen Modell-Tool-Call-Bewertungsset, erzielte InternLM-20B eine Gewinnquote von 63,5 % im Vergleich zu ChatGPT und erzielte damit das beste Ergebnis auf der Liste.

Darüber hinaus weist das InternLM-20B-Modell auch bestimmte Funktionen zur Verallgemeinerung ohne Stichprobe auf. Auch wenn das Modell während des Trainingsprozesses einige Tools nicht gelernt hat, kann es dennoch Tools basierend auf Toolbeschreibungen und Benutzerfragen aufrufen.

Wie in der folgenden Abbildung gezeigt, kann es, wenn Sie ihm einige KI-Tools zur Verfügung stellen, selbstständig planen und begründen und Benutzerprobleme lösen.

– Umfassender Vorsprung in der gleichen Gewichtsklasse

Im Mainstream-Evaluierungssatz von bis zu 50 Modellen in verschiedenen Dimensionen hat InternLM-20B auch die beste Gesamtleistung von Open-Source-Modellen derselben Größenordnung erzielt.

Gleichzeitig übertraf es auch den größeren Llama-33B hinsichtlich der durchschnittlichen Leistung deutlich und schlug in einigen Bewertungen sogar knapp den Llama2-70B.

Insbesondere erzielt InternLM-20B hervorragende Ergebnisse bei umfassenden Themenbewertungen von MMLU, C-Eval und AGIEval und nimmt unter Open-Source-Modellen derselben Größenordnung eine führende Position ein.

Insbesondere bei C-Eval und AGIEval, zu denen auch die chinesische Fachprüfung gehört, übertraf die Leistung Llama2-70B deutlich.

In der Bewertung, die Faktenwissen prüft, übertrifft InternLM-20B das 13B-Modell um Längen und kann mit Llama-33B konkurrieren.

Aber es gibt immer noch eine gewisse Lücke im Vergleich zu Llama-65B oder Llama2-70B.

In Bezug auf die Verständnisfähigkeit ist die Leistung des InternLM-20B sogar noch herausragender und übertrifft alle Open-Source-Modelle, einschließlich Llama2-70B.

Das Denken ist der „Stolperstein“, der viele Modelle zum Scheitern gebracht hat. Es testet die Fähigkeit großer Modelle, echtes Geld zu verdienen, und bestimmt auch weitgehend, ob das Modell praktische Anwendungen unterstützen kann.

In den folgenden vier Inferenzbewertungssätzen haben die Ergebnisse von InternLM-20B das Mainstream-Open-Source-Modell 13B übertroffen und kommen sogar der Inferenzfähigkeit von Llama-65B nahe.

Auch hinsichtlich der Programmierfähigkeiten wurde InternLM-20B deutlich verbessert. Bei zwei typischen Auswertungssätzen, HumanEval und MBPP, liegt es nahe bei Llama2-70B.

Hinweis: Die fett gedruckten Schriftarten in den obigen Screenshots sind die besten Ergebnisse im Bereich 13B-33B.

In der neuesten von HuggingFace veröffentlichten Open LLM Leaderboard-Bewertungsliste führt InternLM-20B die durchschnittliche Punktzahl unter den Basismodellen mit weniger als 60B-Parametern an und übertrifft auch Llama-65B.

– Ein sichereres Open-Source-Modell

Schließlich ist InternLM-20B auch im Hinblick auf die Werteausrichtung vollständiger und sicherer.

Wenn Sie eine voreingenommene Frage stellen, werden die unsicheren Faktoren sofort identifiziert und korrekte Wertempfehlungen gegeben.

Große Modelle waren nie ausschließlich großen Herstellern vorbehalten.

Nachdem die Welle großer Modelle begonnen hat, müssen wir uns nicht nur darauf konzentrieren, ganz oben auf der Bewertungsliste zu stehen, sondern auch darauf, wie wir große Modelle vom „Kronjuwel der KI“ zu einer „neuen Produktivität“ machen können, die verwendet werden kann Tausende Branchen.

Im Laufe der Geschichte waren die Technologien, die wirklich die Zeit anführten, nicht nur disruptive Innovationen, sondern, was noch wichtiger ist, sie waren kostengünstig, hatten einen niedrigen Schwellenwert und waren für jedermann verfügbar. Aber große Unternehmen wie OpenAI und Google werden die spezifischen Details niemals öffentlich machen.

Und das ist die ursprüngliche Absicht des Shanghai AI Laboratory.

Seit seiner Einführung im Juni hat Shusheng Puyu mehrere Upgrade-Runden abgeschlossen und einen großen Einfluss auf die Open-Source-Community und -Branche gehabt.

Zusätzlich zur Offenlegung des Codes auf GitHub und zur Bereitstellung der Modelle in HuggingFace- und Moda-Communitys entsendet das Shanghai AI Laboratory sogar engagiertes Personal, um jeden Tag Feedback aus der Community zu lesen und Benutzerfragen sorgfältig zu beantworten.

Zuvor war das LLaMA-Modell von Meta Open Source, was einen hektischen Austausch für ChatGPT auslöste und einen stabilen Diffusionsmoment für große Textmodelle einleitete.

Genau wie das wohlhabende Ökosystem der Alpaka-Familie heute werden die Open-Source-Bemühungen des Shanghai AI Laboratory definitiv einen unermesslichen Wert für die Gemeinschaft bringen.

Für aktive Entwickler und Forscher auf der ganzen Welt wird Shusheng Puyu eine Basis mittlerer Größe, aber sehr leistungsstarker Fähigkeiten bieten.

Obwohl die meisten Unternehmen, insbesondere kleine und mittlere Unternehmen, den Trend zu großen Modellen erkannt haben, ist es unwahrscheinlich, dass sie viel Geld für den Kauf von Rechenleistung ausgeben und Top-Talente wie die großen Hersteller anziehen.

Tatsächlich hat das Shanghai AI Laboratory seit der Konferenz für künstliche Intelligenz am 6. Juli in der gesamten Kette Open Source betrieben. Mit XTuner können Benutzer beispielsweise ihre eigenen Modelle auf sehr einfache Weise trainieren, indem sie nur einige ihrer eigenen Daten verwenden.

Darüber hinaus kombinierte ein Team die Fragen, den Korpus, die Dokumente und das XTuner-Modell der Open-Source-Community, um einen Kundenservice für die Open-Source-Community zu schulen. Dies ist ein echter Beitrag für die Open-Source-Community.

Tatsächlich hat das Shanghai AI Laboratory sein gesamtes technisches System mit der Community geteilt (d. h. das oben erwähnte Full-Chain-Tool-System).

Es gibt so viele Branchen, so viele Unternehmen, so viele Institutionen und Entwickler in der gesamten Gesellschaft. Wenn sie den Wert großer Modelle wirklich erkennen können, wird dies eine sehr wichtige Kraft sein.

Ihre Kreativität ist grenzenlos, das Einzige, was ihnen fehlt, sind Ressourcen.

Die „Hilfe in Zeiten der Not“ des Shanghai AI Laboratory wird es großen Modellen auf jeden Fall ermöglichen, einen enormen Wert im Bereich der Implementierung zu entfalten.

Wie Lin Dahua sagte:

Als Labor können wir Basismodelle und eine Reihe von Tools bereitstellen, die das Know-how verschiedener Branchen in Daten- und Modellfunktionen integrieren, sie sehr einfach zu verwenden machen und mehr Menschen beibringen, sie zu verwenden, damit sie verwendet werden können in verschiedenen Branchen. Es gibt Blumen und Früchte.

Open-Source-Link zum vollständigen Chain-Tool-System

Vorschulungskorpus „Scholar·Ten Thousands of Trading Volume“:

https://github.com/opendatalab/WanJuan1.0

InternLM-Vorschulungsrahmen:

https://github.com/InternLM/InternLM

XTuner-Feintuning-Toolbox:

https://github.com/InternLM/xtuner

LMDeploy-Inferenz-Toolkette:

https://github.com/InternLM/lmdeploy

OpenCompas-Plattform zur Bewertung großer Modelle:

https://github.com/open-compass/opencompass

Lagent-Agent-Framework:

https://github.com/InternLM/lagent

Informationsquelle: Zusammengestellt aus 8BTC von 0x Information.Das Urheberrecht liegt beim Autor und darf nicht ohne Genehmigung reproduziert werden

Total
0
Shares
Related Posts