Autor: Yu Huiru, Herausgeber: Luo Lijuan
Bildquelle: Erstellt mit dem Unbounded AI-Tool
Die vom Internet und Technologiekreisen ausgelöste Welle von Großmodellen hat einen neuen Kampf eingeläutet.
Seit März dieses Jahres sind mehr als 20 inländische Unternehmen in die groß angelegte Modellbahn eingestiegen. Von der Veröffentlichung von Baidus „Wen Xin Yi Yan“ und Alis „Tongyi Qianwen“ über 360s „Red Boy“, SenseTimes „Daily New“, NetEases „Yuyan“, HKUST und andere, und dann die Vorschauen von Tencents „Hunyuan“, JD.coms „ChatJ“ und Huaweis „Pangu“. Internetgiganten und Technologieunternehmen haben ihre „Muskeln“ gezeigt, und niemand möchte in diesem Gewirr großer Models zurückgelassen werden.
In diesem Ansturm ist die Entwicklungsphase großer Modelle von „allgemein“ zu „vertikal“ übergegangen.
Rechenleistung, große Datenmengen und teure Talente sind für die meisten Unternehmen zu Hindernissen für den Einstieg in das allgemeine Modell geworden. Anforderungen wie eine umfassende Anpassung und breite Szenenanwendungen haben jedoch zur Entwicklung großformatiger Modelle in heimischen vertikalen Bereichen geführt.
In den letzten zwei Monaten haben viele kleine und mittlere Unternehmen in Branchen wie Medizin, Finanzen, Bildung und Malerei, die Benutzerdaten gesammelt haben, damit begonnen, ihre eigenen vertikalen Modelle auf der Grundlage der „Basis“ großer in- und ausländischer Unternehmen zu trainieren Modelle. Gleichzeitig haben Unternehmen, die Allzweckmodelle herausgebracht haben, auch Modelle für bestimmte Branchen auf den Markt gebracht.
Wenn das Allzweck-Großmodell die Anfangsphase der Entwicklung eines Großmodells darstellt, kann die Anwendung in der vertikalen Szene als ihr „Mittelfeldkampf“ angesehen werden. Der Landewert wurde in verschiedenen Branchen realisiert.
01 Routendifferenzierung
In nur zwei Monaten ist eine Differenzierung entstanden.
Auf der Wenxin Large-scale Model Technology Exchange Conference am 23. Mai stellte Xin Zhou, General Manager der Baidu Smart Cloud AI und Big Data Platform, vor: „Die Wenxin Qianfan Large-scale Model Platform ist eine groß angelegte Modellproduktion auf Unternehmensebene.“ Plattform, die Baidu seinen Kunden zur Verfügung stellt. Die Plattform bietet nicht nur groß angelegte Modelldienstleistungen, einschließlich Wenxin Yiyan und Großmodelldienstleistungen Dritter, sondern auch eine vollständige Werkzeugkette für die Entwicklung und Anwendung groß angelegter Modelle.
Das heißt, Wenxin Qianfan kann Wenxin Yiyan als Kern nutzen, um groß angelegte Modelldienstleistungen bereitzustellen, um Kunden bei der Transformation von Produkten und Produktionsprozessen zu unterstützen; Unternehmen können auch ihre eigenen exklusiven Großmodelle entwickeln, die auf beliebigen Open-Source- oder Closed-Source-Modellen basieren. Quelle großformatiger Modelle auf Wenxin Qianfan.
Viele Leute in der Branche, die mit All-Weather Technology in Kontakt gekommen sind, glauben, dass die aktuelle inländische Großmodellbahn hauptsächlich drei Kategorien umfasst: Eine davon ist ein Allzweck-Großmodell, das mit GPT verglichen wird, und das Unternehmen konzentriert sich auf die Die andere besteht darin, vertikale Modelle basierend auf großen Open-Source-Modellen zu trainieren. Eine Art großes Modell konzentriert sich auf Unternehmen in vertikalen Branchen, die andere Art ist ein reines Anwendungsunternehmen, das sich auf bestimmte Anwendungen konzentriert.
„Am Anfang stürzten sich alle auf das allgemeine Modell. Jetzt hat sich eine Differenzierung herausgebildet. Ob es in bestimmte Branchen unterteilt ist oder direkt die Schnittstelle für den Produktbetrieb aufruft, ohne Forschung und Entwicklung zu betreiben, dieser Trend wird immer deutlicher.“ Früher Li Changliang von Jinshan Software, Vizepräsident und Leiter des Geschäftsbereichs Künstliche Intelligenz und Unternehmer im KI-Bereich, sagte gegenüber All Weather Technology.
Große Allzweckmodelle stehen vor Herausforderungen wie großen Anforderungen an die Rechenleistung, hohen Trainings- und Inferenzkosten und schlechter Datenqualität. Ein erfolgreiches Allzweck-Großmodell, das kommerziell exportiert werden kann, erfordert von den Herstellern Kernvorteile wie Schulungs- und Forschungs- und Entwicklungskapazitäten für umfassende Großmodelle, Erfahrung bei der Landung von Geschäftsszenarien, KI-Sicherheits-Governance-Maßnahmen und ökologische Offenheit.
Laut Zhu Yong, Vizepräsident von Baidu Smart Cloud, gibt es zwar „nur wenige“ Unternehmen mit Basismodellen (Allzweck-Großmodelle), aber viele Großmodelle in Berufsfeldern werden darauf aufbauen.
„Die Kosten für das Training eines Basismodells sind sehr hoch. Um ein großes Modell im Wert von Hunderten von Milliarden Dollar herzustellen, ist eine Rechenleistung von mehr als 10.000 Karten in einer einzelnen Maschinengruppe erforderlich.“ Zhu Yong sagte dies aus in- und ausländischer Sicht Unternehmen, es gibt nicht so viele Unternehmen, die wirklich allgemeine Modelle herstellen. viele. Im Gegenteil, die Kosten und Ressourcen, die für das Training eines Domänenmodells (vertikal) erforderlich sind, sind weitaus geringer als für die Erstellung eines allgemeinen Modells von Grund auf.
Aus Sicht der Geschäftslogik sind die meisten Unternehmen daher nicht in der Lage, Allzweck-Großmodelle zu erstellen, Riesen eignen sich besser für Allzweck-Großmodelle und Unternehmen mit umfangreicher Szenendatenansammlung sind besser geeignet Vertikaldomänenmodelle.
Das vertikale Großmodell löst hauptsächlich die Bedürfnisse der Branche im Detail, das heißt, das Unternehmen trainiert die „industrielle Version von GPT“, die für sich selbst in dem Bereich geeignet ist, in dem es gut ist. Der von dieser Art von großem Modell generierte Inhalt entspricht eher den Anforderungen spezifischer vertikaler Szenarien und weist eine höhere Qualität auf.
Derzeit lässt sich bereits erkennen, dass viele vertikale Modelle in Finanz-, Medizin-, Transaktions- und anderen Szenarien Anwendung finden. Basierend auf seinen eigenen umfangreichen Finanzdatenressourcen und der Umschulung auf Basis des GPT-3-Frameworks hat Bloomberg beispielsweise ein finanzspezifisches großes Bloomberg-GPT-Modell entwickelt.
Zusätzlich zu den beiden oben genannten gängigen Modellen gibt es derzeit ein Unternehmen, das sich auf Anwendungen im inländischen Großmodell-Unternehmertum spezialisiert hat. Sie verfügen nicht über ein Forschungs- und Entwicklungsteam und rufen Schnittstellen bestehender Großmodelle auf, um Produkte und Vorgänge durchzuführen.
02 Allgemeine VS-Vertikaldomäne
Giganten, die Allzweck-Großmodelle entwerfen, brauchen Ökologie. Daher hoffen sowohl Baidu als auch Ali, zur „Basis großer Modelle“ zu werden, um Industrien und Unternehmen zu stärken. Aber nicht alle Unternehmen verfügen über diese Fähigkeit.
„Die Herausforderungen hinsichtlich der Rechenleistung und des Energieverbrauchs der bestehenden großen Modelle werden eine Menge Arbeit in Richtung domänenspezifischer und leichtgewichtiger großer Modelle erfordern, insbesondere in den Bereichen Finanzen, Bildung, medizinische Versorgung und Transport. Viel.“ „Wir versuchen, die Kosten für große Modelle zu senken.“ Zeng Dajun, stellvertretender Direktor des Instituts für Automatisierung der Chinesischen Akademie der Wissenschaften, sagte kürzlich auf dem 6. Digital China Construction Summit.
Im Vergleich zu den hohen Entwicklungs- und Schulungskosten allgemeiner Großmodelle können bei der Entwicklung vertikaler Modelle auf Basis von Open-Source-Modellen sowohl Entwicklungskosten als auch Datensicherheit berücksichtigt werden.
Tatsächlich beschleunigen neben den Herausforderungen auch die tatsächlichen Szenenanforderungen den Prozess der Vertikalisierung großer Modelle.
„China ist gut in der Innovation von Geschäftsmodellen und Anwendungen“, sagte ein Unternehmer im KI-Bereich. Gleichzeitig mangelt es nicht an Landungsszenarien für KI-Modelle, reichhaltigen Daten und der Begeisterung für die Verfolgung von Trends. Daher hat sich die Domänenisierung großer Modelle in nur zwei Monaten rasant entwickelt.
Nehmen Sie als Beispiel die „KI-Großmodellbasis“ von Baidu Wenxin Qianfan. Die Unternehmen, die derzeit gemeinsame Tests und Entwicklungen durchführen, kommen in der Regel aus Branchen mit hohen Informatisierungs- und Technologiedurchdringungsraten, wie der Finanzindustrie, der Energiebranche und der Pan-Internet-Branche .
„Vertikale Modelle werden auf der Grundlage von Allzweck-Großmodellen trainiert. Abgesehen von Allzweck-Großmodellen gibt es keine Vertikalmodelle.“ .
Die Branche ist anders, die Szene ist anders und auch das Lehrlernen ist sehr unterschiedlich. Beispielsweise legt die Pan-Internet-Branche mehr Wert auf die Wirkung von Marketing und Empfehlung, und im Finanzbereich wird mehr Wert auf die Wirkung von Risikokontrolle, Glaubwürdigkeit und Marketing gelegt.
Nach Ansicht von Li Changliang besteht der größte Unterschied zwischen vertikalen Großmodellen und Allzweck-Großmodellen darin, dass vertikale Großmodelle geringere Anforderungen an Ressourceneinsatz und Kostenaufwand stellen, die zusätzliche Anforderung jedoch Branchen-Know-how ist , also Kenntnisse über diese Branche Die Anforderungen sind gestiegen.
In Bezug auf Daten verfügen Unternehmen in bestimmten vertikalen Bereichen über private Daten, die eine zentrale Wettbewerbsfähigkeit und einen natürlichen Vorteil darstellen, den andere Unternehmen nicht mit Geld kaufen können.
In Bezug auf die Rechenleistung ist das vertikale Großmodell, das durch Feinabstimmung des Allzweck-Großmodells realisiert wird, ein „geometrischer Tropfen“ im Vergleich zum Allzweck-Großmodell.
Nach Berechnungen von China National Finance Securities sind in der Phase der Modellfeinabstimmung aufgrund des geringen Trainingsniveaus, das nur 10.000 beträgt, die damit verbundenen Rechenleistungskosten im Vergleich vernachlässigbar.
Nehmen Sie als Beispiel das von der Stanford University im März 2023 veröffentlichte Alpaca. Dabei handelt es sich um ein Konversationssprachmodell, das auf der LLaMA-7B-Basis basiert und 52.000 Anweisungen zur Feinabstimmung des Modells angewendet hat. Die Feinabstimmung des Modells basiert auf 8 A100, die Feinabstimmung dauert 3 Stunden und die Kosten für die Rechenleistung überschreiten nicht 300 Yuan.
Natürlich können nicht alle Unternehmen eine Feinabstimmung auf Basis des allgemeinen Modells vornehmen.
Am Beispiel von Baidu Wenxin Qianfan müssen zwei Bedingungen erfüllt sein, um durch Feinabstimmung auf dieser Plattform ein eigenes groß angelegtes Modell zu erstellen: ob das Unternehmen qualitativ hochwertige Daten gespeichert hat; hochwertige Daten werden zu spezifizierten Daten für spezifizierte Daten Feinabstimmung.
Mit anderen Worten: Auf Unternehmensseite haben Unternehmen mit umfangreichen Branchendaten und Branchen-Know-how eine größere Chance, ein vertikales Modell zu erstellen.
„Da es professionelle Daten und Branchen-Know-how in Kombination mit verschiedenen Arten von Domänenmodellen gibt, werden diese Domänenmodelle in Zukunft sehr erfolgreich sein und sehr erfolgreiche Domänenanwendungen der oberen Ebene unterstützen“, sagte Zhu Yong.
03 Auf „zwei Beinen“ gehen
Das Modell „GPT + Branchenexpertensystem“ hat ein neues vertikales Domänenmodell hervorgebracht.
Der größte Wert des großen Modells liegt in der Innovation des Geschäftsmodells, der Transformation aller Glieder der Unternehmensorganisation und dem Effekt der Kostensenkung und Effizienzsteigerung. Dies ist auch der Grund, warum Unternehmen nach und nach in das große Modell eingestiegen sind.
Die Open Source großer Modelle wie dem LLaMA-Modell von Meta hat die Entwicklung vertikaler Modelle beschleunigt.
Öffentlichen Informationen zufolge wird LLaMA auf der Grundlage von Open-Source-Datensätzen im allgemeinen Bereich trainiert. Die Trainingsdaten umfassen 40 Sprachen und enthalten etwa 1,4 Billionen Token. Nach der Veröffentlichung des LLaMA-Modells war es vollständig Open Source und zog eine große Anzahl von KI-Entwicklern an.
Als vollständig Open-Source-führendes Modell ist LLaMA äußerst flexibel, konfigurierbar und generalisierbar und kann als allgemeine Basis für vertikale KI-Modelle verwendet werden.
Obwohl das LLaMA-Modell über eine geringe Anzahl von Parametern verfügt, steht seine Leistung großen Sprachmodellen wie PaLM und GPT-3 in nichts nach. Und die kleine Parameterskala reduziert die Schwierigkeit des Landeeinsatzes und der sekundären Entwicklung des LLaMA-Modells erheblich.
„Basierend auf dem Open-Source-Modell von LLaMA füttern wir unsere eigenen Daten und debuggen langsam, und dann können wir den gewünschten Effekt debuggen“, sagte ein Unternehmer im AIGC-Bereich gegenüber All Weather Technology.
All-Weather Technology ist sich bewusst, dass viele Unternehmen derzeit die Strategie verfolgen, „auf zwei Beinen zu gehen“, d Verbesserung ihrer jeweiligen Fähigkeiten. Schaffung eines geschlossenen Innovationskreislaufs.
„Der Aufruf der API-Schnittstelle ist auch ein wirksames Mittel zum Abrufen von Datenressourcen.“ Li Changliang sagte, dass dieser Teil der Daten nützlich sein könnte, wenn das Unternehmen das Modell in Zukunft trainiert.
Nach Ansicht vieler Menschen in der Branche ist das vertikale Großmodell für alle Lebensbereiche eine völlig neue Produktivität, und das vertikale Großmodell jeder Branche kann erhebliche oder sogar subversive Auswirkungen auf die Branche haben .
Erwähnenswert ist, dass auf dem Primärmarkt auch Start-up-Unternehmen, die sich auf groß angelegte vertikale Modelle konzentrieren, in den Augen von Investmentinstituten „Schätze“ sind.
Auf der China Investment Annual Conference 2023 vor nicht allzu langer Zeit nannte Wang Wei, Senior Partner von Paradise Silicon Valley, „große Modelle in vertikalen Bereichen, Projekte mit Branchendaten und Branchen-Know-how“ als einen seiner wichtigsten Investitionsbereiche.
Informationsquelle: zusammengestellt aus 8BTC von 0x Information.Das Urheberrecht liegt beim Autor, ohne Genehmigung darf es nicht reproduziert werden