Sinolytics-Radar

KI: Wie Chinas Tech-Unternehmen den Datenmangel bewältigen

Teilen
Kopiert!
Von Experts

Veröffentlicht: 25.09.2024,
Letzte Aktualisierung: 28.05.2025

Dieser Inhalt ist Lizenznehmern unserer Vollversion vorbehalten.
  • Neben leistungsstarken KI-Chips gehören qualitativ hochwertige Daten in chinesischer Sprache zu den wichtigen Ressourcen, die chinesische KI-Unternehmen händeringend benötigen. Der mangelnde Zugang zu hochwertigen Trainingsdaten erschwert die Entwicklung von LLMs in chinesischer Sprache.
  • In der Regel stehen weniger chinesischsprachige Daten zur Verfügung als englische. So umfasst Chinesisch nur 5,2 Prozent der Daten in Common Crawl, einer weit verbreiteten Open-Source-Datenbank für KI-Training, während Englisch 43,2 Prozent ausmacht.
  • Was die Qualität anbelangt, so mangelt es laut einem kürzlich erschienenen Alibaba-Whitepaper über LLM-Trainingsdaten eindeutig an Vielfalt und Tiefe in den Wertesystemen, die sich in den Daten widerspiegeln. In der Presse und der Öffentlichkeit überwiegt die Parteiideologie, was das Spektrum der Trainingsdaten einschränkt.
  • Trotz jüngster Bemühungen um die Freigabe von Datensätzen bleiben behördliche und öffentliche Daten aufgrund des strengen chinesischen Datenschutzes für das KI-Training weitgehend gesperrt. Anfang dieses Jahres haben die Behörden den Zugang zu Gerichtsdokumenten auf Mitarbeiter des Justizsystems beschränkt. Auch der Zugang zu öffentlichen Gesundheitsdaten bleibt stark eingeschränkt.
  • Auch Unternehmen zögern, ihre Daten weiterzugeben, da sie Bedenken hinsichtlich ihrer Geschäftsinteressen und der Verletzung von geistigem Eigentum haben. Während große Tech-Unternehmen wie Tencent und Bytedance für das KI-Training auf Daten aus ihren eigenen Social-Media-Netzwerken zurückgreifen können, haben kleinere KI-Start-ups Schwierigkeiten, auf Daten zuzugreifen.
  • Um den Datenmangel zu bewältigen, fordern die Unternehmen die Regierung auf, mehr hochwertige Datenressourcen wie Wissenschafts- und Forschungsdaten für das Training von KI-Modellen zu öffnen. Die großen Technologieunternehmen haben begonnen, das Problem auf verschiedene Weise anzugehen. So erzeugt Bytedance Berichten zufolge Trainingsdaten, indem es Personen dafür bezahlt, vorgegebene Gespräche zu führen, Baidu hat Datenverarbeitungszentren in kleinen Städten mit niedrigeren Arbeitskosten eingerichtet und Alibaba erprobt die Verwendung künstlicher Trainingsdaten, sprich die Modelle werden mit selbst erstellten Inhalten gespeist.

Sinolytics ist ein europäisches Beratungs- und Analyseunternehmen, das sich auf China spezialisiert hat. Es berät europäische Unternehmen bei der strategischen Ausrichtung und den konkreten Geschäftsaktivitäten in der Volksrepublik.

Jetzt kostenlos anmelden und sofort weiterlesen

Keine Bankdaten. Keine automatische Verlängerung.

Teilen
Kopiert!
Daten Forschungsdaten