Das Sprachmodell "Teuken-7B" ist Teil der europäischen KI-Initiative OpenGPT-X, die von der Bundesregierung gefördert wird. Beteiligt sind unter anderem auch die Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme IAIS und für Integrierte Schaltungen IIS und die TU Dresden. Das Besondere an Teuken-7B ist, dass erstmals multilingual die 24 europäischen Amtssprachen Trainingsgrundlage für ein Sprachmodell waren.
US-Modelle arbeiten in Englisch
Das unterscheidet Teuken-7B in der Arbeitsweise stark von Sprachmodellen aus den USA, die in englischer Sprache trainiert werden. Dabei nutzen die US-Sprachmodelle Kategorien, die sich an englischer Sprache, Worten und Silben orientieren.
- Zum Artikel: Soll ich ChatGPT in Deutsch oder Englisch benutzen
Schwächen bei europäischen Sprachen
Das führt dazu, dass die Ergebnisse bei manchen europäischen Sprachen wie Bulgarisch oder Rumänisch unter anderem bei Fachbegriffen oder Redewendungen schwächere Ergebnisse liefern und anfälliger für Fehler sind. Mit dem Projekt OpenGPT-X und dem Sprachmodell Teuken-7B soll sich das für Europa ändern. Behörden und Unternehmen berichten von erfolgreichen Testergebnissen, die sie mit anderen Modellen nicht erzielen konnten.
Varianten für Forscher und Unternehmen
Das Sprachmodell gibt es in zwei Varianten: Forscher können Teuken-7B als Open-Source-Software von der AI-Community-Plattform "Hugging Face" kostenfrei herunterladen und in eigene Systeme integrieren. Für Firmenkunden bietet die Deutsche Telekom eine kommerzielle Variante für Behörden und Unternehmen. Das Unternehmen biete damit eine "leistungsstarke, vertrauenswürdige und quelloffene Alternative zu den großen gängigen Modellen", so die Telekom in einer Pressemitteilung.
Teuken B7 hat Vorteile bei Fachbegriffen
"Nur durch gemeinsame europäische Anstrengungen können wir konkurrenzfähige Alternativen zu den großen internationalen Anbietern schaffen", betont Dr. Ferri Abolhassan, Vorstandsmitglied der Telekom. Und diese Alternativen sind zum einen wichtig, wenn es um Verarbeitung von Sprache geht, die spezielle landestypische oder europäische Kenntnisse voraussetzen, wie beispielsweise in der Medizin-, Arznei- oder in der Amtssprache. "Teuken überzeugt vor allem bei Fachbegriffen", sagt Thomas Wächter von der Telekom-Tochter MMS.
Einsatz in Behörden und Krankenhäusern
So will die Telekom Teuken-7B zum Beispiel in die Krankenhaussoftware iMedOne integrieren. Ärzte sollen dem System künftig per Spracheingabe diktieren können, welches Medikament ein Patient einnehmen soll. Den dazu gehörenden Einnahmeplan entwirft dann die KI von OpenGPT-X. Teuken-7B soll aber auch in Ämtern dabei helfen, Zuschüsse für Gesundheitsleistungen zu beantragen oder Bürgergeldanträge automatisch auszufüllen und zu übersetzen.
Teuken-7B unterliegt europäischem Datenschutz
Das bessere Sprachverständnis ist aber nur ein Aspekt. Auch aus Datenschutzgründen bietet Teuken-7B gerade für deutsche und europäische Unternehmen, die sensible Daten verarbeiten, eine wichtige Alternative. Denn während Teuken-7B den europäischen Datenschutzrichtlinien unterliegt, sind US-amerikanische Firmen an den Cloud-Act gebunden, der amerikanischen Behörden, auch den US-Geheimdiensten, Zugriff auf sämtliche Daten garantiert.
"Sensible Daten können im Unternehmen bleiben"
Durch die Bereitstellung von Teuken-7B im Open-Source-Umfeld könnten Unternehmen das Sprachmodell auf ihre Bedarfsfälle anpassen und spezialisierte Anwendungen damit entwickeln, sagt Dr. Nicolas Flores-Herr, Projektleiter am Fraunhofer IAIS. "Zudem können sie bestimmen, ob sie das Modell lokal auf der eigenen Infrastruktur oder bei einem vertrauenswürdigen Cloudanbieter ihrer Wahl betreiben wollen. Wenn gewünscht, können sensible Daten also im Unternehmen verbleiben."
Beginn einer Entwicklung für ein europäisches Gegengewicht
Vor diesem Hintergrund könnten OpenGPT-X und Teuken-7B eine Entwicklung befördern, hin zu einem europäischen Gegengewicht zu den milliardenschweren KI-Investitionen großer US-Firmen. Und das auch und gerade vor dem Hintergrund, dass Donald Trump mit seinem Mantra "America first" ab 20. Januar erneut an der Spitze einer von ihm zusammengestellten US-Regierung stehen wird.
"Hier ist Bayern": Der BR24 Newsletter informiert Sie immer montags bis freitags zum Feierabend über das Wichtigste vom Tag auf einen Blick – kompakt und direkt in Ihrem privaten Postfach. Hier geht’s zur Anmeldung!