Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs

October 21, 2025

Conference Paper

Abstract

We present two multilingual LLMs, Teuken 7B-base and Teuken 7B-instruct, designed to embrace Europe’s linguistic diversity by supporting all 24 official languages of the European Union. Trained on a dataset comprising around 60% non-English data and utilizing a custom multilingual tokenizer, our models address the limitations of existing Large Language Models (LLMs) that predominantly focus on English or a few high-resource languages. We detail the models’ development principles, i.e., data composition, tokenizer optimization, and training methodologies. The models demonstrate strong performance across multilingual benchmarks, as evidenced by their performance on European versions of ARC, HellaSwag, and TruthfulQA.

Author(s)

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Thellmann, Klaudia

Ebert, Jan

Forschungszentrum Jülich

Weber, Alexander Arno

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Rutmann, Richard

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Jain, Charvi

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Lübbering, Max

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Steinigen, Daniel

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Leveling, Johannes

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Schulze Buschhoff, Johann Jasper

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Jurkschat, Lena

Abdelwahab, Hammam

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Stein, Benny Jörg

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Sylla, Karl-Heinz

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Denisov, Pavel

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Brandizzi, Nicolo

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Saleem, Qasid

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Bhowmick, Anirban

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Helmer, Lennard

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

John, Chelsea

Forschungszentrum Jülich

Ortiz Suarez, Pedro

Ostendorff, Malte

Jude, Alex

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Manjunath, Lalith

Weinbach, Samuel

Aleph Alpha

Penke, Carolin

Forschungszentrum Jülich

Filatov, Oleg

Forschungszentrum Jülich

Barth, Fabio

Mirza, Paramita

Fraunhofer-Institut für Integrierte Schaltungen IIS

Weber, Lucas

Fraunhofer-Institut für Integrierte Schaltungen IIS

Wendler, Ines

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Fraunhofer-Institut für Integrierte Schaltungen IIS

Herten, Andreas

Forschungszentrum Jülich

Jäkel, René

Rehm, Georg

Kesselheim, Stefan

Forschungszentrum Jülich

Köhler, Joachim

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Flores-Herr, Nicolas

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Mainwork

ECAI 2025, 28th European Conference on Artificial Intelligence. Proceedings

Conference

European Conference on Artificial Intelligence 2025

Conference on Prestigious Applications of Intelligent Systems 2025