Towards Informed Pre-Training for Critical Error Detection in English-German

CC BY 4.0Pucknat, LisaLisaPucknatPielka, MarenMarenPielkaSifa, RafetRafetSifa2023-05-102023-05-102022https://publica.fraunhofer.de/handle/publica/441450https://doi.org/10.24406/publica-133210.24406/publica-13322-s2.0-85148609620This paper presents two data augmentation methods for pre-training, to find critical errors in machine translations. This includes an alignment approach used in traditional machine translation and an imitation method, mimicking the structure of the data. Both methods are adapted to a binary classification. Our approach achieves competitive results on the WMT'21 critical error detection (CED) dataset while only using 0.06% of datapoints in comparison to the first placement.enCritical Error DetectionInformed Machine LearningMachine TranslationQuality EstimationTowards Informed Pre-Training for Critical Error Detection in English-Germanconference paper