Question Answering
Transformers
PyTorch
German
bert
scherrmann's picture
Update README.md
1873816
metadata
license: apache-2.0
language:
  - de
widget:
  - text: >-
      Um wie viele Prozentpunkte verbesserte sich die Bruttomarge des
      Unternehmens?
    context: >-
      Die Bruttomarge des Unternehmens verbesserte sich im dritten Quartal um
      0,2 Prozentpunkte auf 49,3 % (2022: 49,1 %).
  - text: Wie lautet die Wertpapierkennnummer der genannten Anleihe?
    context: >-
      Die Geschäftsführung der Neue ZWL Zahnradwerk Leipzig GmbH hat heute die
      Emission einer neuen Unternehmensanleihe (ISIN: DE000A351XF8) mit einem
      Zinssatz von 9,5 % p.a. und einem Volumen von bis zu 15 Mio. Euro
      beschlossen.
  - text: Bei wem wurde ein Antrag auf Insolvenz eingereicht?
    context: >-
      Der Vorstand der Gigaset AG hat heute beschlossen, wegen
      Zahlungsunfähigkeit einen Antrag auf Eröffnung eines
      Regelinsolvenzverfahrens für die Gigaset AG sowie einen Antrag auf
      Eröffnung eines Insolvenzverfahrens in Eigenverwaltung für deren
      mittelbare Tochtergesellschaft Gigaset Communications GmbH beim
      zuständigen Amtsgericht Münster zu stellen.

German FinBERT For QuAD (Further Pre-trained Version, Fine-Tuned for Financial Question Answering)

Alt text for the image

German FinBERT is a BERT language model focusing on the financial domain within the German language. In my paper, I describe in more detail the steps taken to train the model and show that it outperforms its generic benchmarks for finance specific downstream tasks.

This model is the further-pretrained version of German FinBERT, after fine-tuning on the German Ad-Hoc QuAD dataset.

Overview

Author Moritz Scherrmann Paper: here
Architecture: BERT base Language: German
Specialization: Financial question answering Base model: German_FinBert_FP

Fine-tuning

I fine-tune the model using the 1cycle policy of Smith and Topin (2019). I use the Adam optimization method of Kingma and Ba (2014) with standard parameters.I run a grid search on the evaluation set to find the best hyper-parameter setup. I test different values for learning rate, batch size and number of epochs, following the suggestions of Chalkidis et al. (2020). I repeat the fine-tuning for each setup five times with different seeds, to avoid getting good results by chance. After finding the best model w.r.t the evaluation set, I report the mean result across seeds for that model on the test set.

Results

Ad-Hoc QuAD (Question Answering):

  • Exact Match (EM): 52.50%
  • F1 Score: 74.61%

Authors

Moritz Scherrmann: scherrmann [at] lmu.de

For additional details regarding the performance on fine-tune datasets and benchmark results, please refer to the full documentation provided in the study.

See also:

  • scherrmann/GermanFinBERT_SC
  • scherrmann/GermanFinBERT_FP
  • scherrmann/GermanFinBERT_SC_Sentiment