Skip to main content

Promethia: VRT-Output

In den vorherigen Kapiteln wurde erklärt, wie Promethia verwendet wird, um CoNNL-U Files für den LCP-Upload zu erstellen. Alternativ kann jedoch auch ein VRT-Format erzeugt werden, das für andere Zwecke praktischer ist, so z.B. für die in Kapitel Korpusanalysen: distributionelle Semantik beschriebenen Methoden.

VRT-Format

Das VRT-Format ist sehr einfach aufgebaut und in auf der Seite Dateiformate kurz beschrieben. Grundsätzlich hat es dieses Format:

Das     ART     d
ist VV sein
ein ART ein
Satz NN Satz
. $. .
  • pro Zeile ein Token
  • in weiteren Spalten (mit tab getrennt) beliebige weitere Angaben zu jedem Token, z.B. Part-of-Speech (Wortart), Lemma etc.

Verarbeitung mit Promethia

Analog zur Beschreibung im vorherigen Kapitel ruft man Promethia auf, wobei das Attribut -s statt lcp den Wert vrt haben muss. Als Inputformat -l je nachdem headerbody oder swissdox wählen:

Windows Terminal

python3 -m promethia.promethia -i .\Testprojekt\raw_data\ -l (headerbody|swissdox) -s vrt -o .\Testprojekt\processed_data\

Unix Terminal (Linux/Mac)

python3 -m promethia.promethia -i Testprojekt/raw_data/ -l (headerbody|swissdox) -s vrt -o Testprojekt/processed_data/
  • Testprojekt/raw_data : Pfad zu den XML-Daten. Entsprechend der Ordnerstruktur anpassen.
  • Testprojekt/processed_data : Hier werden die verarbeiteten CoNNL-U Files abgelegt. Kann angepasst werden. Wichtig: Der Output-Ordner (in diesem Fall 'processed_data') darf noch nicht existieren.
  • Argument -s ist vrt um das entsprechende Format zu generieren.