Promethia: VRT-Output
In den vorherigen Kapiteln wurde erklärt, wie Promethia verwendet wird, um CoNNL-U Files für den LCP-Upload zu erstellen. Alternativ kann jedoch auch ein VRT-Format erzeugt werden, das für andere Zwecke praktischer ist, so z.B. für die in Kapitel Korpusanalysen: distributionelle Semantik beschriebenen Methoden.
VRT-Format
Das VRT-Format ist sehr einfach aufgebaut und in auf der Seite Dateiformate kurz beschrieben. Grundsätzlich hat es dieses Format:
Das ART d
ist VV sein
ein ART ein
Satz NN Satz
. $. .
- pro Zeile ein Token
- in weiteren Spalten (mit
tabgetrennt) beliebige weitere Angaben zu jedem Token, z.B. Part-of-Speech (Wortart), Lemma etc.
Verarbeitung mit Promethia
Analog zur Beschreibung im vorherigen Kapitel ruft man Promethia auf, wobei das Attribut -s statt lcp den Wert vrt haben muss. Als Inputformat -l je nachdem headerbody oder swissdox wählen:
Windows Terminal
python3 -m promethia.promethia -i .\Testprojekt\raw_data\ -l (headerbody|swissdox) -s vrt -o .\Testprojekt\processed_data\
Unix Terminal (Linux/Mac)
python3 -m promethia.promethia -i Testprojekt/raw_data/ -l (headerbody|swissdox) -s vrt -o Testprojekt/processed_data/
Testprojekt/raw_data: Pfad zu den XML-Daten. Entsprechend der Ordnerstruktur anpassen.Testprojekt/processed_data: Hier werden die verarbeiteten CoNNL-U Files abgelegt. Kann angepasst werden. Wichtig: Der Output-Ordner (in diesem Fall 'processed_data') darf noch nicht existieren.- Argument
-sistvrtum das entsprechende Format zu generieren.