Swissdox-Promethia-LCP Pipeline
Im Folgenden wird ein gesamter Arbeitsablauf von der Datensuche über das Verarbeiten und Aufbereiten der Daten zum Upload auf LCP vorgestellt: eine Swissdox-Promethia-LCP Pipeline.
Vorbereitung
Für die Pipeline benötigen wir Python und spezifische Python-Module.
-
Installiere Python (zum Beispiel über den App Store), mindestens Version Python 3.11.
-
Klone das Git-Repo von Promethia oder lade den Code herunter.
Du findest Promethia hier:
https://gitlab.uzh.ch/corpus-linguistic-uzh/promethiaFolge dem Set-up-Guide auf der GitLab-Seite von Promethia
-
Installiere das Python-Modul lcpcli (idealerweise in derselben Virtual Environment, die du für Promethia verwendest).
pip install lcpcli
Daten besorgen
Für diese Pipeline holen wir unsere Daten von Swissdox. Gehe auf die Seite https://swissdox.linguistik.uzh.ch/ (Login einer Partnerinstitution benötigt).
Dort kannst du ein neues Research Project anmelden und innerhalb von diesem eine Datenbankanfrage machen. Die erhaltenen Daten kannst du dann als .tsv Daten herunterladen.
Daten aufbereiten
Die Datenaufbereitung geschieht mit Promethia. Erstelle im promethia Ordner einen neuen Projekt Ordner und in diesem einen Unterordner, in welchem du deine Swissdox Daten ablegst. Navigiere im Terminal in den promethia Ordner. Mit diesem Befehl benutzt du Promethia:
Windows Terminal
python3 -m promethia.promethia -i .\Testprojekt\raw_data\ -l swissdox -s lcp -o .\Testprojekt\processed_data\
Unix Terminal (Linux/Mac)
python3 -m promethia.promethia -i Testprojekt/raw_data/ -l swissdox -s lcp -o Testprojekt/processed_data/
Testprojekt/raw_data: Pfad zu den Swissdox Daten. Entsprechend deiner Ordnerstruktur anpassen.Testprojekt/processed_data: Hier werden die verarbeiteten CoNNL-U Files abgelegt. Kann angepasst werden. Wichtig: Der Output Ordner (in diesem Fall 'processed_data') darf noch nicht existieren.
Weitere Hinweise zur Benützung von Promethia und Erklärung des Terminal Commands: https://gitlab.uzh.ch/corpus-linguistic-uzh/promethia
Daten auf LCP hochladen
Um das verarbeitete Korpus auf LCP hochzuladen, folgst du der Dokumentation in Upload vorbereiten mit CoNNL-U Files und Korpora hochladen.