Skip to main content

Swissdox-Promethia-LCP Pipeline

Im Folgenden wird ein gesamter Arbeitsablauf von der Datensuche über das Verarbeiten und Aufbereiten der Daten zum Upload auf LCP vorgestellt: eine Swissdox-Promethia-LCP Pipeline.


Vorbereitung

Für die Pipeline benötigen wir Python und spezifische Python-Module.

  1. Installiere Python (zum Beispiel über den App Store), mindestens Version Python 3.11.

  2. Klone das Git-Repo von Promethia oder lade den Code herunter.
    Du findest Promethia hier:
    https://gitlab.uzh.ch/corpus-linguistic-uzh/promethia

    Folge dem Set-up-Guide auf der GitLab-Seite von Promethia

  3. Installiere das Python-Modul lcpcli (idealerweise in derselben Virtual Environment, die du für Promethia verwendest).

pip install lcpcli

Daten besorgen

Für diese Pipeline holen wir unsere Daten von Swissdox. Gehe auf die Seite https://swissdox.linguistik.uzh.ch/ (Login einer Partnerinstitution benötigt).

Dort kannst du ein neues Research Project anmelden und innerhalb von diesem eine Datenbankanfrage machen. Die erhaltenen Daten kannst du dann als .tsv Daten herunterladen.


Daten aufbereiten

Die Datenaufbereitung geschieht mit Promethia. Erstelle im promethia Ordner einen neuen Projekt Ordner und in diesem einen Unterordner, in welchem du deine Swissdox Daten ablegst. Navigiere im Terminal in den promethia Ordner. Mit diesem Befehl benutzt du Promethia:

Windows Terminal

python3 -m promethia.promethia -i .\Testprojekt\raw_data\ -l swissdox -s lcp -o .\Testprojekt\processed_data\

Unix Terminal (Linux/Mac)

python3 -m promethia.promethia -i Testprojekt/raw_data/ -l swissdox -s lcp -o Testprojekt/processed_data/
  • Testprojekt/raw_data : Pfad zu den Swissdox Daten. Entsprechend deiner Ordnerstruktur anpassen.
  • Testprojekt/processed_data : Hier werden die verarbeiteten CoNNL-U Files abgelegt. Kann angepasst werden. Wichtig: Der Output Ordner (in diesem Fall 'processed_data') darf noch nicht existieren.

Weitere Hinweise zur Benützung von Promethia und Erklärung des Terminal Commands: https://gitlab.uzh.ch/corpus-linguistic-uzh/promethia


Daten auf LCP hochladen

Um das verarbeitete Korpus auf LCP hochzuladen, folgst du der Dokumentation in Upload vorbereiten mit CoNNL-U Files und Korpora hochladen.