Skip to main content

Korpora für LCP aufbereiten und hochladen

Um Korpora in das für den LCP Upload geforderte Format zu konvertieren und anschliessend auf LCP hochzuladen, muss das Python-Modul LCP CLI installiert werden.

pip install lcpcli

Korpora aufbereiten

Grundsätzlich gibt es zwei verschiedene Möglichkeiten, um Korpora in das richtige Format zu konvertieren: Convert-Funktion von LCP: Akzeptiert CoNLL-U Files als Input.

  • LCP hat eine convert function, die CoNNL-U Files als Input akzeptiert (einfache und schnelle Variante für unkomplizierte, einheitlich vorverarbeitete Daten)
  • Alternativ kann man sein Korpus mit dem LCP Corpus Builder für einen Upload vorbereiten (ist etwas aufwändiger und erfordert Python Kenntnisse, erlaubt aber individuelles Modellieren eines Korpus)

Die zwei Upload Varianten werden in Upload vorbereiten mit CoNNL-U Files und Upload vorbereiten mit LCP Corpus Class genauer erläutert. Zudem wird in Die Swissdox-Promethia-LCP Pipeline ein einfacher Workflow vorgestellt, der alle Schritte von Datensammlung, über Preprocessing bis LCP Upload beinhält.


Korpora hochladen

Der Terminal Befehl für den Korpus Upload lautet folgendermassen:

lcpcli -c $CORPUS_FOLDER -k $API_KEY -s $API_SECRET -p $COLLECTION --live
  • $CORPUS_FOLDER: Pfad zum Ordner, in welchem die Files für den LCP Upload liegen (CSV files und das meta.json file)
  • $API_KEY: Immer sichtbarer Schlüssel zur LCP Collection (siehe Erklärung unten)
  • $API_SECRET: Einmal sichtbarer Schlüssel zur LCP Collection (siehe Erklärung unten)
  • $COLLECTION: Name der Collection, in welche das Korpus hochgeladen werden soll

Wenn die Daten für den LCP Upload bereit sind, können sie in einer Collection auf LCP hochgeladen werden. Eine Collection ist eine Sammlung in welche mehrere Korpora hinzugefügt werden können. Hat man bereits eine eigene Collection oder Admin Zugang zu einer Collection, braucht man lediglich API KEY und SECRET dazu. Ansonsten kann man eine eigene Collection erstellen:

Eigene Collection erstellen

  • Auf LCP einloggen (SWITCH Login)
  • Auf Catchphrase klicken
  • Unten rechts auf den grauen Plus-Button klicken
  • Titel der Collection eingeben, optional Daten ändern und Beschreibung hinzufügen
  • Nach dem Speichern sollte eine neue Registerkarte mit dem Namen der Collection in der Übersicht erscheinen

Weitere Hinweise: LCP Manual zu Corpus Management

API Key und Secret erhalten

  • In der gewählten Collection rechts oben auf das Einstellungen-Symbol (Rad-Symbol) klicken
  • In den Tab API wechseln
  • Neuen API-Schlüssel erstellen
  • Wichtig: Secret Key kopieren und an einem sicheren Ort aufbewahren. Der Secret Key kann nachträglich nicht mehr eingesehen werden. Bei Verlust kann ein neuer API-Schlüssel generiert werden.
  • API Key bei Bedarf ebenfalls kopieren und in Unterlagen speichern (dieser kann jederzeit im API-Tab eingesehen werden). Hinweis: Aus Sicherheitsgründen sollten API Key und Secret nicht zusammen kopiert oder am selben Ort gespeichert werden.