Korpora für LCP aufbereiten und hochladen
Um Korpora in das für den LCP Upload geforderte Format zu konvertieren und anschliessend auf LCP hochzuladen, muss das Python-Modul LCP CLI installiert werden.
pip install lcpcli
Korpora aufbereiten
Grundsätzlich gibt es zwei verschiedene Möglichkeiten, um Korpora in das richtige Format zu konvertieren: Convert-Funktion von LCP: Akzeptiert CoNLL-U Files als Input.
- LCP hat eine convert function, die CoNNL-U Files als Input akzeptiert (einfache und schnelle Variante für unkomplizierte, einheitlich vorverarbeitete Daten)
- Alternativ kann man sein Korpus mit dem LCP Corpus Builder für einen Upload vorbereiten (ist etwas aufwändiger und erfordert Python Kenntnisse, erlaubt aber individuelles Modellieren eines Korpus)
Die zwei Upload Varianten werden in Upload vorbereiten mit CoNNL-U Files und Upload vorbereiten mit LCP Corpus Class genauer erläutert. Zudem wird in Die Swissdox-Promethia-LCP Pipeline ein einfacher Workflow vorgestellt, der alle Schritte von Datensammlung, über Preprocessing bis LCP Upload beinhält.
Korpora hochladen
Der Terminal Befehl für den Korpus Upload lautet folgendermassen:
lcpcli -c $CORPUS_FOLDER -k $API_KEY -s $API_SECRET -p $COLLECTION --live
$CORPUS_FOLDER: Pfad zum Ordner, in welchem die Files für den LCP Upload liegen (CSV files und das meta.json file)$API_KEY: Immer sichtbarer Schlüssel zur LCP Collection (siehe Erklärung unten)$API_SECRET: Einmal sichtbarer Schlüssel zur LCP Collection (siehe Erklärung unten)$COLLECTION: Name der Collection, in welche das Korpus hochgeladen werden soll
Wenn die Daten für den LCP Upload bereit sind, können sie in einer Collection auf LCP hochgeladen werden. Eine Collection ist eine Sammlung in welche mehrere Korpora hinzugefügt werden können. Hat man bereits eine eigene Collection oder Admin Zugang zu einer Collection, braucht man lediglich API KEY und SECRET dazu. Ansonsten kann man eine eigene Collection erstellen:
Eigene Collection erstellen
- Auf LCP einloggen (SWITCH Login)
- Auf Catchphrase klicken
- Unten rechts auf den grauen Plus-Button klicken
- Titel der Collection eingeben, optional Daten ändern und Beschreibung hinzufügen
- Nach dem Speichern sollte eine neue Registerkarte mit dem Namen der Collection in der Übersicht erscheinen
Weitere Hinweise: LCP Manual zu Corpus Management
API Key und Secret erhalten
- In der gewählten Collection rechts oben auf das Einstellungen-Symbol (Rad-Symbol) klicken
- In den Tab API wechseln
- Neuen API-Schlüssel erstellen
- Wichtig: Secret Key kopieren und an einem sicheren Ort aufbewahren. Der Secret Key kann nachträglich nicht mehr eingesehen werden. Bei Verlust kann ein neuer API-Schlüssel generiert werden.
- API Key bei Bedarf ebenfalls kopieren und in Unterlagen speichern (dieser kann jederzeit im API-Tab eingesehen werden). Hinweis: Aus Sicherheitsgründen sollten API Key und Secret nicht zusammen kopiert oder am selben Ort gespeichert werden.