Upload vorbereiten mit CoNLL-U Files
LCP bietet eine integrierte Funktion, mit der CoNLL-U Files in das von LCP geforderte Upload-Format konvertiert werden können. Es werden standardmässig drei Korpusebenen modelliert: Document, Segment und Token. Jede Ebende kann mit Metadaten ergänzt werden. Das Token ist die kleinste Einheit des Korpus und üblicherweise ein einzelnes Wort. Typische Metadaten sind zum Beispiel Lemma, Part-of-Speech und Form. Das Segment beinhaltet eine Sammlung von Tokens. In der Regel ist das Segment ein einzelner Satz (kann z.B. aber auch ein ganzer Kommentar in einem Social Media Korpus sein). Das Document schliesslich beinhaltet eine Sammlung von Segments. Ein Document kann ein Artikel sein, ein Buch oder die gesammelten Kommentare eines Videos. Die Namen Document, Segment und Token können auch geändert werden (z.B. Article, Sentence, Word).

Format der CoNLL-U Files
Die CoNLL-U Files sollten wie folgt formatiert sein:
# global.columns = ID FORM LEMMA XPOS
# global.columns = ID FORM LEMMA XPOS
# newdoc id = 57587910
# newdoc pubtime = 2333-12-12 00:00:00+02
# newdoc medium_code = ZWA
# newdoc medium_name = 40 minuten
# newdoc rubric = SPORT
# newdoc regional = Bern
# newdoc doctype = PRD
# newdoc doctype_description = Regional daily newspaper
# newdoc language = de
# newdoc char_count = 133
# newdoc dateline =
# newdoc head = Beispieltitel
# newdoc subhead =
# newdoc article_link =
# newdoc content_id = 0000-0000-0000
# newdoc promethia_id = 0
# sent_id = 0_s0
0 ZÜRICH Zürich NE
1 England England NE
2 rettete retten VVFIN
3 sich sich PRF
4 im in+die APPRART
5 EM-Viertelfinal EM-Viertelfinal NN
6 nach nach APPR
7 einem eine ART
8 0:2-Rückstand 0:2-Rückstand NN
9 gegen gegen APPR
10 Schweden Schweden NE
11 kurz kurz ADJD
12 vor vor APPR
13 Schluss Schluss NN
14 per per APPR
15 Doppelschlag Doppelschlag NN
16 in in APPR
17 die die ART
18 Verlängerung Verlängerung NN
19 . . $.
Alle CoNNL-U Files müssen im gleichen Ordner gesammelt sein. Ein File beinhaltet alle Daten eines Documents.
Ein Document kann zum Beispiel ein einzelner Zeitungsartikel sein.
Wie das Mapping der Metadaten zu Document, Segment und Token Ebene funktioniert, wird hier erklärt:
https://lcp.linguistik.uzh.ch/manual/import_conllu.html
Konvertieren und manuelle Anpassungen
Befehl, um CoNNL-U Files ins LCP Upload Format zu konvertieren:
lcpcli -i $CONNL_FOLDER -o $LCP_Folder
$CONNL_FOLDER: Pfad zum Ordner, der die CoNNL-U Files enthält$LCP_Folder: Pfad zum Output Ordner (muss noch nicht existieren), in welchen die für den LCP Upload konvertierten Files gespeichert werden
Je nach Korpusgrösse kann das Konvertieren der Files einen Moment dauern. Wenn der Prozess erfolgreich abgeschlossen ist, sollte die Struktur im Output Ordner mit den LCP Files etwa so aussehen.

Nun können noch Änderungen an der Benennung der Metadaten vorgenommen werden. Diese werden im meta.json gemacht.
{
"meta": {
"name": "upload",
"authors": "Anonymous",
"date": "2025-10-06",
"revision": 1,
"corpusDescription": ""
},
"firstClass": {
"document": "Document",
"segment": "Segment",
"token": "Token"
},
"layer": {
"Token": {
"abstract": false,
"layerType": "unit",
"anchoring": {
"location": false,
"stream": true,
"time": false
},
"attributes": {
"form": {
"type": "text"
}
}
}
}
}
So kann nun zum Beispiel der Name des Korpus geändert werden (Default ist upload, so wird das Korpus auf der LCP Website angezeigt),
es können Autoren hinzugefügt werden oder auch die Namen der verschiedenen Ebenen document, segment und token geändert werden
(z.B "document": "Zeitungsartikel").
Hinweis: Teilweise übernimmt LCP bei der Konvertierung die Segment Metadaten nicht richtig. Diese können dann auch manuell im meta.json angepasst werden. Um in unserem Beispiel von oben das Metadatum sent_id einzufügen, ist folgende Anpassung beim Segment-Element nötig:
"Segment": {
"abstract": false,
"layerType": "span",
"contains": "Token",
"attributes": {
"meta": {
"sent_id": {
"type": "text"
}
}
}
}
Weiterführend
Es können auch Korpora mit mehr Ebenen und Verknüpfungen modelliert werden, wie z.B. das Text+Berg Korpus auf LCP:

Dazu sollten das Korpus aber mit der LCP Corpus Class verarbeitet werden (siehe Upload mit LCP Corpus Class).