📄️ LCP – Eine Korpusplattform der Universität Zürich
Die LiRI Corpus Platform (LCP) ist eine moderne, cloudbasierte Infrastruktur der Linguistic Research
📄️ Querying auf LCP
Die LCP Dokumentation ist hier//lcp.linguistik.uzh.ch/manual/dqd.html
📄️ Korpusaufbereitung
Warum soll überhaupt mit einer Korpusdatenbank wie der LCP gearbeitet werden? Ist eine Suchmaschine wie Google oder DuckDuckGo nicht auch eine Korpusdatenbank? Ist die Volltextsuche der Schweizer Mediendatenbank SMD ein Korpus? Und was ist mit der Sammlung von PDFs auf meinem Computer, die ich mit der Suchfunktion des Betriebssystems durchsuchen kann?
📄️ Korpusupload vorbereiten (CoNLL-U)
LCP bietet eine integrierte Funktion, mit der CoNLL-U Files in das von LCP geforderte Upload-Format konvertiert werden können.
📄️ Swissdox
Zeitungsdaten sind attraktiv für Korpusanalysen, weil sie für einen wichtigen Teil massenmedialen Sprachgebrauchs stehen und auch thematisch interessant sind. Allerdings gibt es dabei Urheberrechte zu beachten.
📄️ Korpusupload vorbereiten (Corpus Class)
---
📄️ Korpora hochladen
Um Korpora in das für den LCP Upload geforderte Format zu konvertieren und anschliessend auf LCP hochzuladen, muss das
📄️ Swissdox - Promethia - LCP
Im Folgenden wird ein gesamter Arbeitsablauf von der Datensuche über das Verarbeiten und Aufbereiten der Daten zum Upload auf LCP vorgestellt: eine Swissdox-Promethia-LCP Pipeline.
📄️ Promethia XML-Input
Im vorherigen Kapitel wurde gezeigt, wie Promethia benutzt wird, um Daten von swissdox@LiRI zu verarbeiten. Promethia verarbeitet aber auch Daten in einem einfachen XML-Format. Dadurch können Sie beispielsweise Daten, die Sie aus anderen Quellen haben, mit Promethia verarbeiten.
📄️ Promethia VRT-Output
In den vorherigen Kapiteln wurde erklärt, wie Promethia verwendet wird, um CoNNL-U Files für den LCP-Upload zu erstellen. Alternativ kann jedoch auch ein VRT-Format erzeugt werden, das für andere Zwecke praktischer ist, so z.B. für die in Kapitel Korpusanalysen: distributionelle Semantik beschriebenen Methoden.
📄️ Weitere Ressourcen
Die folgende Auflistung beinhaltet Anleitungen, Präsentationen, Code Beispiele und Open Source Korpora,