Skip to main content

Bestehende Korpusressourcen

DWDS

Das digitale Wörterbuch der deutschen Sprache bietet eine Reihe von verschiedenen Korpora an, die im Browser durchsucht werden können. Viele Korpora sind ohne Anmeldung zugänglich, auf einen Teil der Korpora muss über ein Login zugegriffen werden. Die Erstellung eines Logins ist kostenlos und kann direkt auf der Seite des DWDS gemacht werden. Da die Abfrage ausschliesslich im Browser gemacht werden kann, sind die Analysemöglichkeiten begrenzt. Die Korpora eignen sich aber durchaus zum Arbeiten und gerade für kleinere Analysen.

Die Korpora können hier abgefragt werden und hier gibt es ein Tutorial dazu.

DeReKo

Das Deutsche Referenz-Korpus wird vom Institut für Deutsche Sprache (IDS) Mannheim kuratiert und herausgegeben. Das Korpus umfasste Anfang 2025 61.5 Milliarden Wörter und ist damit die grösste Sammlung elektronischer Korpora, die einen linguistischen Fokus hat. Das Korpus besteht aus einer Reihe verschiedener Textsorten, darunter populärwissenschaftliche Texte und Zeitungstexte. Auf das Korpus kann über zwei Schnittstellen, COSMAS II und KorAP zugegriffen werden. Es gibt zudem den sogenannten KorAP-Client, der die Abfrage des Korpus mit direkter statistischer Datenanalyse in R erlaubt.

Hierüber funktioniert die Abfrage über COSMAS II und KorAP und hier gibt es ein Tutorial.

Swissdox@LiRI

Swissdox@LiRI ist eine Schnittstelle zur Schweizerischen Mediendatenbank (SMD), die ständig mit den aktuellsten Medientexten verschiedenster Schweizer Medienhäuser aktualisiert wird. Mit einem Switch-Login (gleiches Login wie bei Olat) können sich Studierende bei Swissdox anmelden und Abfragen anlegen. Die Abfrage der entsprechenden Medientexte nach voreingestellten Parametern wird im Anschluss gemacht und kann einige Zeit in Anspruch nehmen (mehrere Stunden bis einen Tag). Das Korpus kann im Anschluss als TSV-File heruntergeladen und weiterverarbeitet werden.

Zum Login bei Swissdox geht es hier.

LCP

Die LCP, die Linguistic Corpus Platform, ist ein an der Universität Zürich bei LiRI (Linguistic Research Infrastructure) entwickeltes Tool zum Hochladen und Analysieren von eigenen Korpora, ähnlich wie bei der CWB. Im Unterschied dazu funktioniert bei LCP alles im Browser. Studierende mit einem Switch-Zugang können sich direkt bei LCP anmelden und auf einige Korpora zugreifen. Alle weiteren Korpora müssen eigenständig hochgeladen werden.

Zu den Korpora und zum Login gelangen Sie hier und hier finden Sie weitere Informationen zur LCP und zu LiRI.

Lehrstuhl Bubenhofer auf CQPweb

CQPweb ist eine von Evert et al. entwickelte sogenannte Corpus Work Bench, die es erlaubt Korpora einzuspeisen und dann verschiedene Abfragen und Analysen zu machen. Es gibt sowohl die lokale Version von CQP, die CWB, die lokal auf jedem Gerät installiert werden kann und in die Nutzer:innen dann eigene Korpora laden können als auch verschiedene Browserinstanzen von verschiedenen Universitäten bzw. Teams. Über die Korpuspragmatik-Instanz unseres Lehrstuhls haben Sie mit einem Login Zugriff auf verschiedene bereits vorhandene Korpora und können auf diesen verschiedene Berechnungen und Analysen durchführen.

Zur Loginmaske von CQPweb am Lehrstuhl Bubenhofer gelangen Sie hier.

Weitere Korpora

Einen Überblick über weitere sprachspezifische Korpora stellt die HU Berlin zur Verfügung.