Skip to main content

Was ist eine Korpusdatenbank und wozu ist sie nützlich?

Warum soll überhaupt mit einer Korpusdatenbank wie der LCP gearbeitet werden? Ist eine Suchmaschine wie Google oder DuckDuckGo nicht auch eine Korpusdatenbank? Ist die Volltextsuche der Schweizer Mediendatenbank SMD ein Korpus? Und was ist mit der Sammlung von PDFs auf meinem Computer, die ich mit der Suchfunktion des Betriebssystems durchsuchen kann?

Nicht im engeren Sinn. Es sind alles Beispiele für digitale Datenbanken (mit Ausnahme des Chatbots, der ein Large Language Model ist), die aber keine im engeren Sinn korpuslinguistische Datenbanken sind.

Was macht eine Korpusdatenbank aus?

  • Sie erlaubt den Zugriff auf eine definierte Sammlung von digitalen Dokumenten (das ist z.B. bei Google nicht der Fall: Wir wissen nicht, wie gross die Datenbank ist).
  • Die Daten haben Metadaten, auf die zugegriffen werden kann: Beispielsweise indem die Suche auf Dokumente einer bestimmten Quelle eines bestimmten Zeitraums beschränkt wird. (Dies erlaubt etwa die SMD-Datenbank, nicht aber die Suchmaschine oder der Chatbot.)
  • Die Suche erlaubt den Zugriff auf alle in den Daten verfügbaren Annotationsebenen, also z.B.: Suche nach Adjektiven, die vor dem Lemma _Demokratie stehen. (Keine der oben genannten Archive ermöglicht das.)
  • Oft stehen auch Standardanalysetools zur Verfügung: Ein Ergebnis ist also nicht nur eine Treffermenge (wie bei einer Suchmaschine, der SMD-Datenbank oder der PDF-Sammlung), sondern z.B. ein Kollokationsprofil oder eine Verteilungstabelle (Distribution).
  • Eine Korpusdatenbank versucht also so transparent wie möglich zu sein, um einen möglichst komplexen Zugriff auf reich annotierte Daten zu ermöglichen und dabei unterschiedliche Forschungsfragen dienen zu können.

Es gibt verschiedene Korpusdatenbank-Systeme, die bereits Korpora enthalten oder das Verwalten und Abfragen eigener Daten erlauben. Vgl. dazu auch einfuehrung-korpuslinguistik/02_bestehende_ressourcen.md. Hier zeigen wir Ihnen, wie Sie eigene Korpora in der LCP LiRI Corpus Platform verwalten können.