Frequenz
Die Frequenz beschreibt die Anzahl der Vorkommen eines Tokens (oder Lemmas oder POS-Tags, ...) in einem Korpus oder einem Subkorpus.
Es gibt dabei verschiedene Arten von Frequenzen:
- absolute Häufigkeit
- relative Häufigkeit
- normierte Häufigkeit
| absolute Häufigkeit | relative Häufigkeit | normierte Häufigkeit |
|---|---|---|
| Anzahl der Vorkommen eines Suchausdrucks im Korpus | Anzahl der Vorkommen eines Suchausdrucks im Korpus geteilt durch die Gesamtzahl der Token im Korpus | Anzahl der Vorkommen eines Suchausdrucks im Korpus geteilt durch die Gesamtzahl der Token im Korpus multipliziert mit 1'000'000 |
| n token | n token / total token | n token / total token * 1'000'000 |
Die relative und die normierte Frequenz/Häufigkeit sind vor allem dann wichtig, wenn Korpusfrequenzen in mehreren Korpora miteinander verglichen werden sollen.
Zipfsches Gesetz
Die Verteilung von Sprache funktioniert nach dem Zipfschen Prinzip oder Zipfschen Gesetz. Das Zipfsche Gesetz ist eine statistische Wahrscheinlichkeitsverteilung in Datensätzen. Das bedeutet, dass das häufigste Wort in einem Text etwa doppelt so häufig vorkommt wie das zweithäufigste und das dritthäufigste einen Drittel so oft, etc. Diese Verteilung funktioniert zwar nicht für alle Wörter, da es häufig sehr viele Wörter gibt, die nur ein Mal vorkommen. Grob bedeutet das, dass wenige Wörter sehr häufig vorkommen und viele Wörter nur sehr selten. Wörter, die nur einmal vorkommen, nennt man Hapaxlegomenon.
Gerade für thematische Korpora können wir so erste Erkenntnisse, Hypothesen oder Fragen ableiten, wenn wir uns mit der Frequenzliste befassen. Dies allerdings nur bedingt, da die Häufigkeit der Wörter eben so rapide abnimmt.
Die Zipfsche Kurve sieht in etwa so aus:
Hier gibt es eine Visualisierung, die das Entstehen einer Zipf'schen Verteilung zeigt.

Frequenzlisten berechnen
Die Frequenzlisten für die Wörter in Ihrem Korpus können Sie direkt in LCP berechnen.
Literatur
- Brezina, Vaclav (2018): Statistics in Corpus Linguistics. A Practical Guide. Cambridge: Cambridge University Press.
- Knuchel, Daniel (2024): ›HIVAIDS‹ in der Ära der Post-Infektiosität – Korpuspragmatische Analysen zur sprachlichen Konzeptualisierung einer Infektionskrankheit. Im Druck.