📄️ Korpusanalysen klassisch
Wir unterteilen die Korpusanalysemethoden hier in sogenannte klassische bzw. statistische Analyseverfahren, wie Frequenzanalysen, Keywordanalysen, ... und Analysemethoden der distributionellen Semantik wie Topic Modelling und Word Embeddings.
📄️ Frequenz
Die Frequenz beschreibt die Anzahl der Vorkommen eines Tokens (oder Lemmas oder POS-Tags, ...) in einem Korpus oder einem Subkorpus.
📄️ Keyness
Keyness ist ein Mass dafür, welche Wörter signifikant häufiger in einem Korpus als in einem anderen vorkommen. Die Keyness ist eine der Kernanalysekategorien in der Korpuslinguistik. Keywords sind wichtig, wenn es darum geht Schlüsselkonzepte in Diskursen zu identifizieren bzw. typisches Vokabular herauszuarbeiten.
📄️ Dispersion
Die Dispersion ist ein Mass zur Angabe der Streuung eines Wortes innerhalb eines Korpus. Dazu wird ein Korpus zunächst in Intervalle eingeteilt. Bei diesen Intervallen kann es sich um unterschiedliche Parameter handeln wie beispielsweise:
📄️ Kollokationen
Die Berechnung und Analyse von Kollokationen: Bei dieser Methode werden statistisch signifikante Co-Vorkommen von zwei Wörtern berechnet. Für ein im Korpus vorkommendes Wort können alle Wortformen identifiziert werden, die innerhalb eines vordefinierten Kontextfensters (z. B. fünf Wörter im unmittelbar linken und rechten Kontext) mit diesem Wort auftreten. Mithilfe unterschiedlicher statistischer Tests kann berechnet werden, ob ein Co-Vorkommen signifikant und damit statistisch auffällig ist. Abbildung 12.9 zeigt die ersten elf Kollokationen für das Wort Freiheit im DWDS, berechnet mithilfe des sog. logDice, einem statistischen Mass zur Berechnung von Wort-Co-Vorkommen.