📄️ Korpusanalysen: distributionelle Semantik
Die Bedeutung sprachlicher Zeichen: Bedeutungstheorien
📄️ Word Embeddings
Word Embeddings sind eine Methode der distributionellen Semantik und gehört zu den Methoden des Machine Learning. Jedem Wort wird dazu ein Vektor (mit etwa 300 Dimensionen) zugewiesen und diese Wortvektoren werden dann in einen mehrdimensionalen Vektorraum projiziert. Das trainierte Modell ordnet die Vektoren dabei so an, dass semantisch ähnliche Wörter nah beieinander im Raum liegen und semantisch nur wenig oder unverwandte Wörter weit(er) auseinanderliegen. Aussschlaggebend für die Anordnung der Wörter und somit die Grundlage auf denen das Modell (es gibt allerdings viele verschiedene trainierte Modelle, beispielsweise für spezifische Textsorten) trainiert wird, ist der Kontext der Wörter. Wörter, die in einem ähnlichen Kontext vorkommen, werden im Vektorraum nah beieinander projiziert. Dies bedeutet also, dass der Kontext die Semantik der Wörter formt bzw. massgeblich beeinflusst.
📄️ Topic Modelling
Das Topic Modelling ist eine Methode aus dem Natural Language Processing, bei der ein Korpus aus Texten in Themen aufgeteilt wird bzw. dem Korpus verschiedene Themen basierend auf seinen Texten zugewiesen werden.