Skip to main content

Dateiformate

Sie kennen und arbeiten im Studium alle regelmässig mit verschiedenen Dateiformaten, die unterschiedliche Vorteile und Eigenschaften haben:

  • Word, LibreOffice Writer: .docx
  • PowerPoint, LibreOffice Writer: .pptx
  • Excel, Numbers, LibreOffice Calc: .xlsx
  • PDF (Portable Document Format): .pdf

Für korpuslinguistisches Arbeiten benötigen wir nun noch einige weitere Dateiformate. Die gängigsten und in diesem Kurs verwendeten werden hier kurz vorgestellt:

TXT

Das txt-Format entspricht einem einfachen Text ohne Struktur oder Formatierung.

Eigenschaften

  • reiner Text
  • menschenlesbar
  • keine Spalten
  • von vielen Programmen lesbar
  • Encoding (UTF-8) sicherstellen!

CSV

CSV steht für Comma Separated Values und dient häufig dazu, tabellarische Daten zu speichern. So ist es beispielsweise auch möglich, Excel-Files als CSV-Files zu speichern.

Eigenschaften

  • Werte werden durch Kommas getrennt
  • jede Zeile entspricht einem Datensatz
  • leicht in Python, Excel, R, ... importierbar
  • Spalten können Header haben

TSV

TSV steht für Tab Separated Values und das Dateiformat verhält sich ähnlich wie CSV, es ist allerdings etwas robuster für die Verarbeitung von Textdaten, weshalb wir es häufig verwenden.

Eigenschaften

  • Werte werden durch Tabs getrennt
  • jede Zeile entspricht einem Datensatz
  • weniger Konflikte mit Textinhalten (da tabs seltener in geläufigen Texten vorkommen als Kommas)
  • auch tabellarisch aufgebaut

VRT

VRT steht für Verticalized Text und ist ein Textformat spezifisch für Sprachkorpora und annotierte Texte.

Eigenschaften

  • pro Zeile steht normalerweise ein Token
  • tab-separiert stehen dann hinter dem Token die Annotationen (POS, Lemma, ...)
  • XML-artige Tags können ebenfalls vorkommen

ConLL-U

ConLL-U ist ein Standardformat für syntaktisch annotierte Sprachdaten. Wir verwenden es für die Verarbeitung in LCP.

Eigenschaften

  • ein Wort pro Zeile
  • 10 feste Spalten
  • tab-separiert

XML

XML steht für eXtensible Markup Language und dient dazu, strukturierte Daten hierarchisch zu speichern. Charakteristisch sind XML-Tags in eckigen Klammern.

Eigenschaften

  • textbasiert
  • verwendet tags
  • Daten sind in einer Baumstruktur verschachtelt
  • flexibel
  • Metadaten können in Tags eingefügt werden