Dateiformate
Sie kennen und arbeiten im Studium alle regelmässig mit verschiedenen Dateiformaten, die unterschiedliche Vorteile und Eigenschaften haben:
- Word, LibreOffice Writer: .docx
- PowerPoint, LibreOffice Writer: .pptx
- Excel, Numbers, LibreOffice Calc: .xlsx
- PDF (Portable Document Format): .pdf
Für korpuslinguistisches Arbeiten benötigen wir nun noch einige weitere Dateiformate. Die gängigsten und in diesem Kurs verwendeten werden hier kurz vorgestellt:
TXT
Das txt-Format entspricht einem einfachen Text ohne Struktur oder Formatierung.
Eigenschaften
- reiner Text
- menschenlesbar
- keine Spalten
- von vielen Programmen lesbar
- Encoding (UTF-8) sicherstellen!
CSV
CSV steht für Comma Separated Values und dient häufig dazu, tabellarische Daten zu speichern. So ist es beispielsweise auch möglich, Excel-Files als CSV-Files zu speichern.
Eigenschaften
- Werte werden durch Kommas getrennt
- jede Zeile entspricht einem Datensatz
- leicht in Python, Excel, R, ... importierbar
- Spalten können Header haben
TSV
TSV steht für Tab Separated Values und das Dateiformat verhält sich ähnlich wie CSV, es ist allerdings etwas robuster für die Verarbeitung von Textdaten, weshalb wir es häufig verwenden.
Eigenschaften
- Werte werden durch Tabs getrennt
- jede Zeile entspricht einem Datensatz
- weniger Konflikte mit Textinhalten (da tabs seltener in geläufigen Texten vorkommen als Kommas)
- auch tabellarisch aufgebaut
VRT
VRT steht für Verticalized Text und ist ein Textformat spezifisch für Sprachkorpora und annotierte Texte.
Eigenschaften
- pro Zeile steht normalerweise ein Token
- tab-separiert stehen dann hinter dem Token die Annotationen (POS, Lemma, ...)
- XML-artige Tags können ebenfalls vorkommen
ConLL-U
ConLL-U ist ein Standardformat für syntaktisch annotierte Sprachdaten. Wir verwenden es für die Verarbeitung in LCP.
Eigenschaften
- ein Wort pro Zeile
- 10 feste Spalten
- tab-separiert
XML
XML steht für eXtensible Markup Language und dient dazu, strukturierte Daten hierarchisch zu speichern. Charakteristisch sind XML-Tags in eckigen Klammern.
Eigenschaften
- textbasiert
- verwendet tags
- Daten sind in einer Baumstruktur verschachtelt
- flexibel
- Metadaten können in Tags eingefügt werden