Daten analysieren und verarbeiten

Die Verarbeitung von Daten in der geisteswissenschaftlichen Forschung und anderen Disziplinen ist so facettenreich wie die möglichen Forschungsfragen. Über das Projekt CLARIAH-DE stehen nun vielfältige Werkzeuge zur Verfügung, die bei unterschiedlichsten Forschungsfragen angewendet werden können.

Datenbasiert passende Werkzeuge finden

Forschende, die Zugang zu Forschungsdaten haben, stehen aufgrund der Fülle von Datenformaten und -typen vor der Frage, welche Werkzeuge mit diesen Daten umgehen können und welche Forschungsfragen mit Hilfe dieser Daten und Werkzeuge adressiert werden können. Diese Daten erhalten sie etwa durch die Zitation von Daten in Publikationen, in Kooperation mit weiteren Forschenden oder im Zugriff auf Datenrepositorien. Mit dem Language Resource Switchboard (LRS), das in CLARIAH-DE mit weiteren nationalen wie europäischen Partnern entwickelt wurde, wird Forschenden ein zentraler und benutzerfreundlicher Zugang zu einer breiten Auswahl an etablierten Werkzeugen angeboten. Das LRS verwendet hierfür Informationen zu Dateiformaten, beschreibende Metadaten und Taxonomien zur Verarbeitung und Analyse von Forschungsdaten mit einer entsprechenden kurzen Funktionsbeschreibung, um passende Werkzeuge vorzuschlagen. Viele Werkzeuge können mit den eigenen Forschungsdaten über das LRS direkt aufgerufen werden, während andere Werkzeuge ein Login erfordern oder von den Nutzenden lokal auf dem Computer installiert werden müssen. Das Portfolio der Werkzeuge wird stetig erweitert.

Es gibt zwei übliche Verfahren, um auf das LRS zuzugreifen: (1) Repositorien können neben einem Download der Daten auch eine Möglichkeit anbieten, die Daten direkt an das LRS zu übergeben. In diesem Fall erfolgt eine Weiterleitung an das LRS mit der Möglichkeit, dort eine Werkzeugauswahl vornehmen zu können. (2) Nutzende, die eigene Forschungsdaten haben, können direkt auf das LRS zugreifen und diese Daten hochladen. Das LRS bietet dann eine passende Werkzeugeliste zur Weiterverarbeitung an.

Im Folgenden kann dies leicht ausprobiert werden:



Auswahl an Referenzwerkzeugen für die Verarbeitung von Daten

Viele Werkzeuge sind über CLARIAH-DE direkt zugänglich, unter anderem, an dieser Stelle kann daher nur eine kleine Auswahl exemplarisch genannt werden.

TextGrid ist eine virtuelle Open-Source-Forschungsinfrastruktur und integriert Werkzeuge und Dienste zur Erstellung, Bearbeitung, Verwaltung und Publikation von Forschungsdaten und unterstützt Geisteswissenschaftlerinnen und Geisteswissenschaftler, die ihre textbasierten Forschungsdaten in einer nachhaltigen Umgebung bearbeiten, speichern und veröffentlichen wollen. Das TextGridLab ist optimiert für die XML/TEI-Modellierung, z.B. im Zusammenhang mit digitalen Editionen und wird u.a. in der Lehre für die kollaborative Volltextgenerierung und Annotation von größeren Textkorpora in unterschiedlichen Projektkontexten eingesetzt. Das TextGridRep bietet als Langzeitarchiv einen umfangreichen, durchsuch- und nachnutzbaren Bestand an frei zugänglichen Texten und Bildern. Konkrete Anleitungen für die Verwendung des Editionswerkzeugs sind ebenfalls verfügbar.

Für die Verarbeitung gesprochener Sprache steht eine Umfangreiche Sammlung von Werkzeugen mit den Diensten des Bayerischen Archivs für Sprachsignale (BAS) zur Verfügung. Mit WebMaus können Forschende sehr einfach Transkriptionen und Audiosignale miteinander zeitlich alignieren, OCTRA erlaubt die Transkription von Audiodaten, ASR dagegen bietet für Forschende eine automatische Spracherkennung. Die Verwendung ist für Forschende von Universitäten und anderen akademischen Forschungseinrichtungen über eine Webseite möglich.

Der Geo-Browser ermöglicht zusammen mit dem Datasheet Editor die vergleichende Visualisierung von Daten in Korrelation von geographischen Raumbeziehungen zu entsprechenden Zeitpunkten und Sequenzen. Das Werkzeug ist frei im Internet zugänglich und stellt die Referenzpunkte über Geo-Koordinaten auf einer Weltkarte zusammen mit einem Zeitstrahl dar. Beide Ansichten bieten interaktive Navigationsmöglichkeiten an um Details und Zusammenhänge anzuzeigen. In verschiedenen Projektkontexten wurde der Geobrowser eingesetzt um z.B. die geographische Häufigkeitsverteilung von Liebesbriefen und Jüdischen Grabsteinen oder auch zur historischen Aufarbeitung der Balkankriege.

WebLicht ist eine Anwendung, durch die Nutzende eigene und nachgenutzte textuelle Daten mit Informationen anreichern kann, z. B. um grammatikalische Informationen zu analysieren, Namen und Orte zu extrahieren, etc. Angehörige der meisten deutschen Hochschulen können diese Anwendung mit ihren Login-Informationen der eigenen Hochschule unmittelbar und kostenlos verwenden. WebLicht enthält Werkzeuge der Sprachverarbeitung wie Tokenizer, Wortarten-Tagger, Parser und Werkzeuge zur Erkennung von Eigennamen, die von Forschenden zu Verarbeitungsketten verknüpft werden können, die zu ihrer Forschungsfrage passen. Die resultierenden Annotationen können dann in geeigneter Weise visualisiert werden, z.B. in einer Tabelle oder als Baum mittels des Werkzeugs Tündra. WebLicht eignet sich damit sowohl für die automatische Annotation eigener Daten, als auch für die Anreicherung von Bestandsdaten. Als Ausführungsumgebungen stehen in WebLicht eine Vielzahl von Werkzeugen auch für verschiedene Sprachen bereit.

Neben den Werkzeugen zur Analyse und Verarbeitung stehen auch Werkzeuge für lexikalische Ressourcen zur Verfügung. Mittels GermaNet Rover kann das Wortnetz für das Deutsche durchsucht und visualisiert werden, die ASV-Toolbox ist eine Anwendung, um geschriebene Sprache insbesondere unter lexikalischen Gesichtspunkten zu untersuchen.

Weitere Werkzeuge und Anleitungen

Eine Sammlungen von Anleitungen für die Verwendung von Werkzeugen und Daten mit Schritt-für-Schritt-Anleitungen sind in einer Liste von Kurzanleitungen enthalten, weiter Anleitungen findet man in einer Sammlung von Anleitungen und Tutorials

Eine umfassende Werkzeug- und Diensteliste aus dem CLARIAH-DE Verbund steht ebenfalls zur Verfügung.

Schlüsselwörter:

TaDiRAH, Analyse, Werkzeuge, Daten analysieren, Daten verarbeiten, Tools, LRS, Forschungsdaten