Projektbeschreibung

Kickoff2019_Gruppenfoto_02.jpg
Das Team von CLARIAH-DE beim Kickoff am 8. April in Mannheim (Foto: Dr. A. Trabold für das IDS Mannheim; Lizenz CC BY-SA 4.0)

 

Governance und Umsetzung des Vorhabens in Arbeitspaketen

Die Durchführung und Entwicklung von CLARIAH-DE wird durch das Ineinandergreifen strategischer, operativer und partizipativer Gremien gewährleistet. Gemeinsam stellen sie die Balance der technischen Anforderungen an Infrastruktur und den forschungsgeleiteten Bedarfen der Wissenschaft her. Die Gesamtkoordination liegt gemeinschaftlich bei der Eberhard Karls Universität Göttingen und der SUB Göttingen.
Beraten wird der Verbund CLARIAH-DE durch den Entwicklungsrat. Ihm gehören an:

Die inhaltliche Arbeit in CLARIAH-DE wird von sechs Arbeitspaketen (AP) getragen, die jeweils gemeinschaftlich von Teams aus Wissenschaftlerinnen und Wissenschaftlern beider Partner vorangetrieben werden.

AP 1 - Forschungsdaten, Standards und Verfahren

Der Umgang mit Daten als gemeinsamer Gegenstand der beiden Infrastrukturprojekte CLARIN-D und DARIAH-DE bringt zwangsläufig Überschneidungen und komplementäre Entwicklungen – und damit das Potential für Synergien mit sich. Daher werden seit 2019, aufbauend auf früheren Kooperationen und Abstimmungsprozessen, beide Infrastrukturen sowie deren Verfahren und Standards innerhalb von CLARIAH-DE vereinheitlicht und die vormals parallel laufenden Entwicklungen zukünftig interoperabel gestaltet.

Ermöglicht wird dies unter anderem durch die innerhalb des Arbeitspakets (AP) 1 geplante Abstimmung von Standards und Verfahren für die Erstellung, Aufbereitung und Archivierung von Daten und Werkzeugen. Die Texte der Digitalen Bibliothek im TextGrid Repository (TGR) werden in das Basisformat des Deutschen Textarchivs (DTABf) transformiert. Dadurch werden die Annotationen beider großer Textsammlungen auf der Formatebene vereinheitlicht, wodurch der Bestand des TGR zugleich auch durch die innerhalb des DTA bzw. von CLARIN-D entwickelten Werkzeuge erschlossen werden kann.

Während das DTABf bereits als Pivotformat für Textsammlungen, v. a. zur Repräsentation der Volltexte historische Druckwerke, Zeitungen sowie einfach strukturierter Manuskripte etabliert ist, erfolgt im Rahmen von CLARIAH-DE seine Evaluierung als Standard auch für Editionen. Für Bestände, die eine hinreichend große Heterogenität aufweisen, wird untersucht, wie sie über das Data Modelling Environment der DARIAH-DE Data Federation Architecture angebunden werden können.

Als Task- und Co-Taskleader sind verantwortlich
  • Alexander Geyken (Berlin-Brandenburgische Akademie der Wissenschaften)
  • Andreas Henrich (Lehrstuhl für Medieninformatik, Otto-Friedrich Universität Bamberg)

AP 2 - Werkzeuge und virtuelle Forschungsumgebungen

Innerhalb der Projekte CLARIN-D und DARIAH-DE wurden spezialisierte Werkzeuge und Forschungsumgebungen zur Organisation und Verarbeitung text- und sprachbasierter Ressourcen und Forschungsdaten konzipiert, entwickelt und bereitgestellt. Diese sollen nun nachhaltig zu einem einheitlichen Angebot für die Geisteswissenschaften miteinander verschränkt werden. Zur Überwindung der damit verbundenen technischen und organisatorischen Herausforderungen und zur Herstellung der Interoperabilität soll das Language Ressource Switchboard (LRS) als webbasierte Brückentechnologie eingesetzt werden. Hierfür ist es notwendig, das LRS und das bestehende Beschreibungsformat zur Klassifikation der Werkzeuge, z.B. durch den Einsatz von TaDiRAH, zu erweitern. Um eine Verarbeitung von spezifischen Sprach- und Textressourcen und -kollektionen im LRS zu unterstützen, ist es darüber hinaus notwendig, ein projektübergreifendes Pivot-Format (DTA-Basisformat) für die darauf aufbauenden bidirektional funktionierenden Konvertierungswerkzeuge zu definieren.

Die erreichten Arbeitsschritte werden in zusammenfassenden Blog-Artikeln und Schritt-für-Schritt-Anleitungen dokumentiert und der interessierten Öffentlichkeit verständlich zugänglich gemacht.

Als Task- und Co-Taskleader sind verantwortlich
  • Andrea Rapp (Institut für Sprach- und Literaturwissenschaft, Technische Universität Darmstadt)
  • Erhard Hinrichs (Seminar für Sprachwissenschaft, Eberhard Karls Universität Tübingen)

AP 3 - Kompetenzvermittlung und Nachwuchsförderung

Eine digitale Forschungsinfrastruktur für ein Forschungsfeld, das durch rapide technische Weiterentwicklung geprägt ist, muss auch die Vermittlung technischer Kompetenzen und Förderung einer für die effiziente Nutzung dieser Infrastruktur notwendige "Data Literacy" als Teil ihrer Aufgabe begreifen. Das Arbeitspaket Kompetenzvermittlung und Nachwuchsförderung übernimmt diese Aufgabe in CLARIAH-DE. Hierbei kann auf Angebote und Formate zurückgegriffen werden, die bereits in CLARIN-D und DARIAH-DE entwickelt wurden und sich bewährt haben. Darum steht nun die Bündelung der Aktivitäten aus den Vorgängerprojekten in ein gemeinsames Angebot ebenso im Mittelpunkt wie die Katalogisierung und Reflexion von Methoden und Tools, die im Forschungsfeld eingesetzt werden, mit dem Zeil der Identifikation und Beseitigung verbliebener Lücken im Lehrangebot.

Kompetenzvermittlung und Nachwuchsförderung in CLARIAH-DE stützen sich auf drei Säulen: Bleibende Lehrmaterialien mit disziplinübergreifender Reichweite; gezielte Schulungen mit größerem Impact auf spezifische Fachcommunities; die individuelle Förderung von Nachwuchswissenschaftlerinnen und -wissenschaftlern. Dies wird gewährleistet durch z.B. Reisekostenbeihilfen für Konferenzbesuche Methodenworkshops, und Summer Schools. In diesem Arbeitspaket werden hierfür ein gemeinsames Angebot entwickelt, zusammengeführt und weiterentwickelt.

Als Task- und Co-Taskleader sind verantwortlich
  • Fotis Jannidis (Institut für Deutsche Philologie, Universität Würzburg)
  • Andreas Witt (Leibniz-Institut für Deutsche Sprache Mannheim)

AP 4 - Technische Vernetzung und Koordination der technischen Entwicklungen

Die Basis einer nutzerfreundlichen Forschungsinfrastruktur mit einer Vielzahl von Angeboten für die Fachwissenschaft ist die technische Infrastruktur. Sie stellt Speicher, grundlegende Funktionen und spezifische Werkzeuge so zur Verfügung, dass die Nutzung bruchlos, verlässlich und ohne zeitliche Verzögerungen möglich ist. Um dies zukünftig übergreifend für alle Angebote von CLARIN-D und DARIAH-DE zu erreichen, befasst sich Arbeitspaket 4 mit der technischen Vernetzung und Koordination der beiden Forschungsinfrastrukturen.

CLARIN-D und DARIAH-DE haben sehr unterschiedliche fachliche Traditionen, entsprechend haben sie verschiedene Technologien, Werkzeuge, Dienste und Abläufe entwickelt, die sich nun ergänzen können. Die Zusammenführung ist jedoch nicht trivial, wie insbesondere die Kombination der drei Such- und Recherchefunktionalität Generische Suche, die Federated Content Search und Virtual Language Observatory belegen. Hier wird Arbeitspaket 4 grundlegende konzeptionelle Arbeit leisten. Vielfach erfordert die Zusammenführung auch die Harmonisierung von Standards und Schnittstellen (Metadaten von Ressourcen, Austauschformate). In anderen Bereichen, wie der Authentication und Authorization (AAI) hat das AP4 bereits eine Lösung basierend auf der DARIAH-DE AAI gefunden. Eingerahmt wird das Arbeitspaket durch eine Technology Watch, die über CLARIN und DARIAH hinaus versucht, die wichtigsten Entwicklungen im Feld aufzunehmen und nach Möglichkeit in die eigene Planung zu integrieren

Die Arbeit baut auf intensiver Zusammenarbeit in der Vergangenheit, beispielsweise im gemeinsamen Technical Advisory Board, sowie ersten Integrationsbestrebungen der letzten Jahre auf.

Als Task- und Co-Taskleader sind verantwortlich
  • Gerhard Heyer (Institut für Informatik, Universität Leipzig)
  • Philipp Wieder (Gesellschaft für wissenschaftliche Datenverabeitung mbH Göttingen)