2.2.4.2 Konsistenz der Metadaten beim OER-Remix sicherstellen

Frage

Wie könnten wir ein stabiles Remix-Netzwerk aufbauen?

Zur Definition von “Offenheit” im OER-Umfeld wird häufig auf die 5 Freiheiten nach David Wiley (Verwahren & Vervielfältigen, Verwenden, Verarbeiten, Vermischen, Verbreiten) verwiesen. Um diese Freiheiten im Rahmen des OER Workflows voll unterstützen zu können, müssen entsprechende Grundprinzipien eingehalten werden, um OER-Materialien auffindbar, zugänglich, interoperabel und wiederverwendbar zu machen.

Eine besondere Herausforderung stellt dabei das Vermischen (OER-Remix) dar. Der OER-Produktionsprozess sollte dafür sorgen, dass alle wiederverwendeten/zitierten OER-Materialien in den Metadaten des neuen OER-Materials vermerkt werden. Die Konsistenz dieses so entstehenden “Remix Netzwerkes” muss nachhaltig sichergestellt werden.

Eine Möglichkeit, um die Konsistenz der Metadaten von veröffentlichten OER Materialien zu fördern, wäre ein gemeinsames OER-Logbuch zu etablieren, in dem die URL für den Zugriff auf das Material und die Metadaten zu allen OER Veröffentlichungen (und ggf. deren Widerrufungen) dauerhaft und unabhängig von den Datenquellen hinterlegt werden können. Dadurch wäre sichergestellt, dass jedes veröffentlichte OER Material nachhaltig auffindbar und zitierbar bleibt.

Im Hochschulbereich wird diese Thematik bereits seit längerem unter den Begriffen “Open Data” und “Open Science” diskutiert. Damit Daten diesen Kriterien der Offenheit genügen, wird sich an den FAIR Data Prinzipien (Findable, Accessible, Interoperable, Reusable) orientiert. Diese Prinzipien lassen sich auf das OER-Umfeld übertragen, hier ein Auszug der wichtigsten Prinzipien (inkl. Lösungsansätze):

Die FAIR Data Prinzipien empfehlen den Einsatz von PID-Systemen, um digitalen Objekten einen weltweit eindeutigen Identifier unabhängig von der Datenquelle zuzuordnen. Dabei können neben der URL für den Content-Zugriff auch die gesamten Metadaten hinterlegt und später abgerufen werden.
Im Internet werden unterschiedliche PID-Systeme bereitgestellt, die sich hinsichtlich Offenheit, Kosten, Aufwand, Verbreitung bzw. Mehrwerte unterscheiden. Laut re3data.org sind das DONA Handle System und der darauf aufbauende Digital Object Identifier aktuell die verbreitetsten Lösungen im Bereich Forschung und Lehre.

Wichtig für die Transparenz der OER-Produktion (siehe Herausforderung 8) und die nachgelagerte OER-Wiederverwendung (siehe Herausforderung 3) ist auch, von wem das OER-Material erstellt, bearbeitet bzw. veröffentlicht wurde. Bezeichner wie Vor-/Nachname bei Autoren bzw. der Organisationsname einer Redaktion sind dazu aber viel zu ungenau und nicht nachhaltig stabil genug. Deshalb werden auch für Personen und Organisationen stabile Identifier (aber nicht zwingend persistente Identifier) benötigt:

  • Für Personen dürfen diese Identifier keine personenbezogene Daten beinhalten bzw. deren Abfrage ohne Einwilligung der Person erlauben.
  • Seit 2012 wird von der Non-Profit-Organisation ORCID solche Identifier herausgegeben, um Personen im Wissenschaftssystem weltweit eindeutig identifizieren zu können. Auch Domain of One’s Own Services könnten mit ihren personengebundenen Domains einen stabilen Identifier (z.B. als WebID) liefern.
  • Für Organisationen könnte man Verweise auf Wikidata, die Gemeinsame Normdatei (GND) bzw. auf die Research Organization Registry verwenden.
Um qualifizierte Relationen zwischen OER-Materialien auszudrücken, wird ein Metadatenstandard mit entsprechenden Beschreibungselementen benötigt, wie z. B. “basierend auf” oder “hat Bestandteil”. Beide etablierten Metadaten-Standards im OER-Umfeld (LOM/LRMI) stellen dafür entsprechende Beschreibungselemente in unterschiedlicher Granularität zur Verfügung.
Natürlich müssen im Rahmen der OER-Produktion, indem ein OER-Remix durchgeführt wird, die Metadaten der wiederverwendeten OER-Materialien zur Verfügung stehen (siehe Herausforderung 8), um sie in die Metadaten des neuen OER-Materials mit einfließen zu lassen.
Die Angabe eines persistenten Identifiers würde hierzu vollkommen ausreichen, da die hinterlegten Metadaten bei Bedarf vom PID-System abgerufen werden können.

Jedes OER-Material muss per Definition mit einer freien Nutzungslizenz versehen werden. Der Remix solcher Materialien, sprich der Mix von freien Nutzungslizenzen, ist leider nicht immer kompatibel zueinander.
Deshalb ist es sehr wichtig, dass einerseits alle Bestandteile als Referenzen (siehe c), andererseits auch die Nutzungslizenzen in den Metadaten hinterlegt werden, um bei der Veröffentlichung die Nutzungslizenzen der einzelnen Bestandteile auslesen und auf deren Basis nur kompatible Nutzungslizenzen für das neue OER Material zur Auswahl anbieten zu können (siehe dazu auch Herausforderung 5).

Damit das durch Referenzierung (siehe c) entstehende OER-Metadaten-Netzwerk konsistent bleibt, müssen alle Metadaten nachhaltig vorhanden bleiben, auch wenn das zugehörige OER-Material nicht mehr verfügbar ist bzw. dessen Veröffentlichung widerrufen wurde.
Durch Einsatz von persistenten Identifiern können die Metadaten der veröffentlichten OER Materialien separat von den Datenquellen verwaltet und dadurch die geforderte Nachhaltigkeit sichergestellt werden (siehe a).

Natürlich wirft so ein zentraler PID-Service auch kritische Fragen auf, speziell zu:

Eine Hochverfügbarkeit kann durch PID-Replikation innerhalb eines Konsortiums von Handle/DOI Providern hergestellt werden.

Jede PID-Instanz kann immer nur ein spezifisches Metadaten-Schema unterstützen. Wenn man sich nicht auf ein gemeinsames OER-Metadatenschema einigen kann, dann könnte pro Bildungssektor (Schule, Hochschule etc.) und/oder pro Bundesland eine separate PID-Instanz aufgebaut werden, welcher das gewünschte OER-Metadatenschema forciert. Dadurch würde das gemeinsame OER-Logbuch auf mehrere PID-Instanzen mit getrennten Namensräumen aufgeteilt (“data sharding”) werden.

Zentrale Dienste bringen immer einen Lock-In-Effekt mit sich. Um dem entgegenzuwirken, wurde z. B. die unabhängigen DONA Foundation als Non-Profit Organisation gegründet, um die vorgestellten PID-Systeme auf Basis von Mitgliederentscheiden zu regulieren.

Natürlich sollte jede OER Veröffentlichung im gemeinsamen OER-Logbuch hinterlegt werden, was primär von den Datenquellen vorgenommen werden sollte, von denen ursprünglich die Veröffentlichung ausgegangen ist. Für große proprietäre Plattformen wie YouTube oder Slideshare lässt sich dies aber kaum umsetzen. Hier könnten Dritte die Metadaten von diesen Datenquellen einsammeln und stellvertretend die Eintragung vornehmen.

Alternativ zu einem gemeinsamen OER-Logbuch könnte jede Datenquelle eigene stabile URLs für jede veröffentlichte Version eines OER Materials inkl. Metadaten zur Verfügung stellen. Bei einer neuen Veröffentlichung müsste die jeweilige Datenquelle selbständig die Konsistenz der Metadaten aller wiederverwendeten / zitierten OER Materialien überprüfen und bei einem Widerruf einer Veröffentlichung sicherstellen, dass über die herausgegebene URL weiterhin auf die Metadaten zugegriffen werden kann. Des Weiteren muss nach einem Umzug sichergestellt werden, dass die alte Domain weiterhin auf die Datenquelle zeigt und Änderungen im Pfad müssen intern mittels Weiterleitungen abgefangen werden.

Eine Verbreitung der veröffentlichten Metadaten könnte bei diesem Ansatz durch Aufbau zentraler Suchindizes erfolgen, welche die Metadaten der einzelnen Datenquellen regelmäßig abfragen und die Änderungen über einen event-basiertes API zur Verfügung stellen. Eine kausale Konsistenz kann bei diesem Ansatz aber nicht sichergestellt werden, d.h. die Reihenfolge der generierten Events muss nicht unbedingt mit der wirklichen Reihenfolge der Veröffentlichungen / Widerrufungen innerhalb der OER-Infrastruktur übereinstimmen.

Es gibt auch Überlegungen, alle OER-Veröffentlichungen in Zukunft als “smart contracts” in einer Blockchain abzulegen (wodurch die kausale Konsistenz erhalten bleibt) und diesen dezentralen Storage für den gesamten Datenabgleich zwischen allen Services einer dezentralen OER-Infrastruktur zu nutzen (vgl. Duerkop 2017).