Einsatzmöglichkeiten des Semantic Web zur Integration von Data Warehouse und Wissensmanagement (am Beispiel von SemTalk^®)

Autoren: Christian Fillies, Dr.-Ing. Frauke Weichhardt

Stichworte: Verteilte Modellierung, Semantic Web, Data Warehouse

1 Einleitung

Das Semantic Web [1] wird vom W3C, der zentralen herstellerübergreifenden Institution zur Festlegung von Internet-Protokollen, propagiert, um Informationen nicht mehr nur textuell sondern als „Modell“ formalisiert darzustellen. Es handelt sich dabei um eine neue Ebene des Internets analog zu HTML und XML. Dargestellt wird dabei eine neue Methode um Daten und Metadaten anwendungsunabhängig verteilt zu repräsentieren und für verschiedenartige Anwendungen verfügbar zu machen.[4],[5]

Dieses Semantic Web kann aus Sicht des Endanwenders als eine Art Internet aus miteinander durch Hyperlinks verbundenen Begriffsdefinitionen verstanden werden, die den verwendeten Worten eine feste Bedeutung geben.

Es entstehen damit Wissensmodelle innerhalb eines Unternehmens aber auch unternehmensübergreifend.

Obwohl das Semantic Web primär erdacht wurde, um den Inhalt von Dokumenten darzustellen, ist es sinnvoll, denselben Ansatz auch auf andere Bereiche anzuwenden, in denen eine gemeinsame Sprache und wohl definierte Begriffe benötigt werden. Dies trifft beispielsweise auf die Inhalte eines Data Warehouse zu. Im Folgenden wird ein Projekt aus einer deutschen Krankenkasse, der AOK Berlin, vorgestellt, in dem dieses Konzept auf die Einführung und den Betrieb eines Data Warehouse angewendet wurde.

2 Semantisches Web und Data Warehouse

Im Data Warehouse werden Definitionen für Kennzahlen und Kontexte, in denen diese Kennzahlen verwendet werden sollen (Dimensionen), einheitlich bestimmt. Um sie zu verwenden, werden Würfel und Berichte definiert, in denen Kennzahlen und Dimensionen kombiniert werden. Die Dokumentation dieser Metadaten eines Data Warehouse ist von großer Wichtigkeit, da die Anwender wissen müssen, auf welcher Basis ihre Auswertungen durchgeführt werden; das heißt also, daß die Definitionen der Elemente nicht nur für die Entwickler sondern auch für die Anwender zur Verfügung stehen müssen. Die Dokumentation der Metadaten läßt sich als Wissensmodell in Form einer Ontologie [3] interpretieren. Sie muß in einer Form durchgeführt werden, die es einerseits dem Entwickler auf einfache und effektive Weise ermöglicht, die von ihm entwickelten Inhalte darzustellen,, und andererseits dem Anwender eine einfache und gezielte Form des Zugriffs auf die gewünschten Inhalte zur Verfügung stellt.

Eine grafische Notation der Ontologie mit Hilfe eines Modellierungstools bietet sich hier an, da damit eine effiziente Verwaltung der Metadaten-Dokumentation mit einer einfachen Darstellungsweise kombiniert werden kann. Um die Dokumentation durch verschiedene Entwickler in den einzelnen Fachabteilungen zu ermöglichen, muß die Modellierung unabhängig von einander erfolgen können. Zur Unterstützung dieser Funktionalität bietet sich die Nutzung von Technologien des Semantic Web an, da diese es ermöglichen, die abgebildeten Strukturen lokal zu verwalten und sie trotzdem weiterhin zentral koordinieren zu können. Eingesetzt wurde hier das Werkzeug SemTalk^® [2] der Firma Semtation GmbH auf Basis von Microsoft Visio. Es ermöglicht eine Definition der jeweils benötigten Elemente und Attribute des Modells sowie der verwendeten grafischen Elemente.

Kennzahlen und Dimensionen werden in ihren jeweiligen Zusammenhängen mit ihren Attributen modelliert (siehe Abbildung 1). Das verwendete Werkzeug ermöglicht dabei auch eine mehrfache Darstellung desselben Objekts in verschiedenen Kontexten, um ein einfaches assoziatives Suchen zu unterstützen. Auf Basis der definierten Kennzahlen und Dimensionen können Würfel und Berichte dokumentiert werden, indem ihre Inhalte aus diesen Elementen zusammengefügt werden. Dem werden die sonstigen Informationen aus den Würfel- bzw. den Berichtsdokumentationen als Attribute hinzugefügt, z. B. Aktualisierungszeitpunkte, Zuständigkeiten für Aktualisierung oder Ansprechpartner für Datenqualität. Der Zugriff für den Anwender wird über eine HTML-Version des Modells realisiert, das im Intranet bereitgestellt werden kann.

Konflikte in der Benennung werden über ein Namensraumkonzept gelöst. Eine solche Definition wird beispielsweise in einem zentralen Modell abgelegt und kann dann eindeutig per URI referenziert werden, wie z.B.http://www.aok.de/KHB#Krankenhausbehandlungsfälle.

In dem unten dargestellten Beispiel werden zwei verschiedene Kennzahlen in zwei verschiedenen Bereichen mit demselben Namen "Krankenhausbehandlungsfälle" verwendet:

die Anzahl der Fälle für das Fallmanagement und andererseits
die Anzahl der Fälle für die Verhandlungen mit dem Krankenhaus

Für die Verhandlungen mit dem Krankenhaus ist die Berechnung fachabteilungsbezogener Daten gesetzlich geregelt. Vergleichsdaten der AOK Berlin müssen nach den gleichen Methoden ermittelt werden. Interne Verlegungen werden in den Berechnungen entsprechend dem Gesetz berücksichtigt.

Abbildung 1: Beispiel für die Darstellung des Datenkatalogs im Intranet auf Basis des SemTalk-Modells

Bei der Berechnung fachabteilungsbezogener Daten des Krankenhauses für das Fallmanagement werden interneVerlegungen nur fachabteilungsübergreifend berücksichtigt, da im Fallmanagement der Fall ganzheitlich betrachtet werden muß. Nur so lassen sich Ansatzpunkte für das Fallmanagemant ableiten, da bei Betrachtung nur aus der gesetzlich definierten Sicht die durchschnittliche Verweildauer und die durchschnittlichen Kosten je Fachabteilung geschönt werden.

Für das Data Warehouse mußten also zwei verschiedene Kennzahlen mit demselben Namen definiert werden. Über das Namensraumkonzept kann der auftretende Konflikt gelöst werden. Wie bei allen Semantic Web-Anwendungen wird auf diese Weise sichergestellt, dass alle Beteiligten durch die Benutzung einer solchen URI über dieselbe Sache reden und dass sich Applikationen auf dieselbe Interpretation der Legacydaten beziehen.

3 Verteilung von Modellen

Das Semantic Web gibt uns die Möglichkeit, auf ein zentrales Repository zu verzichten. Dies ist sinnvoll, denn ein Repository-basierter Ansatz geht davon aus, dass alle Beteiligten ihr Wissen in einer konsistenten zentralen Struktur ablegen. Dieses mag zwar beispielsweise für Softwarekomponenten sinnvoll sein, ist aber schon für mittelgroße Unternehmen für Informations- oder Wissensmodelle schlichtweg nicht praktikabel und hemmt entscheidend den einzelnen Mitarbeiter, zum gemeinsamen Modell beizutragen. Die Vorstellung eines zentralen Content Management Systems für das Internet beispielsweise, das zudem auch noch sicherstellen würde, dass nur „wahre“ Aussagen auf den HTML-Seiten stehen, ist sicherlich nicht realistisch. Unter diesen Umständen hätte sich das Internet mit Sicherheit nicht in seiner gegenwärtigen Vielfalt und seinem enormen Umfang entwickelt.

Ganz praktisch führt ein solcher zentralistischer Ansatz dazu, dass ein großer Teil der Begriffe im Freigabeprozess stecken bleibt und das Gesamtsystem vom Anwender abgelehnt wird.

Aus diesem Grund wird hier ein dezentraler Ansatz realisiert, der zentral koordiniert wird. Dabei erstellen die Entwickler lokale Modelle ihrer Metadaten unter Verwendung zentral definierter Begriffe.

4 Zusammenfassung und Ausblick

Wir berichten hier über Erfahrungen mit der dezentralen Erstellung von Ontologien als Metadaten-Dokumentation durch den Fachanwender. Die von diesen erstellen Ontologien enthalten damit viel fachspezifisches Wissen, das nicht nur dazu genutzt werden kann, es anderen mitzuteilen. Es ist auch möglich, dieses Wissen in andere technische Systeme einzuspeisen.

Mit Hilfe von Semantic Web Standards sichern wir dabei die Konsistenz in der Verwendung gemeinsamer Begriffe. Die Dezentralität des Ansatzes gibt den Fachanwendern die Möglichkeit, eigenes Wissen einfach in ein Netzwerk des Wissens einbringen zu können. Die Verwendung von Semantic Web-Standards zur Wissensmodellierung bietet dem Unternehmen dabei die Möglichkeit, das dokumentierte Domain-Wissen von einzelnen Software-Applikationen (wie einem konkreten Data Warehouse-System) zu separieren. Damit wird die Grundlage geschaffen, das Wissen in anderen Applikationen weiterverwenden zu können.

Das Semantic Web wird die Architektur von Data Warehouse Anwendungen grundlegend verändern. Es werden zum einen zunehmend Informationen aus Online-Systemen ohne eine spezifische Datenaufbereitung einbezogen. Andererseits wird es eine Mischung aus unternehmensinternen und unternehmensfremden Datenquellen aus dem Internet geben [6]. Durch das Semantic Web stehen Meta-Informationen über diese Daten und die Web Services, die sie bereitstellen, abgestimmt auf konkrete Geschäftsprozesse zur Verfügung [7]. Unser Ansatz zeigt, wie sie für den Endbenutzer aufbereitet werden können, damit er leichter verstehen kann, welche externen Daten er mit in sein persönliches Informations- und ggf. Wissenssystem integrieren kann.

5 Literatur

[1]	Berners-Lee,T, Hendler,J. and Lassila, O. A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities Scientifc American (May 2001)
[2]	Fillies, C., Wood-Albrecht, G., Weichhardt, F.: A Pragmatic Application of the Semantic Web Using SemTalk, WWW2002, May 7-11, 2002, Honolulu, Hawaii, USA ACM 1-5811-449-5/02/0005
[3]	Gruber, T. (1995). Towards principles for the design of ontologies used for knowledge sharing. International Journal of Human-Computer Studies, (43):907–928.
[4]	W3C. RDF Schema Specification. http://www.w3.org/TR/PR-rdf-schema/, 1999.
[5]	O. Lassila and R. Swick. Resource description framework (RDF). model and syntax specification. Technical report, W3C, 1999. W3C Recommendation. http://www.w3.org/TR/REC-rdf-syntax.
[6]	From Data Warehouse to Information Integration, Dr. Barry Devlin, Procedings of DW2002 Friedrichhafen
[7]	A System for integrating Web Services into a Global Knowledge Base, R.V.Guha & Rob McCool http://tap.stanford.edu/ss/ bzw. http://www.alpiri.com/sw002.html