Graphische Entwicklung und Nutzung von Ontologien

mit SemTalk in MS Office

Christian Fillies

Semtation GmbH

Bredower Str. 145

D-14612 Falkensee

cf@semtation.com

Dr. Frauke Weichhardt

Beratung im Netz

Merkurstraße 17

D-14482 Potsdam

fw@semtation.com

Abstract: Um das semantische Web aus dem Status eines Forschungsprogramms in „Real World“-Anwendungen zu überführen ist es notwendig, Szenarien zu schaffen, in denen der Nutzen dieser Technologie für den Endanwender deutlich wird. Mit SemTalk wird eine Infrastruktur für „Semantic Web enabled“ Tools innerhalb von MS-Office vorgestellt. Ein breiter Kreis von Anwendungen von der klassischen Wissensrepräsentation mit semantischen Netzen über Prozessmodellierung bis hin zur SAP IPC Produktmodellierung wird mit Technologien des Semantic Web auf eine neue Basis gestellt, indem sie auf verteilte Ontologien im semantischen Web zugreifen.

1 Einleitung

“Respect for the word - to employ it with scrupulous care and an incorruptible heartfelt love of truth - is essential if there is to be any growth in a society or in the human race. To misuse the word is to show contempt for man. It undermines the bridges and poisons the wells. It causes man to regress down the long path of his evolution."

Joshua Allen [joshuaa@microsoft.com] 04/29/02 zitiert Dag Hammarskjöld

auf www-rdf-interest-request@w3.org

Das Semantic Web [BHL01] befindet sich derzeit noch im Anfangsstadium. Von vielen Seiten werden große Möglichkeiten in seinem weiteren Aufbau gesehen, konkrete Anwendungen sind jedoch derzeit noch sehr selten. Die Definition von XML-Protokollen wie RDF, RDFS und DAML+OIL durch das W3C lassen eine größere Verbreitung erwarten, so dass in Zukunft mit einer zunehmenden Anzahl von Anwendungen im Semantic Web zu rechnen ist.

Diese neue Technologie wird sich zunächst innerhalb der Intranets größerer, verteilter Unternehmen ausbreiten, da hier ein großer Bedarf zur Abstimmung der Strukturen von Knowledge-Management-Systemen zwischen den verschiedenen Unternehmensteilen besteht, welcher durch die Technologien des Semantic Web befriedigt werden kann. Die Schaffung zentraler Begriffskontexte bzw. Ontologien und Prozessmodelle ist dazu eine wesentliche Voraussetzung.

Die Idee des semantischen Webs ist die gemeinsame Nutzung mehr oder weniger formalisierten Wissens via Internet. Ursprünglich stand der Gedanke, eine gemeinsame Wissensbasis für Computer zu schaffen, im Vordergrund. Die hier beschriebene Arbeit behandelt jedoch zunächst den Wissensaustausch zwischen Menschen innerhalb eines (graphischen) Wissensnetzwerks.

Schlüsselfaktor für die verteilte Wissensnutzung ist die Verwendung einer gemeinsamen Terminologie. Dieser Artikel zeigt, wie bereits jetzt existierende Semantic Web Knowledge Services, die auf RDFS basieren, in den Erzeugungsprozess semantischer Netze und Geschäftsprozesse integriert werden können. Die meisten der bereits vorhandenen online- und offline-Glossare und Editoren sind Browser, die jeweils genau einen Knoten eines Netzwerks anzeigen. Einige Werkzeuge generieren bei Bedarf hyperbolic trees oder ähnliche Darstellungen. Unsere Erfahrung mit der Kommunikation von Wissen besagt jedoch, dass komplexe Probleme besser mit Hilfe von manuell erzeugten Diagrammen beschrieben werden können, die jeweils ein spezifisches Szenario darstellen. Dazu nutzen Menschen heutzutage am liebsten entweder die flexiblen Malprogramme oder andererseits Modellierungswerkzeuge, die die Verwaltung der dargestellten Objekte auf mehr oder weniger bequeme Art erlauben. Der hier gezeigte Ansatz ermöglicht die Kombination dieser beiden Wege.

Mit SemTalk [FW01], [FWW02] steht ein einfach zu bedienender Editor für Semantic-Web-Ontologien und Prozesse auf der Basis von MS Visio zur Verfügung.

SemTalk basiert auf einem offenen, graphisch konfigurierbaren Meta-Modell, so dass es leicht an verschiedene, insbesondere auch prozessorientierte, Modellwelten wie EPKs oder KSA-Modelle anzupassen ist. Die Modelle stehen den räumlich und zeitlich verteilten Benutzern mit Hilfe von MS Office XP SmartTags bei der täglichen Arbeit mit Word, Excel oder Outlook im direkten Zugriff zur Verfügung. Gleichzeitig ermöglicht SemTalk die verteilte Erstellung und Wartung solcher Modelle, indem die Koordination verteilt erstellter Modelle mit Hilfe von Namensraum-Konzepten und index-basierten Wizards ohne die sonst im Content Management üblichen zentralen Mechanismen einer auf eine Datei oder eine Datenbank zentrierten Modellierung („zentrales Dogma“) durchgeführt werden kann. Es würde wahrscheinlich kein Internet in seiner jetzigen Form geben, wenn jemals eine zentrale Instanz zu Sicherung der Konsistenz für HTML existiert hätte.

2 Architektur

MS Visio wird aus zwei Gründen für die graphische Präsentation verwendet: Die Anwender kennen es, und es ist vollständig programmierbar.

SemTalk benutzt - neben Visio-Dateien für die Graphik - eine XML-Datenstruktur zur Repräsentation der Modelle. Darin werden Layout-Informationen sowie objekt-orientierte Funktionalität wie Methoden und Zustände zu den Sprachelementen von RDFS hinzugefügt. RDFS selbst umfasst im wesentlichen eine XML-Notation für Klassen und ihre Properties in der Tradition der Frame-Sprachen der AI. SemTalk nutzt im Gegensatz zu RDFS optimierte Strukturen für grundlegende Inferenz- und Vererbungsmechanismen und auch zur Graphenerzeugung. Die Property-Repräsentation ist ähnlich wie bei DAML in die Klassendefinition integriert.

Weiterhin gibt es eine Objekt-Maschine, die ein COM API bereitstellt, um das Programm auch innerhalb von MS Office-Produkten nutzen zu können. Über diese Objekt-Maschine steht ein Export / Import von RDFS und in Kürze auch DAML zur Verfügung.

Die SemTalk-Engine wird für die Definition der Semantik von bestehenden Visio-Shapes verwendet, d. h. für die Definition eines Meta-Modells für Visio Shapes. Ein Visio Shape entspricht dabei in etwa eine Klasse. Graphisch lässt sich damit festlegen, welche Shapes miteinander verbunden werden dürfen und auf welchen Typen von Visio-Seiten sie stehen dürfen. Es können Oberklassen von Shapes definiert werden. Die Beziehungen zwischen diesen Klassen werden wiederum in Visio visualisiert. Die Klassendefinitionen können dabei nach RDFS exportiert bzw. importiert werden. Einen ähnlichen Ansatz im Umfeld PowerPoint findet man bei [TB02].

SemTalk stellt die Infrastruktur zur Definition vollständiger Modellierungsmethoden innerhalb von Visio zur Verfügung. Dabei kann es sich beispielsweise um die Definition von Methoden für DAML, Produktmodellierung innerhalb von ERP-Systemen oder für BPM-Methoden wie ARIS handeln.

SemTalk hat Schnittstellen zu CASE Tools wie Rational Rose und zu Prozeßmodellierungswerkzeugen wie ARIS und Bonapart. Außerdem existiert ein einfacher Report-Generator für die Erzeugung von HTML-Tabellen und XSL für die Formatierung.

Zur intelligenten Analyse der Daten wurde eine Anbindung an den Reasoning Web Service von OntoBroker der Fa. Ontoprise GmbH [St01] über das Internet entwickelt. Mit SemTalk erstellte Modelle werden dazu in F-Logic abgelegt. Ontobroker erhält dann eine Liste von Hyperlinks auf die relevanten Modelle und eine F-Logic Query. Die Lösungen der Anfrage können in die SemTalk Modelle eingefügt bzw. darin angezeigt werden. Eine ähnliche Schnittstelle gibt es für statistische Quelltextaufbereitung zum Concept Composer der Fa. TextTech GmbH [He01].

3 Notationen für Semantic Webs

Visualisierungen für das semantische Web nutzen ähnliche Notationen wie sie seit den 70er Jahren für semantische Netze gebräuchlich sind. Der Unterschied liegt nur darin, dass die Modelle jetzt auf dem Internet verteilt sind und von großen Nutzerkreisen gesehen werden, während sie früher in einer geschlossenen Welt einer einzigen Lisp-Machine lagen. Es kommen dabei natürlich sofort die alten Fragestellungen wieder auf wie z.B. „What's in a link“ in der berühmten Arbeit von Woods [Wo75]. Die Frage ist dabei, wie stark formalisiert die Sprache in den Modellen sein muss, um von Inferenzmaschinen interpretiert werden zu können. Im Kontext des semantischen Web ist das äquivalent zu der in der Einleitung gestellten Frage, ob ein Web für Maschinen oder ein Web für das Knowledge Management zwischen Menschen gebaut werden soll. SemTalk bietet einerseits durch die Verwendung von Relationsklassen, die vorgegeben werden, eine maschinen-orientierte Variante, lässt aber für bestimmte Anwendungsszenarien auch eine freie ad-hoc-Definition der Relationen zu.

Im Wissensmanagement orientiert sich unsere zentrale Hypothese an den Schmierzetteln und Whitebord-Gemälden, die während der täglichen Meetings entstehen. Diese weisen oft eine verblüffende Ähnlichkeit zu semantischen Netzen auf und haben in der Praxis ihre Tauglichkeit bewiesen, komplizierte Zusammenhänge durch einfache Abstraktionen leicht kommunizierbar zu machen. Auch die manuell erzeugte räumliche Anordnung, wie man sie z.B. von Meta Plan kennt, liefert wertvolle Informationen und erhöht die Effizienz der Wissensübermittlung. Mit SemTalk unterstützen wir eine solche graphische Vorgehensweise und machen durch die Verwendung von normierter Sprache und von Hyperlinks zwischen Modellelementen ein Retrieval der Dokumente möglich.

Da im Wissensmanagement ein Modell von sehr verschiedenen Personenkreisen gelesen, verstanden und erzeugt werden soll, muss die Notation zur Darstellung semantischer Netze so beschaffen sein, dass die Leser in der Lage sind, die Modelle auch ohne aufwendigen Lernprozeß zu begreifen.

Gute Erfahrungen haben wir dabei mit der einfachen Notation in Knoten und Kanten gemacht. Definitionstexte werden dabei am einfachsten als „Post It“ dargestellt. Es ist wichtig, Links mit Labeln zu versehen. Außerdem ist es ungünstig, technische Notationen, wie beispielsweise aus ERM´s oder klassischen UML-Diagrammen bekannt, für Knowledge Management zu verwenden. Beispiele dafür sind graphisch visualisierte Kardinalitäten der Assoziationen aber auch Sequenz- und Activity-Diagramme, die selten von Nicht-Informatikern verstandenen werden. Menschen, die keine besondere technische Vorbildung haben, können in der Regel mit einer solchen Symbolik nichts anfangen; die Modelle werden dann nicht wirklich benutzt, da es zu aufwendig ist, sie zu verstehen.

Abb. 1: Beispiele für verschiedene Notation im SemTalk Modell

Für Leser mit einem stärker technischen Hintergrund, aber auch für Problemstellungen, bei denen die Modelle später von Programmen interpretiert werden, kann eine komplexere Notation mit verschiedenen Shape-Typen und wohl definierten Relationen verwendet werden. Beispiele, die mit SemTalk realisiert wurden, sind ein graphisches Customizing des SAP Produktkonfigurators und im Agenten Umfeld die DAML Notation.

Abb. 2: Visual Product Modeller for SAP/R3 IPC

Beim Visual Product Modeler haben wir eine umgekehrte Situation wie bei den semantischen Netzen: Wohldefinierte Relationen ermöglichen es, die für den SAP Upload benötigte XML-Zwischennotation zu generieren und auf dem Web publizierte Produktmodelle intelligent zu durchsuchen.

4 Tool Support für verteilte Modellierung

SemTalk enthält einen Modellierungswizard, der den Benutzer bei der Erstellung von konsistenten Modellen unterstützt. Neben der Überprüfung der Schreibweise mit Hinweisen auf Synonyme gibt es konkrete Hilfe für die objekt-orientierte Erstellung von Modellen. Da der überwiegende Anteil der Anwender nur wenig oder keine objekt-orientierten Kenntnisse besitzt, erscheint dieses Vorgehen als hilfreich.

Die primäre Aufgabe des Wizards ist es aber zu kontrollieren, ob Worte verwendet werden, die schon in anderen Modellen definiert worden sind.

Die wichtigste Philosophie des Internets und damit auch des Semantic Web ist es, Informationen nicht zu kopieren sondern zu referenzieren. Durch den Link auf eine andere Webseite verändert man deren Inhalt nicht. Das flexible Informationssystem, das auf diese Weise entsteht, hat sicherlich nicht die Konsistenz einer Datenbank, hat dafür aber die Chance dynamisch zu wachsen. SemTalk verwendet dieselbe Philosophie im Hinblick auf Modelle. Mit SemTalk wird also nicht ein einzelnes Modell sondern ein Netz von miteinander verlinkten Modellen erstellt. Verlinkt werden die Modelle sowohl untereinander als auch mit externen Modellen wie zum Beispiel branchenspezifischen Standards. In einem solchen Fall wird eine Kopie des externen Begriffes mit einer URN des referenzierten Begriffes erzeugt. Dadurch wird es möglich, einerseits offline gemeinsame Begriffssysteme zu nutzen und andererseits die Modelle wie eine Notes-Datenbank zu replizieren.

Praktische Anwendungen dieser Technologie sind oft Referenzmodelle: Eine Versicherung erstellt ein konzernweites CRM-Modell und passt dann die länderspezifischen Vorgehensweisen daran an. Im E-Government-Bereich werden z.Z. Referenzmodelle für Verwaltungsprozesse entwickelt, die dann in den einzelnen Behörden offline ausgerollt werden können. Wichtig ist in beiden Fällen die Referenzierung einer gemeinsamen Terminologie.

Abb 3: Hyperlinking SemTalk Models

Der Wizard nutzt zur Erkennung von Worten Index-Dateien, die von Crawlern für Modelle, Verzeichnisse oder das Semantic Web auf dem Internet erstellt wurden. Eine Index-Datei ist wiederum eine XML-Datei, die eine invertierte Liste der modellierten Objekte enthält. D. h. jedem Wort ist die Liste der Modelle zugeordnet, in denen es modelliert ist. Indexdateien werden über die SemTalk-Oberfläche nach den speziellen Anforderungen des Benutzers erzeugt. Sie stellen somit den für den Benutzer relevanten Teil des verfügbaren Semantic Webs dar. Komplexere Reasoning-Funktionalität steht durch die Anbindung von Ontobroker zur Verfügung. Mit Ontobroker können über die Sprache F-Logic komplexere Suchmuster auch über mehrere Modelle eingesetzt werden. F-Logic wird dabei zur Formulierung der Anfragen benutzt.

5 Praktische Nutzung des Semantic Web aus MS Office XP

Liest man diesen Text mit einem Internet Explorer 6 oder MS Word XP bemerkt man ein SmartTag auf dem Wort „SmartTag“ (violette Punkte)

Abb. 5: SmartTag action menu

SmartTags werden automatisch erkannt, während man den Text schreibt oder liest. Ein SmartTag ist ein als XML eingebetteter Merker im Text, der im Kontext des jeweiligen Lesers interpretiert werden kann und entsprechende Aktionen auslöst.

SemTalk Class Recognizer SmartTags überprüfen Text, Emails, Project Pläne oder Excel sheets auf bereits modellierte Begriffe und bieten verschiedene Aktionen an. Mit der Option „HTML“ kann z.B. direkt in eine graphische Erklärung des Begriffes gesprungen werden.

Abb. 6: HTML Visualisierung von Office Begriffen aus http://www.semtalk.com

Mit der Option „Make Hyperlink“ wird das SmartTag in einen statischen Hyperlink umgewandelt für diejenigen Leser, die keinen Internet Explorer, bzw. kein SemTalk Smart Tag haben. Statische Hyperlinks entsprechen aber einem „Early Binding“ also der Zuordnung des Hyperlink im Kontext des Autors. Dynamische Hyperlinks, wie z.B. SmartTags erlauben ein “late Binding” im Kontext des Lesers. Late Binding ist wesentlich spannender, da es die Transformation der Worte oder ihrer Synonyme in das aktuelle Wissensmodell des Lesers unterstützen kann. Ein umfangreiches graphisches Glossar wurde im Laufe des Jahres 2001 bei der IT-Abteilung der Credit Suisse entwickelt. Dieses Projekt ist recht ausführlich in [FWW02] beschrieben. Falls die Anwender SemTalk installiert haben, können sie auch direkt in das entsprechende Wissensmodell in Visio navigieren und ggf. das Modell entsprechend ihren Anforderungen erweitern.

SmartTag Technologie wird von uns als ein wichtiger Erfolgsfaktor für Wissensmanagement gesehen, da es proaktiv ist: Wurden bisher Dokumentationen, Glossare und Prozessbeschreibungen auf Papier bzw. statischem HTML abgelegt und vergessen, so werden sie jetzt in die täglichen Arbeitsaufläufe integriert und weisen den Nutzer mehr oder weniger von selbst auf vorhandenes Wissen hin.

6 Zusammenfassung

Mit SemTalk steht ein Werkzeug zur Erzeugung von Semantic Webs in XML zur Verfügung. Dabei kann auch die Entstehung großer Netze unterstützt werden, indem eine dezentrale Modellierungsweise angewendet wird. SemTalk ist derzeit bei verschiedenen Firmen im Rahmen von Wissensmanagement-Aktivitäten und zur Prozessmodellierung sowie Produktmodellierung im Einsatz. Durch die Benutzung von Office einschließlich Visio als Front-End wird so Semantic Web Technologie für einen sehr großen Anwenderkreis erschlossen.

7 Literatur

[BHL01]	Tim Berners-Lee, Jim Hendler, and Ora Lassila published an article about the Semantic Web in Scientifc American. http://www.scientificamerican.com/2001/0501issue/0501berners-lee.html
[FW01]	Fillies, C.; Weichhardt, F.; SemTalk: A RDFS Editor for Visio 2000 Position Paper, ICCS 2001 9th International Conference on Conceptual Structures / Semantic Web Working Symposium (SWWS)
[FWW02]	Fillies, C., Wood-Albrecht, G., Weichhardt, F., A Pragmatic Application of the Semantic Web Using SemTalk. WWW2002, May 7-11, 2002, Honolulu, Hawaii, USA ACM 1-5811-449-5/02/0005
[He01]	Heyer, G.; Läuter, M.;Quasthoff, U.; Wittig, Th.; Wolff, Chr.: Learning Relations using Collocations. In: A. Maedche, S. Staab, C. Nedellec and E. Hovy, (eds.). , Proc. IJCAI Workshop on Ontology Learning, Seattle/ WA, 19. – 24. August 2001
[St01]	Steffen Staab and Rudi Studer, Institute AIFB—University of Karlsruhe and Ontoprise GmbH, Hans-Peter Schnurr, Ontoprise GmbH, York Sure, Institute AIFB—University of Karlsruhe: Knowledge Processes and Ontologies. In: IEEE INTELLIGENT SYSTEMS, 1094-7167/01
[TB02]	Marcelo Tallis, Robert Balzer et al. "The Briefing Associate: Easing Authors into the Semantic Web", IEEE Intelligent Systems, Jan/Feb 2002.
[Wo75]	Woods, W. (1975). What's in a link: foundations for semantic networks. In Representation and Understanding: Studies in Cognitive Science , ed. Bobrow, D. and Collins, A., Academic, New York, pp. 35-82.