Semantisches Web und Umweltinformatik

11 Mai, 2008

Neben dem Hype um Web2.0 ist der Begriff des Semantic Web in vieler Munde. Dabei werden die beiden Entwicklungen teilweise gegeneinander ausgespielt, stehen aber eher nebeneinander und befruchten sich gegenseitig.

Bei dem Semantischen Web geht es darum, die Inhalte, die im Internet veröffentlicht werden, auch für Maschinen verständlich zu machen. Dabei geht es tatsächlich um ein „verständlich machen“, nicht um ein zugänglich machen. Das Ziel ist, dass Maschinen eine Seite nach ihrem Inhalt sinnvoll erfassen können und so ein Hilfsmittel zur inhaltlichen Suche nach Informationen werden. Es sollen intelligente Ergebnisse für die Suche geliefert werden, nicht 2.983.293 Treffer. Sie sollen genau das widerspiegeln, was der Suchende gemeint hat, auch ohne, dass die Begriffe, nach denen gesucht wurde auf der Seite auftauchen müssen.

Dies wird über Ontologien versucht, bei denen im Stile eines einfachen Satzes (Subjekt – Prädikat – Objekt) Verbindungen und Beziehungen zwischen Objekten hergestellt werden, die zu einem Netzwerk an Eigenschaften zusammengeschlossen werden. Als simples Beispiel kann vielleicht die Ontologie herhalten: „Ein Hund ist ein Säugetier“. Wenn nun eine Anfrage abgesetzt wird: „Was definiert einen Hund?“, kann der Computer die Anfrage inhaltlich „verstehend“ verarbeiten und sämtliche Eigenschaften eines Hundes mit ausgeben, eben auch die, dass ein Hund ein Säugetier ist, ohne dass das explizit in der Suchanfrage gesucht wurde. Über das dichte Netz an Ontologien kann eine Gewichtung erstellt werden, welche Information die vermutlich relevanteste ist, damit sie an erster Stelle ausgegeben wird. Es wird ersichtlich, dass hier eine spannende und enge Zusammenarbeit von Linguisten und Informatikern gefragt ist.

Um mit Ontologien arbeiten zu können, braucht es natürlich Metadaten (also Informationen über Daten), um Ontologien erstellen zu können bzw. sie sinnvoll anwenden zu können. Diese müssen entweder manuell (was in den meisten Fällen nicht stattfinden würde, weil Mehrarbeit) oder zumindest halbautomatisch erstellt werden. Es laufen einige Forschungen in die Richtung, Metadaten aus den entsprechenden Internetseiten automatisch zu generieren. Die dazu genutzte Auszeichnungssprache RDF beruht auf der XML-Technologie.

Ein Beispiel: Nachrichten sind sehr häufig geolokalisiert sprich einem (oder mehreren) bestimmten Ort zugehörig. Diese können automatisch aus dem Text gezogen, als Metadaten veröffentlicht und über bestimmte Schnittstellen auf einem WebGIS wie GoogleMaps o.ä. ausgegeben werden. Es gibt eine ganze Menge Forschung zu dem „Geospatial Web„. Sehr lesenswert dazu ist Scharl, A./Tochtermann, K (Hrsg.)(2007): The Geospatial Web, London

Für die Umweltinformatik ergeben sich viele Aufgaben und Fragen aus den Potentialen des Semantic Web.

– Wie können aus umweltrelevanten Daten (halb-)automatisch Metadaten generiert werden?

– Gibt es bestimmte Anforderungen umweltrelevanter Daten an Metaangaben?

– Wie können die vorhandenen „offiziellen“ fragmentierten Datenbestände zusammengeschlossen und gecrawlt werden?

– Dazu generell: Wie erreichen wir das „Deep Web„, dass sich in Datenbanken verbirgt und nur bei den entsprechenden Anfragen zum Vorschein kommt?

– Wie können die Ergebnisse aus der GeospatialWeb-Forschung in andere Domänen übertragen werden? Erste Versuche in Form von Wissenslandkarten gibt es hier bereits.

Für den Umweltbereich in Deutschland versucht das PortalU eine solche semantische Suche bereit zu stellen. Dort können Suchabfragen abgesetzt und räumlich, zeitlich und natürlich inhaltlich eingegrenzt werden. Das klappt schon einigermaßen gut, es werden die Datenbestände vieler Behörden durchgesucht und nach Relevanz ausgegeben. Die Technik dahinter ist beschrieben und frei verfügbar. Die Ergebnisse sind auch über einen Webservice abrufbar. Schade ist, dass nur auf die Originalseiten verlinkt wird und die Daten dort bleiben. So kann auch über das PortalU nicht auf die Daten z.B. von www.hamburger-luft.de zugegriffen werden, damit sie automatisch (z.B. in Mashups) weiterverarbeitet werden können.