Modellierung und Auswertung von Nutzerprofilen zur personalisierten Informationsfilterung und -aufbereitung


Diplomarbeit, 1999

125 Seiten, Note: 0


Leseprobe

Inhaltsverzeichnis

1 PROBLEM

2 THEORETISCHE GRUNDLAGEN
2.1 Grundlagen zum Internet
2.2 Der Begriff Information
2.3 Grundlagen der Informationsfilterung
2.3.1 Information Retrieval
2.3.1.1 Dokumentation
2.3.1.2 Linguistische Probleme beim Information Retrieval
2.3.1.3 Evaluation des Information Retrieval
2.3.1.4 Wissensrepräsentation für Texte
2.3.1.5 Information Retrieval Modelle
2.3.2 Informationsfilterung
2.4 Software-Agenten
2.5 Grundlegende Betrachtungen zu Nutzerprofilen

3 INITIALISIERUNG VON NUTZERPROFILEN
3.1 Explizite Initialisierung
3.2 Initialisierung anhand von Nutzereigenschaften
3.3 Initialisierung anhand eines Fragenkataloges
3.4 Initialisierung anhand von Beispielen
3.5 Initialisierung anhand der Bewertung durch den Nutzer
3.6 Implizite Initialisierung
3.7 Kollaborative Initialisierung

4 MODELLIERUNG UND AUSWERTUNG VON NUTZERPROFILEN
4.1 Allgemeine Betrachtungen
4.2 Nutzerprofil auf der Basis einer Klassifikation
4.3 Nutzerprofil auf der Basis von Stereotypen
4.4 Nutzerprofil auf der Basis eines Vektorraum-Modells
4.5 Nutzerprofil auf der Basis eines wissensbasierten Systems
4.5.1 Semantische Netze
4.5.2 Frame-Struktur
4.6 Nutzerprofil für datenintensive WWW-Seiten
4.7 Entwicklungssysteme für Nutzerprofile
4.8 Datenstrukturen für Nutzerprofile
4.8.1 Listenstruktur
4.8.2 Baumstruktur

5 LERNVERFAHREN FÜR NUTZERPROFILE
5.1 Lernen auf Grund von Relevance Feedback
5.2 Genetik-Algorithmus
5.3 Neuronale Netze

6 NEWT EIN SYSTEM ZUR INFORMATIONSFILTERUNG

7 ZUSAMMENFASSUNG, AUSBLICK

8 THESEN

GLOSSAR

ABBILDUGSVERZEICHNIS

TABELLENVERZEICHNIS

Vorwort

Die vorliegende Diplomarbeit entstand an der Otto von Guericke Universität Magdeburg am Institut für Technische und Betriebliche Informationssysteme während des Zeitraums von Januar 1999 bis November 1999.

Herrn Dr. Kai-Uwe Sattler und Herrn Prof. Dr. Gunter Saake danke ich für die Überlassung des interessanten Themas und den vielen wertvollen Anregungen und Verbesserungsvorschlägen. Weiterhin möchte ich den vielen Personen meinen Dank aussprechen, die mir bei der Anfertigung dieser Diplomarbeit hilfreich zur Seite gestanden haben.

Dem Zweitkorrektor möchte ich für die Übernahme des Koreferates danken.

Magdeburg, November 1999 Bernd Reiner

1 Problem

Die Wissenschaft und die Wirtschaft sind auf leistungsfähige Möglichkeiten zur Beschaffung, Organisation und zum Austausch von Information sowie zur inter- und intradisziplinären Kommunikation angewiesen. Durch den hohen Stellenwert der Information in der heutigen Zeit spricht man auch von einer Informationsgesellschaft. Der Zeitraum, in welchem erworbenes Wissen veraltet oder eine Verdopplung neuen Wissens stattfindet, sinkt dramatisch [CH98]. Der hohe Informationszuwachs oder die bereits vorhandene Informationsmenge führt zu Problemen. In den letzten 30 Jahren fiel mehr Information an als in den 5000 Jahren zuvor. Alleine auf dem Gebiet der Informatik existieren international etwa 6000 regelmäßig erscheinende Zeitschriften und jedes Jahr erscheinen über 1000 neue Bücher [Gate95, Bosc95].

Der Aufwand für die Informationsbeschaffung zu einem bestimmten Thema wächst dementsprechend. Die Zahl einschlägiger Publikationen ist inzwischen schwer überschaubar. Es besteht die Gefahr, daß relevante Information nicht gefunden wird oder auf bereits veraltete Information zugegriffen wird. Als allgemeines und wesentliches Ziel einer Informationsrecherche kann die Weiterentwicklung eines Wissensgebietes und die Vermeidung von Doppelforschung herausgestellt werden.

Ein weiterer wesentlicher Punkt ist der Zeitfaktor. Es ist sehr wichtig, daß Information möglichst aktuell und schnell zur Verfügung gestellt werden kann. Dadurch kann eine Erhöhung der Effizienz von Forschung und Entwicklung und eine Beschleunigung von Innovation verbunden sein. Gerade in Zeiten knapper Haushalte ist es erforderlich, die vorhandenen Mittel und Ressourcen möglichst effizient einzusetzen.

Das zur Zeit größte und vielseitigste Kommunikationsmedium zur Informationsbereitstellung, -verteilung und -beschaffung ist das Internet. Nach [RGK97] sind bereits über 150 Millionen Seiten im Internet vorhanden. Diese Seitenanzahl verdoppelt sich alle vier Monate. Für diese explosionsartige Entwicklung ist in erster Linie die Einführung des World Wide Web (WWW oder Web) verantwortlich [CH98]. Dieser phänomenale Anstieg der im WWW publizierten Information macht die Suche nach relevanter Information zu einer großen Herausforderung. Leider liegt die Information im Internet weitgehend unsystematisch, unstrukturiert, hochgradig verteilt und heterogen vor. Angesichts des schnell wachsenden Informationsangebots und der ungeheuren Dynamik, mit der sich das Internet verändert und vergrößert, ist ein Überblick nicht mehr möglich. Gedruckte Ressourcenverzeichnisse und Adressensammlungen können niemals einen aktuellen Stand beschreiben. Angesichts der ungeahnten Möglichkeiten, die das Internet bietet, besteht immer wieder die Gefahr, daß die vorhandene, relevante Information in der Informationsflut untergeht. Dieser Informationsüberfluß kann also auch Informations-defizit bedeuten. Trotzdem bietet das Internet sehr große Vorteile. Das beruht vor allem darauf, daß auf Information weltweit schnell und kostengünstig zugegriffen werden kann. Beliebige Information und Dokumente können in kürzester Zeit im Internet veröffentlicht, weltweit verbreitet und zugänglich gemacht werden.

Das Internet als weltumspannendes Informationsnetz wird für die Informationsrecherche zunehmend interessanter. Verstärkt präsentieren sich professionelle Informationsanbieter mit Zugangssystemen über das WWW oder TELNET im Internet. Fach- oder OnlineDatenbanken wurden nach wissenschaftlich fundierten Prinzipien der Dokumentationslehre entwickelt und aufgebaut. Das Resultat ist eine ordnungsgemäße und strukturierte Datenhaltung, unterstützt durch Datenbank Management Systeme (DBMS). Diese strukturierte Datenhaltung ist aber leider nicht der Normalfall. Um auch an die unstrukturierte Information zu gelangen, werden sehr oft Suchhilfen (Suchmaschinen oder Suchdienste) eingesetzt. Da jede Suchmaschine nur einen Bruchteil der gesamten Information oder Dokumente im WWW indexiert, helfen sie nur bedingt weiter.

Je schneller die Informationsflut wächst, um so dringender wird ein neuer Ansatz benötigt, wie sie bewältigt werden kann. Die in den letzten Jahren vielbeschworene Interaktivität hat damit ausgedient [RQS96]. Sich eigenhändig durch Datenberge und Hyperlinks zu wählen, kostet immer mehr Zeit und bringt immer weniger Erfolg. Aus diesem Grund sollen in dieser Arbeit neue Ansätze untersucht werden, um für den Nutzer relevante Information möglichst schnell und ohne großen Aufwand aus dem riesigen Informationspool des Internets zu filtern und benutzergerecht aufzubereiten.

Einen solchen innovativen Ansatz liefert die Technologie der Informationsfilterung. Um eine Automatisierung der Informationsbeschaffung zu erreichen, wird auf Nutzerprofile zurückgegriffen. Diese Arbeit beschäftigt sich mit der Modellierung und Auswertung von Nutzerprofilen für die personalisierte Informationsfilterung und Informationsaufbereitung. Es werden verschiedene Möglichkeiten zur Modellierung von Nutzerprofilen aufgezeigt. In den Nutzerprofilen werden die Interessen und Präferenzen des einzelnen Nutzers oder einer Nutzergruppe abgelegt. So kann durch ein System zur Informationsfilterung gewünschte Information gezielt für bestimmte Personen gefiltert, aufbereitet und präsentiert werden. In diese Nutzerprofile können auch für den Nutzer relevante und interessante Themenbereiche abgelegt werden. Ein Gartenbauingenieur, der zum Beispiel nach dem Begriff „Kohl“ sucht, ist nicht an der Information über den bekannten Politiker Helmut Kohl interessiert.

Gleichzeitig werden mehrere Verfahren zur Initialisierung von Nutzerprofilen aufgezeigt. Die Erfahrung zeigt, daß ein Nutzer nicht bereit ist, zu viel Zeit für die Initialisierung aufzuwenden. Ist diese Initialisierung zu aufwendig, so greift der Nutzer auf herkömmliche Systeme zur Informationsbeschaffung zurück, auch wenn damit mehr Zeit aufgewendet werden muß. Einen elementaren Stellenwert nehmen die Lernverfahren für die Nutzerprofile ein, um die Suchergebnisse zu verbessern. So wird der Nutzer in seiner Informationssuche immer besser unterstützt. Auch Interessensänderungen oder Interessensverschiebungen des Nutzers werden durch die Lernfähigkeit des Systems aufgefangen und berücksichtigt. Weiterhin werden in dieser Arbeit geeignete Datenstrukturen für diese Nutzerprofile untersucht.

Durch die Verwendung von Nutzerprofilen können intelligente und lernfähige Informationssysteme geschaffen werden. So wird die Effizienz und Effektivität der Informationssuche enorm gesteigert. Neue Techniken zur Informationsfilterung sollen auch weniger versierten Anwendern eine einfache und benutzerfreundliche Informationssuche ermöglichen. Durch weitere Automatisierung kann erreicht werden, daß der Anwender immer automatisch die neuste Information in den für ihn interessanten Bereich oder Wissensgebiet erhält.

2 Theoretische Grundlagen

Um das Verständnis zu erhöhen, sollen zu Beginn dieser Arbeit einige Grundlagen über das zu behandelnde Thema mitgeteilt werden. Zuerst werden einige Grundlagen über das Internet vermittelt. Im wesentlichen soll der zentrale Begriff Information erläutert und abgegrenzt werden. Weiterhin wird kurz auf die Grundlagen der Informationsfilterung und der Softwareagenten eingegangen.

2.1 Grundlagen zum Internet

Mit dem Begriff Internet wird der globale, technische und organisatorische Zusammenschluß vieler einzelner Rechnernetze auf der Basis der TCP/IP-Protokollfamilie bezeichnet [Rose92]. Ziel ist es, heterogene Computersysteme über unterschiedliche Netzwerke zu verbinden. Das Internet ist, wie in Abbildung 1 zu sehen, ein Kommunikationskanal mit einem definierten Protokoll (TCP/IP), der die Verständigung zwischen den angebundenen Einheiten erlaubt.

Abbildung in dieser eseprobe nicht enthalten

Abbildung 1: Internet-Architektur (nach [Rein98], verändert)

Dabei handelt es sich um eine Client-Server-Architektur, auf die später eingegangen wird. Die einzelnen Netze werden über sogenannte Backbone-Verbindungen miteinander verknüpft. In Deutschland sind dies neben dem WIN für Forschungseinrichtungen vor allem die Anbieter EUNet und Xlink für die übrigen Bereiche sowie Individual-Network für Privatpersonen. An zentralen Stellen sind Verbindungen zu anderen Ländern und deren Backbones geschaltet. So entsteht ein international verbundenes Gesamtnetzwerk, das als Internet bezeichnet wird. Das bedeutendste, übergreifende Netz ist das viele tausend Rechner und Einzelnetze umfassende Netzwerk der National Science Foundation (NSFNet), welches den Backbone der amerikanischen Universitäten und Forschungseinrichtungen bildet [RJ96].

Um überhaupt eine Kommunikation und eine funktionierende Netzwerkstruktur zu erreichen, sind Verwaltungsstrukturen im Internet unumgänglich. So muß z.B. das TCP/IP-Protokoll für viele Betriebssysteme und unterschiedliche Netzarten verwendbar sein. Dies erfordert einen offenen Standard und somit eine Herstellerunabhängigkeit. Zu den elementaren Verwaltungsaufgaben zählt vor allem die Vergabe von weltweit eindeutigen InternetAdressen. Die ständigen technischen Verbesserungen und Neuentwicklungen werden in RFCStandards (Request For Comments) festgehalten und den Entwicklern und Nutzern weltweit als sogenannten Defacto-Standards zugänglich gemacht. Bis heute wurden bereits mehr als 1000 RFC’s für die unterschiedlichen Gebiete erstellt. Als Beispiele können hierzu das Netzwerkmanagement, Informationsdienste, Dateisysteme, Multimedia und verteilte Anwendungen genannt werden. Die Pflege der RFC’s wird vom Network Information Center (NIC) in Menlo Park, Kalifornien übernommen.

Im Internet werden zahlreiche Informationsdienste angeboten. Als Informationsdienste werden Systeme gesehen, die dem Anwender spezielle Leistungen zur Verfügung stellen. In Tabelle 1 sind einige ausgewählte Informationsdienste aufgeführt und deren Eigenschaften kurz erklärt.

Abbildung in dieser eseprobe nicht enthalten

Tabelle 1: Ausgewählte Informationsdienste im Internet.

Durch die moderne Informationstechnologie stehen heute eine Vielzahl neuer und leistungsfähiger Werkzeuge zur Verfügung. Zu einem Arbeitsplatz gehört heute ein Personal Computer1 (PC) ebenso selbstverständlich dazu, wie ein Telefon und Faxgerät. Auch in den meisten privaten Haushalten ist ein solcher persönlicher Computer zu finden. Die Bestrebung geht in die Richtung, den PC, wie im Zeitalter der Großcomputer, miteinander zu vernetzen. Durch die weltweite Vernetzung wurde das größte aller Netzwerke (Internet), das bisher den UNIX-Workstations vorbehalten war, auch vom PC erobert.

Das Internet wächst mit einer enormen Geschwindigkeit unaufhörlich weiter. Aufgrund dieser ungeheuren Dynamik gibt es über die angebundenen Rechner und Netzwerke nur Schätzungen. Bereits 1990 gab es weltweit ca. 1000 verbundene Netzwerke, die sich bis 1997 auf über 1 Millionen Netzwerke erhöhten. Die Zahl der Benutzer schwankt je nach Schätzungen zwischen 60 und 70 Millionen. Im August 1999 waren in Deutschland ca. 1,5 Millionen, in Europa über 9 Millionen und weltweit über 56 Millionen Rechner ans Internet angeschlossen. Dabei wurden Rechner innerhalb eines Firewall-Systems nicht berücksichtigt. Die Wachstumsgeschwindigkeit ist besonders hoch. Von März 1997 bis März 1999 hat die Anzahl angebundener Rechner um fast 100% zugenommen [ISC99, NIC99]. Die Wachstums- geschwindigkeit kann durch den enormen Preisverfall und die immer leistungsfähiger werdende Hardware und Software erklärt werden. Dadurch wird das Internet in jüngster Zeit für kommerzielle Bereiche immer interessanter. Es entstehen immer neue semipermanente Zugangsformen zum Internet wie z.B. T-Online, AOL, MSN und Internet-Provider. Zu den traditionellen Hauptnutzern des Internets gehören Universitäten und Forschungseinrichtungen. Diese Zielsetzung wandelt sich von der wissenschaftlichen hin zur kommerziellen Nutzung. Die Ausdehnung und Anzahl der erreichbaren Rechnern und Benutzer ist der Grund, warum sich das Internet als Medium für eine internationale Kommunikation geradezu anbietet.

Der Zugriff auf Informationen wird im Internet durch das Client-Server-Prinzip realisiert. Hierbei werden bestimmte Dienste auf einem Rechner (Server, Host) bereitgestellt. Ein Anwender kann diese verteilten Dienste auf seinem lokalen Rechner (Client) nutzen. Um dies zu realisieren müssen Server und Client das gleiche Protokoll verwenden. Das bedeutet Server und Client sprechen für die Datenübertragung die gleiche Sprache. Die verschiedenen Internet-Informationsdienste wie TELNET, FTP, Gopher oder das World Wide Web (WWW) verwenden dieses Client-Server-Prinzip (Abbildung 2).

Abbildung in dieser eseprobe nicht enthalten

Abbildung 2: Das Client-Server-Prinzip (nach [RJ96])

In einer Client-Server-Umgebung laufen also stets zwei getrennte Prozesse. Zum einen das Client-Programm. Dieses Programm macht über das notwendige Protokoll auf dem Server den angebotenen Dienst nutzbar. Das Serverprogramm nimmt die Anfragen des Client- Programms entgegen, interpretiert und bearbeitet diese und schickt die angeforderten Informationen an den Client zurück. Wichtige Voraussetzung für die Anwendbarkeit dieser Systeme ist eine einheitliche Kommunikationsbasis mit Unterstützung der Interprozeß- und Interprogrammkommunikation sowie das Vorhandensein von entsprechenden Verwaltungs- und Zugriffskontrollmechanismen. Die TCP/IP-Protokollfamilie des Internet ist ein Beispiel für eine Netzarchitektur, mit welcher umfassende Client-Server-Anwendungen realisierbar sind.

Durch die wachsende Anzahl von Anwendungen und Benutzern des Internets und speziell des WWW entstehen auch Probleme im Zusammenhang mit dessen Nutzung. Zumal das WWW zunächst nur als Informationssystem mit geringem Umfang geplant war. Darüber hinaus gestaltet sich der Zugriff auf die Information je nach zugrundeliegendem Internetdienst unterschiedlich. Das WWW ist gekennzeichnet durch folgende Eigenschaften [Rein98, Satt98]:

- Verteiltes, dezentrales, heterogenes und redundantes Informationsangebot
- Basiert auf den Prinzipien Hypertext und Multimedia
- Interaktive Dokumente (verknüpfte Verweise auf Kommentare)
- Weltweit für jeden einfach zugänglich (plattformunabhängig, weitestgehend kostenlos, einfache Benutzung, zugängliche Autorenwerkzeuge)
- Suchdienste (roboterbasiert, katalogbasiert, agentenbasiert)
- Vielseitiges und stark wachsendes Informationsangebot
- Kurzer Veröffentlichungsprozeß
- Unsichere Qualität der Information, belanglose Inhalte, unsinnige Darstellung
- Verschiedene Medien (Text, Bilder, Video, Audio, Applets)
- Verschiedene Formate (HTML, PostScript, PDF, semistrukturierte Daten)
- Verschiedene Zugriffsschnittstellen (CGI, SQL, ...)
- Starke Dynamik der Veränderung und Vergrößerung

Der weitaus offene Charakter des Internets verursacht ein Wachstum der unterschiedlichsten Datenformate. Die Darstellungsart und -vielfalt von Information hat sich stark gewandelt. Durch die enormen Speicherkapazitäten und Rechnerkapazitäten, die heute zur Verfügung stehen, kann immer mehr speicherintensive Information, wie z.B. Multimediadokumente im WWW zur Verfügung gestellt werden. Dies erfordert auch weiterführende Möglichkeiten um verschieden Arten von Information zu suchen, filtern, aufbereiten und darzustellen.

Die Struktur der WWW-Umgebung entspricht die eines Graphen, wobei die Knoten (Dokumente) durch Hyperlinks verknüpft sind. Aus der Sicht des Benutzers ergibt sich das Problem, daß im WWW nur Hyperlinks zur Navigation im Informationsangebot zur Verfügung stehen. Eine Übersicht über das Gesamtangebot an Informationen auf einem Server ist nicht automatisch vorhanden. Da es keine Visualisierung der Lage des aktuellen Dokumentes in seiner Umgebung gibt, kommt es bei umfangreichen Informationsangeboten schnell zur Desorientierung des Benutzers. Dieses Phänomen bezeichnet man auch als „lost in hyperspace“. Der Benutzer weiß nicht, an welcher Stelle er sich befindet, ob er schon alle für ihn relevanten Informationen gefunden hat, oder ob er mehrmals auf ein Dokument zugreift.

Ein weiterer Nachteil, besonders für Autoren und Systembetreuer ist, daß Links nur unidirektional wirken. Es gibt keine Informationen zu Links, die auf ein bestimmtes Dokument zeigen. Bei einer umfangreichen Datenmenge kann es nach Modifizieren oder Löschen von Dokumenten zu ungültigen Querverweisen kommen. Nach [SB98] hat sich gezeigt, daß bei einer Analyse von WWW-Adressen in Proxy-Caches schon nach einem halben Jahr die Hälfte aller Adressen veraltet waren.

Ebenfalls nachteilig erweist sich die Adressierung mittels Uniform Resource Locator (URL), da sie die physikalische Position eines Dokumentes angeben und nicht auf einen logischen Namen zugreifen. Bei nachträglichem Ändern der URL kann es so zu Konsistenzproblemen kommen. Weiter bietet das WWW selbst keine eigenständigen Suchkomponenten, vergleichbar einem Query-Prozessor in Datenbank Management Systemen (DBMS). Es muß auf externe Suchmechanismen wie WAIS oder Suchdienste zurückgegriffen werden.

Aber auch mit den Suchdiensten ist der Erfolg einer Recherche nicht garantiert. Suchdienste haben ihre Tücken. Entweder ist das Gesuchte gerade nicht erfaßt oder der Suchende wird von der Menge der gefundenen Information regelrecht „erschlagen“. Hinzu kommt noch die Frage, welchen Nachrichtenraum oder welchen Teil des Internets die Suchdienste eigentlich abdecken. Im allgemeinen Sprachgebrauch werden Suchdienste auch als Suchmaschinen bezeichnet. Tabelle 2 zeigt die sieben Suchmaschinen mit der höchsten

Abbildung in dieser eseprobe nicht enthalten

Tabelle 2: Vergleich verschiedener Suchmaschinen (nach [SEW99, Mai 1998, verändert)

Die Qualität der Suchergebnisse hängt sehr stark von den verwendeten Ranking-Verfahren ab. Durch das Ranking-Verfahren wird bestimmt, wie relevant die gefundene Information in Bezug auf die Anfrage ist und an welcher Stelle der Trefferliste (Ranking-Liste) diese Information einzuordnen ist. Durch die Trefferliste steht die Information mit der größten Relevanz an oberster Position. Dadurch wird dem Anwender erspart alle gefundenen Informationen zu untersuchen. Leider kann sich der Anwender oft auf diese Trefferlisten nicht verlassen, da die Güte dieser Ranking-Verfahren sehr unterschiedlich ist.

Weltweit konkurrieren mehr als tausend Suchmaschinen um die Gunst des Internet-Surfers [SB98]. Da diese Suchmaschinen meist durch Werbeeinnahmen finanziert werden, kann es vorkommen, daß Trefferlisten durch Verkauf der Plätze manipuliert werden [CQ99]. Das verfälscht und erschwert die Suche nach relevanter Information natürlich erheblich.

Bei einer gezielten Suche nach Information im Internet besteht die Gefahr, daß die gewünschte Information zwar im Internet verfügbar ist, aber nicht gefunden wird. Das liegt auch an den Eigenschaften des menschlichen Problemlösens. Der Nobelpreisträger Simon hat bereits nachgewiesen, daß der Mensch nicht nach der insgesamt optimalen Lösung sucht, sondern nach der ersten besten Lösung für sein Problem [MS58]. Wird diese Aussage auf das Internet übertragen, so sucht der Benutzer nur solange, bis er eine einigermaßen passende Lösung gefunden hat und beendet dann die Suche. Die enorme Vielfalt des Internets wird oft gar nicht richtig genutzt. In der heutigen schnellebigen Gesellschaft ist kein Benutzer bereit zu viel Zeit für seine Informationssuche aufzuwenden.

Weiterführende Informationen über das Internet oder das World Wide Web sind in einschlägiger Literatur [Fran95, Klau95, Krol95, RS95, RJ96, SBGK94] zu finden.

2.2 Der Begriff Information

Weiterhin soll vor allem der zentrale Begriff Information erklärt und die Abgrenzung von Information zu Daten und Wissen erfolgen. Diese begriffliche Abgrenzung ist elementar für diese Arbeit und für das weitere Verständnis.

Da Information keine exakt quantifizierbare Größe ist, gibt es auch den Plural „Informationen“ in diesem Kontext nicht [Fuhr97]. Es gibt nur mehr oder weniger Information. Eine Information kann durch Signale, Daten, Zeichen, Nachrichten, Sprache usw. dargestellt werden. Zum Beispiel kann Information durch Eingabe, Ausgabe, Übermittlung, Speicherung, Klassifizierung und algorithmische Verknüpfung verarbeitet werden. Weiterhin hat Information bestimmte Eigenschaften [DInf93]:

- Information benötigt keinen fixierten Träger (d.h. Information ist unabhängig vom Ort, beliebig oft kopierbar und kennt keine Originale).
- Information altert nicht.
- Information ist fast beliebig kombinierbar. Man kann Ihr nicht ansehen, ob ihre Teile zueinander gehören.
- Information läßt sich stark komprimieren, aber auch inhaltsleer auswalzen.
- Information dient dazu, Information zu verarbeiten, insbesondere auch sich selbst.
- Auch Bruchstücke und Verfälschungen einer Information gelten als Information. D.h.

Information läßt sich prinzipiell analysieren, weiterdenken, vervollständigen oder sonstwie weiterverarbeiten (unvollständige, unsichere, vage Information).

Information ist ein äußerst komplexer Begriff. Daher ist es erforderlich, diesen Begriff zu schematisieren. Nach [DInf93], [Schu96] und [Coy92] läßt sich der Begriff Information in drei Ebenen einteilen:

- Syntaktische Ebene
- Semantische Ebene
- Pragmatische Ebene

Die zulässige Struktur der Bausteine (Daten, Zeichen), aus denen sich schließlich die Information zusammensetzt, wird durch die syntaktische Ebene definiert. Das ist der sichtbare Teil der Information. Die Bedeutung dieses Ausdrucks findet sich in der semantischen Ebene wieder. Was sich meist indirekt aus der Verarbeitung der Information ergibt, während sich die Verständigung mit dem damit verbundenen Zweck bzw. der Handlungsaufforderung in der pragmatischen Ebene befinden. Diese oberste Ebene entspricht dem eigentlichen Zweck von Sprache, nämlich Wissen zu vermitteln.

Für die Darstellung von Information verwendet man Signale, Daten oder Nachrichten. Signale sind elementar feststellbare Veränderungen, wie z.B. ein Zeichen, ein Strich, ein Ton oder ein Bildelement. Ein Datum ist ein Signal, das durch digitale Zeichen dargestellt werden kann. Eine Nachricht ist eine Folge von Zeichen oder allgemein von Signalen einschließlich ihrer räumlichen und zeitlichen Anordnung. Sie muß vorgegebenen Regeln folgen, besitzt aber zunächst keine Bedeutung. Information ist an ein Informationsmittel gebunden, das uns in der Sprache zur Verfügung steht.

In der deutschen Informationswissenschaft hat man sich vor einigen Jahren auf eine einheitliche Terminologie geeinigt, um Daten, Wissen und Information abzugrenzen [Fuhr97]. Diese Abgrenzung ist in Abbildung 3 zu sehen.

Abbildung in dieser eseprobe nicht enthalten

Abbildung 3: Abgrenzung von Daten, Wissen und Information (nach [Fuhr97], verändert)

Nach dieser Terminologie sind Daten auf der syntaktischen Ebene anzusiedeln. Eine Datenbasis ist demnach eine Sammlung von Zeichen ohne jegliche Semantik. Ein Datenbanksystem jedoch enthält zusätzlich Wissen, indem zumindest ein Teil der Semantik aus einem Anwendungsgebiet (Domäne) im Datenbankschema modelliert ist. Information ist schließlich auf der pragmatischen Ebene definiert. Nach [Kuhl90] wird die pragmatische Ebene wie folgt ausgelegt: „Information ist die Teilmenge von Wissen, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird.“ Information ist also zweckbezogenes Wissen, das man zum Handeln bzw. zum Erreichen eines bestimmten Ziels benötigt. Ist diese Information nicht vorhanden, muß danach recherchiert werden, um damit eine betriebswirtschaftliche, administrative oder wissenschaftliche Entscheidung oder Handlung abzuleiten.

Das gespeicherte Wissen wird dabei benötigt, um durch ein Informationssystem die benötigte Information zu extrahieren. Daraus läßt sich ein wesentlicher Unterschied zwischen Wissen und Information ableiten. Information ist flüchtig und Wissen dagegen permanent. Schlagwortartig läßt sich die Beziehung zwischen den beiden Begriffen durch die Formulierung „Information ist Wissen in Aktion“ ausdrücken [Fuhr97]. Wissen eignet man sich durch eigene Erfahrung (originär) oder durch Aufnahme und Verarbeitung von Information im menschlichen Gehirn (derivativ) an. Nach den allgemeinen Annahmen von [Henz92, Bosc95] kann festgestellt werden, daß sich das publizierte Wissen exponentiell vermehrt. Eine ausführliche philosophische und wissenschaftstheoretische Darstellung des Wissensbegriffs findet sich bei [Luft88].

Um aus bestehender Information wieder neues Wissen erzeugen zu können oder um Innovationen hervorzubringen, muß die Information effektiv und effizient gespeichert und recherchierbar sein oder gemacht werden. Welcher Personenkreis in der Wissenschaft oder Forschung profitiert am meisten von einem effektiven Recherchesystem? Das soll im folgenden untersucht werden. Bei Spezialisten, auf deren Wissensgebiet weltweit nur sehr wenige Kollegen tätig sind, kann allgemein festgestellt werden, daß die entsprechende Literatur oder Information weitgehend bekannt ist. Die Bewältigung der Informationsmenge in diesen spezialisierten Wissensgebieten und Forschungsgebieten stellt demnach noch kein elementares Problem dar. In weniger spezialisierten Gebieten hingegen steigt die Menge an relevanter Information drastisch, bis zu einer unüberschaubaren Menge an. Aus diesen Beobachtungen kann zwischen der Informationsmenge und dem Spezialisierungsgrad des zu bearbeitenden Gebietes eine Abhängigkeit festgestellt werden [RJ96]. Diese Abhängigkeit ist in Abbildung 4 zu erkennen.

Abbildung in dieser eseprobe nicht enthalten

Abbildung 4: Die Informationspyramide (qualitativ, nach [RJ96])

Das Plateau der Pyramide kann dadurch erklärt werden, daß immer ein gewisser Informationsbedarf in der Forschung und bei wissenschaftlichen Arbeiten besteht. Hier sind die Wechselwirkungen zwischen den verschiedenen Disziplinen zu nennen. Auf diese Weise vergrößert sich die relevante Informationsmenge entsprechend. Betrachtet man ferner die zeitliche Veränderung, wächst die Pyramide vertikal mit dem Erarbeiten neuen Wissens bzw. neuer Forschungsgebiete. Durch weiteres Arbeiten auf den generalisierten Fachgebieten wird die Informationsmenge größer. Die Pyramide wächst dadurch auch horizontal. Die negative Abszisse der Pyramide kann als Desinformation interpretiert werden, d. h. diese Information enthält keinen pragmatisch verwertbaren Informationsgehalt. Die positive Abszisse enthält echt verwertbare Information. Diese Information muß vom Nutzer aus dem gesamten verfügbaren Informationsbestand zur Anwendung herausgefiltert werden [RJ96].

Nach [Gate95] verkürzt sich der Informationszyklus durch den Einsatz neuer Techniken der Informationsverarbeitung, wie neue Rechnergenerationen und Rechnernetzwerke. Der Informationszyklus setzt sich aus fünf verschiedenen Zeiten zusammen (Abbildung 5).

Abbildung in dieser eseprobe nicht enthalten

Abbildung 5: Informationszyklus von der Entstehung bis zur Nutzung

Auf der einen Seite entsteht die Information und wird veröffentlicht. Danach folgt der Zeitaufwand für die Dokumentation (siehe Kapitel 2.3.1.1), um eine breite Verfügbarkeit der Information zu erreichen. Die Informationsfilterung oder das Information Retrieval und die spätere Nutzung der Information schließen den Informationszyklus ab. Die einzelnen Zeitabschnitte können durch den Einsatz neuer Techniken wesentlich verkürzt werden. Als Zeitpunkt der Veröffentlichung ist hier die Drucklegung oder die elektronische Veröffentlichung, wie z. B. im Internet, gemeint. Das bedeutet, daß die Information möglichst aktuell und schnell zur Verfügung steht und genutzt werden kann.

Es lassen sich zwei Formen des Informationszugriffs und der Informationsverteilung unterscheiden [Satt98]. In Abbildung 6 sind die beiden Strategien Push und Pull gezeigt. Bei der Push-Strategie liegt eine zentrale Verteilung der Information an passive Konsumenten vor. Als Beispiele können hier Rundfunk, Fernsehen, Zeitungsabonnement, Information Broker und Internet Channels genannt werden. Demgegenüber steht die Pull-Strategie. Der Konsument startet einen gezielten und aktiven Zugriff auf die Information verschiedener Anbieter. Das Bedeutet, der Konsument muß eigenständig Sorge tragen, wie er an die entsprechende Information gelangt. Internet-Suchmaschinen und Browser sind Beispiele der Pull-Zugriffsstrategie.

Abbildung in dieser eseprobe nicht enthalten

Abbildung 6: Die Informationszugriffstrategien Push und Pull (nach [Satt98])

2.3 Grundlagen der Informationsfilterung

Informationsfilterung (IF) ist kein neues Konzept. Es beschränkt sich auch nicht auf elektronisch gespeicherte Dokumente. Informationsfilterung wird von Menschen tagtäglich eingesetzt und bewältigt. Es werden zum Beispiel aus der Zeitung nur diejenigen Artikel gelesen, die von persönlichem Interesse sind. Wir filtern also aus dem uns zugänglichen großen Informationsangebot die relevante Information heraus. Durch die elektronische Präsenz der Information, kann die Filterung von Information automatisch durch das System vorgenommen werden. Diese elektronische Informationsfilterung ist von höchster Qualität, wenn das System die gleichen Ergebnisse präsentiert, als wenn der Anwender diese Filterung manuell durchgeführt hätte. Es wird also genau die gewünschte Information zurückgeliefert, die der Anwender benötigt und für gut empfindet. Solche hochqualifizierten Systeme zur Informationsfilterung sind eigentlich nicht zu erreichen, da der Anwender bei einer Recherche oft intuitiv handelt. Dahingegen stehen bei der automatischen Informationsfilterung nur begrenzte Nutzerprofile zur Verfügung, welche die Interessen des Anwenders nur bedingt wiedergeben und abdecken können.

Um den Begriff Informationsfilterung zu erklären, ist es zunächst sinnvoll, die Teilbegriffe Information und Filterung getrennt zu betrachten. Im vorherigen Kapitel 2.2 wurde der Begriff Information bereits erklärt. In den einzelnen Einsatzgebieten werden unterschiedliche Definitionen für den Begriff Filterung verwendet:

- Elektrotechnik: Ein Schaltwerk mit stark frequenzabhängigen Eigenschaften, das nur Frequenzen eines bestimmten Frequenzbereichs passieren läßt (Tiefpaß, Hochpaß, Bandpaß, Bandsperre).
- Chemie: Eine Filtration wird durchgeführt, um eine Flüssigkeit von den darin enthaltenen Feststoffen zu trennen.
- Textverarbeitungssystem: Ein Dienstprogramm, das bestimmte Zeichen oder Zeichen- folgen aus einem Text sucht und selektiert.
- Datenbanksystem: Durch Angabe von Selektionskriterien werden nur die gewünschten Datensätze aus der Datenbank extrahiert, angezeigt oder weiterverarbeitet.

Im Bereich der Informationsfilterung wurde bisher noch keine einheitliche Begriffsdefinition gefunden. Im allgemeinsten Fall kann die Informationsfilterung als eine Selektion für den Nutzer relevante Information betrachtet werden. Grundsätzlich ist das Ziel von Systemen für die Informationsfilterung, dem Anwender diejenige Information aus einem sehr großen und dynamischen Informationspool zu selektieren und zu präsentieren, die auf die Informationsanforderung paßt. Natürlich spielt die Zeit für die Informationsfilterung eine wesentliche Rolle, da der Anwender die relevante Information in angemessener Zeit erhalten soll.

Die historische Entwicklung des Gebietes Informationsfilterung begann bereits 1958 mit Luhn, der seine Idee eines „Business Intelligence System“ vorstellte [Luhn58, OM96]. In seinem Konzept waren schon individuelle Nutzerprofile enthalten und seine Arbeit beschrieb Aspekte eines modernen Systems zur Informationsfilterung. Eines der ersten Formen elektronischer Informationsfilterung entstand durch die Arbeit für Selective Dissemination of Information (SDI). Diese selektive Verbreitung von Information wurde entwickelt, um Wissenschaftler automatisch über neue Dokumente, die in Ihrem Wissensgebiet erscheinen, zu informieren. Die Wissenschaftler waren in der Lage, durch Angabe von Schlüsselwörter ein Nutzerprofil anzulegen. Im Jahre 1969 war das Interesse an SDI so gestiegen, daß eine Special Interest Group on SDI (SGI-SDI) von der American Society for Information Science gegründet wurde. Durch die steigende Anzahl elektronischer Dokumente und die Vernetzung der Rechner stieg die Motivation für das Gebiet der Informationsfilterung. Denning prägte den Begriff „Informationsfilterung“ 1982 in seiner Abhandlung „Electronic Junk“ [Denn82]. Er beschrieb die Notwendigkeit der Informationsfilterung im Bereich der Elektronischen Post, um wichtige E-Mails von Routinemails zu unterscheiden. 1989 organisierte die DARPA (Defense Advanced Research Projects Agency) eine Reihe von Message Understanding Conferences (MUC). Diese verfolgten das Ziel, Techniken für die Extraktion von Information zu finden um E-Mails zu selektieren. Bellcore und die Special Interest Group on Office Information Systems (SIGOIS) von ACM (Association for Computing Machinery) gründeten Ende 1991 eine Arbeitsgruppe für High Performance Information Filtering, um die verschiedenen Ergebnisse der Forschung auf diesem Gebiet zu vereinen. Im Jahre 1993 fand die erste Text Retrieval Conference (TREC) statt, in der es speziell um das Textretrieval bzw. die Textfilterung ging.

Laut [BC92, FD92, HFDO92] ist Informationsfilterung (IF) sehr eng verwandt mit dem Gebiet des Information Retrievals (IR), da beide das gleiche Ziel verfolgen. Es soll relevante Information entsprechend den Wünschen des Anwenders zurückgeliefert werden. Beide Systeme benötigen Techniken um die gewünschte Information zu selektieren. Dadurch kann bei der Informationsfilterung auf die Grundlagen und Techniken des Information Retrievals zurückgegriffen werden. Im folgenden soll zunächst die Grundlage und Technik des Information Retrievals betrachtet werden. Danach wird die Informationsfilterung und die Abgrenzung zum Information Retrieval dargestellt.

2.3.1 Information Retrieval

Grundsätzlich lassen sich Information Retrieval Systeme in drei unterschiedliche Gruppen einteilen:

- Dokumenten- oder Text-Retrieval
- Fakten-Retrieval
- Wissens-Retrieval

Dokumenten-Retrieval entspricht dem wesentlichsten und wichtigsten Teil des Information Retrieval und kann als inhaltsorientierte Suche in Texten beschrieben werden. Das Ziel des Fakten-Retrieval ist die Wiedergewinnung von numerischen oder statistischen Daten. Sie beantworten Suchfragen des Typs „Wie hoch war die Geburtenrate 1998 in Bayern“ aufgrund des gespeicherten Zahlenmaterials. Das Wissens-Retrieval liefert Problemlösungsvorschläge unter Verwendung von Inferenzmechanismen (Schlußfolgerungsmechanismen), die auf eine Wissensbasis zugreifen.

In Abbildung 7 ist das Grundmodell des Information Retrieval dargestellt. Die linke Seite der Abbildung repräsentiert den Vorgang der Eingabe. Hier werden Daten analysiert und dann durch Verfahren der Wissensrepräsentation in gespeichertes Wissen überführt. Auf der rechten Seite befindet sich der Retrieval-Prozeß. Beim Retrieval wird die benötigte Information durch Transformation auf diesem gespeicherten Wissen erzeugt.

Abbildung in dieser eseprobe nicht enthalten

Abbildung 7: Grundmodell des Information Retrieval (nach [Fuhr97], verändert)

Das Information Retrieval-Problem läßt sich charakterisieren durch einen großen Informationspool (Dokumente) und einer Menge von Nutzern die eine gezielte Anfrage an das System stellen, um eine relevante Information zu bekommen. Das unterscheidet sich von einer Datenbankanfrage vor allem durch unstrukturierte Such- und Retrievalterme. Um ein effektives Information Retrieval zu gewährleisten, ist eine gute Dokumentation im Sinne der Informatikdisziplin erforderlich. Aus diesem Grunde soll im nächsten Kapitel ein kurzer Abriß der Dokumentationstheorie folgen.

2.3.1.1 Dokumentation

Als Dokumentation wird nach [Gaus95] das Sammeln, Ordnen und Nutzbarmachen d.h. das gezielte Wiederauffinden von Dokumenten aller Art bezeichnet. Grundeinheit der Dokumentation ist das Dokument oder die Dokumentationseinheit, ein beliebiges Medium, auf dem Information reproduzierbar festgelegt werden kann. Dokumentationseinheiten können Bücher, Zeitschriftenartikel, Zitate, Datenblätter, Krankenakten, Fakten, Meßwerte, Bilder, Sprachaufzeichnung oder auch Videos sein. Also auch multimediale Dokumente.

Der enorme Anstieg an prinzipiell verfügbaren Informationen wurde bereits angesprochen. Mit diesem Anstieg der Informationsmenge geht unweigerlich die Notwendigkeit zur Dokumentation einher. Die Dokumentation kann in vier Teilgebiete unterschieden werden [Gaus95]:

- Beschaffen und Erfassen

Zunächst müssen die Dokumente beschafft und auf Redundanz überprüft werden. Weiterhin erfolgt eine formale Erfassung des Dokuments. Hier werden „äußere“ Kennzeichen eines Dokuments festgehalten. Insbesondere zählen dazu Autor, Sachtitel, Erscheinungsform, Erscheinungsort, Verlag, Erscheinungsjahr.

- Indexieren2

Indexieren ist also das inhaltliche Erschließen eines Dokuments. Es wird versucht, den Sachverhalt eines Dokuments festzuhalten. Konkret findet die Zuordnung von Deskriptoren zu einem Dokument statt. Da Dokumente meist über ihren Inhalt gesucht werden, kommt der semantischen Repräsentation ein starkes Gewicht zu. Beim inhaltlichen Erschließen werden „freies Indexieren“ und „gebundenes Indexieren“ unterschieden. Der Inhalt eines Dokumentes wird beim freien Indexieren durch einzelne oder mehrere Wörter möglichst genau festgehalten. Die Wörter oder Deskriptoren werden in Anlehnung an die wissenschaftliche Fachsprache vom Indexierer intuitiv und frei vergeben. Im Gegensatz hierzu werden beim gebundenen Indexieren nur Schlagworte aus einer Menge von zur Verfügung stehenden Deskriptoren vergeben. Eine Sammlung dieser Deskriptoren und deren Anordnung untereinander kann verschiedenen Ausprägungen folgen, die (begriffliche) Ordnungssysteme genannt werden: Register, Klassifikation, Thesaurus.

- Speichern

Zu unterscheiden sind der Dokumentenspeicher, wo die einzelnen Dokumente abgelegt werden und der Deskriptorenspeicher. Hier wird gespeichert, welcher Dokumentationseinheit welcher Deskriptor zugeordnet ist.

- Recherchieren

Die Recherche wird auch Retrieval oder Search genannt und ist das gezielte Suchen und Wiederauffinden von Dokumentationseinheiten zu einem interessanten Sachverhalt.

Je höher die Indexierungsgenauigkeit ist, desto präzisere Suchfragen sind möglich. Eine ausreichende Genauigkeit beim Indexieren ist eine Voraussetzung dafür, daß bei einer Recherche alle relevanten und nur die relevanten Dokumentationseinheiten selektiert werden.

2.3.1.2 Linguistische Probleme beim Information Retrieval

Um ein effektives Suchen in Informationsbeständen zu ermöglichen, haben sich schon länger standardisierte Begriffssysteme etabliert, die gespeicherte Information entsprechend beschreiben bzw. repräsentieren sollen. Durch die Standardisierung wird gewährleistet, daß zum Indexieren und Recherchieren das gleiche Vokabular verwendet wird. Standardisierung mittels eines kontrollierten Vokabulars ermöglicht eine effektive Recherche. Bei sehr vielen Suchanfragen wird aber außerhalb des Begriffssystems recherchiert, wodurch spezifische linguistische Phänomene auftreten, die ein Information Retrieval behindern. Es können folgende linguistische Phänomene auftreten [Gaus95, Fuhr97]:

- Homonyme

Homonyme werden in Homophone, Homographen und Polyseme unterteilt. Homophone unterscheiden sich in der Schreibweise, aber nicht in der Sprechweise (z.B. Lerche, Lärche). Da üblicherweise die Sachverhalte schriftlich vorliegen, bereiten die Homophone im allgemeinen keine Schwierigkeiten. Homographen sind Begriffe mit gleicher Schreibweise und unterschiedlicher Sprechweise (z.B. Geschichte im Sinne der Historie und im Sinne einer Erzählung). Die Polyseme (vieldeutige Wörter) hingegen unterscheiden sich weder in der Schreibweise noch in der Sprechweise (z.B. Bank als Sitzgelegenheit oder als Geldinstitut). Probleme treten auf, wenn beim Indexieren ein Homonym in der einen, beim Recherchieren in der anderen Bedeutung verwendet wird. Es führt dazu, daß zu viele und unrelevante Dokumentationseinheiten selektiert werden.

- Synonyme

Synonyme können in Vollsynonyme, Quasisynonyme und Teilsynonyme unterschieden werden. Bei Vollsynonyme liegt den verschiedenen Benennungen genau der gleiche Begriff zugrunde (z.B. Bibliothek - Bücherei, Natriumchlorid - Kochsalz). Quasi- synonyme sind Benennungen, die zwar den gleiche Begriff führen, aber doch feine Unterschiede beinhalten (z.B. PKW - Auto, Frau - Weib). Teilsynonyme bezeichnen Begriffe, die in wesentlichen Bereichen übereinstimmen, aber nicht identisch sind (z.B. Rad - Fahrrad, Ei - Hühnerei). Wird z.B. der Deskriptor „Natriumchlorid“ indexiert und später mit dem Begriff „Kochsalz“ gesucht, so wird diese Dokumentationseinheit nicht selektiert. Es führt dazu, daß zu wenige Dokumentationseinheiten selektiert werden und für die Suchanfrage relevante Dokumente nicht wiedergefunden werden.

- Flexionsformen

Entstehen durch Konjugation und Deklination eines Wortes (z.B. schreiben, schreibt, schrieb, geschrieben).

- Derivationsformen

Zu einem Wortstamm treten verschiedene Wortformen auf (z.B. Formatierung, Format, formatieren).

- Komposita

Darunter fallen mehrgliedrige Ausdrücke (z.B. Bundeskanzlerwahl, Wahl des Bundeskanzlers).

Für die aufgeführten linguistischen Probleme gibt es verschiedene Lösungsstrategien. So wird zum Beispiel für die Überwindung des Problems der Homonyme eine thematische

Begrenzung eingeführt, was die Anzahl der auftretenden Homonyme enorm reduziert. Bei dem Synonym-Problem besteht die Möglichkeit, unter allen Synonymen zu suchen, um so die Anzahl der selektierten Dokumente zu steigern. Um das Problem von Derivationsformen zu umgehen, wird das sogenannte Stemming eingesetzt. Hier wird ein Begriff auf den Wortstamm reduziert. Bei [Frak92] sind verschiedene Stemming-Algorithmen aufgeführt. Weitere Verfahren sind die Trunkation oder die Maskierung [Fuhr97]. Sie werden eingesetzt, um beliebige Silben bei der Suche zuzulassen. Trunkation wird hauptsächlich verwendet, um beliebige Vorsilben und Endsilben bei der Suche einzusetzen (z.B. $$schreiben - beschreiben, anschreiben). Während die Maskierung eingesetzt wird, um in der Wortmitte beliebige Zeichen zu ermöglichen (z.B. schr$$b# - schreiben, schrieb, schraubt). Wie das letzte Beispiel zeigt, können durch die Trunkation und Maskierung auch Wörter entstehen (hier: schraubt) , die bei einer Suche nicht relevante Dokumente zurückliefern. Durch die Angabe von Kontextoperatoren kann das Problem von Komposita umgangen werden. Der Ausdruck „Information Retrieval“ kann zum Beispiel im Text auch in der Form „Retrieval von Information“ oder „Informations- Filterung und Retrieval“ auftreten. Kontextoperatoren werden eingesetzt, um eine Suche nach verteilten Komposita zu ermöglichen. Sonst wäre man auf boolesche Operatoren angewiesen, die sich lediglich auf das Vorkommen der einzelnen Teilwörter der Komposita irgendwo im selben Text beziehen. Was aber oft nicht ausreicht, um ein akzeptables Suchergebnis zu erlangen. Durch Kontextoperatoren kann angegeben werden, wie weit die Teilwörter eines Komposita im Text auseinander liegen dürfen. Es kann zum Beispiel der genaue Wortabstand ($) oder der maximale Wortabstand (#) der Teilwörter angegeben werden.

2.3.1.3 Evaluation des Information Retrieval

Die Beurteilung der Qualität einer Recherche anhand objektiver Kriterien ist nicht einfach. Die Beurteilung muß sich an der Relevanz der gefunden Informationen in Bezug auf das Informationsbedürfnis messen lassen. Zur Beurteilung des Erfolges einer Recherche in Datenbanken und Information Retrieval Systemen sind drei Kriterien allgemein akzeptiert: Recall (Vollständigkeit), Precision (Genauigkeit) und Fallout (Ausfall). In Abbildung 8 sind die Zusammenhänge der drei Kriterien gezeigt.

Mit ALL wird die Gesamtzahl der Dokumente die in der Datenbank vorhanden sind widerspiegelt. GEF steht für die Menge der gefundenen relevanten und irrelevanten Dokumente. Die Menge der relevanten Dokumente in der Datenbank entsprechend einer bestimmte Suchanfrage wird mit REL bezeichnet. Die Schnittmenge von GEF und REL bildet die Menge der gefundenen relevanten Dokumente, die dem Anwender zur Verfügung gestellt werden können [Fuhr97, Gaus95].

Dabei bezeichnet Recall den Anteil der relevanten Dokumente, die tatsächlich gefunden wurden. Recall ist also ein Maß für den quantitativen Erfolg einer Recherche. Aufgrund der schweren präzisen Bestimmbarkeit von REL ist der Recall weder durch den Benutzer erkennbar noch mit angemessenem Aufwand zu bestimmen.

Precision ist ein Maß für die Genauigkeit einer Recherche. Sie zeigt den Anteil der relevanten Dokumente in Relation zur Zahl aller überhaupt gefundenen Dokumente. Damit ist Precision auch die Kennzahl für den so häufig zitierten „Ballast“ einer Recherche und vom Benutzer direkt erkennbar.

Fallout mißt den Anteil der gefundenen irrelevanten Dokumente in Relation zu allen irrelevanten Dokumenten der Datenbank. Dadurch kann die Fähigkeit des Systems bewertet werden, irrelevante Dokumente vom Anwender fernzuhalten.

Abbildung in dieser eseprobe nicht enthalten

Abbildung 8: Bewertung des Information Retrieval (nach [Fuhr97, Gaus95], verändert)

In Information Retrieval Systemen muß ein geeigneter Mittelweg zwischen einer angemessenen Vollständigkeitsrate bzw. Wiederauffindungsquote (Recall) und einer akzeptablen Genauigkeitsrate bzw. Treffersicherheitsquote (Precision) gefunden werden, da diese beiden Parameter einander entgegenwirken.

Da bei einer Recherche meist mehrere relevante Dokumente gefunden werden, liefern die meisten Retrieval-Systeme die Dokumente entsprechend einer Rangordnung (Ranking-Liste) zurück. Durch diese Rangordnung steht die Information mit der größten Relevanz an oberster Stelle und erleichtert dem Anwender dadurch die Auswahl der richtigen Information. Es werden unterschiedliche Verfahren für das Ranking eingesetzt [SB98]:

- Coordination Level Match (CLM):

Bei diesem Verfahren findet eine Zählung und Gewichtung der Worthäufigkeit in einem Dokument statt. Es wird davon ausgegangen, daß ein Autor die natürliche Tendenz besitzt wichtige Wörter häufig zu verwenden.

- Hyperlink Vector Voting (HVV):

Dieses Verfahren unterliegt der Annahme, daß die Qualität und Güte einer WWW-Seite von der Anzahl der externen Hyperlinks, die auf diese WWW-Seite verweisen abhängt.

- Collaborative Filtering (CF):

Besucher erhalten hier die Möglichkeit, WWW-Seiten zur bewerten. Diese Bewertung spiegelt sich dann bei der Ranking-Ordnung wieder. Als Nachteil kann aufgeführt werden, daß unliebsame Konkurrenten schlechte Zensuren vergeben.

Alle aufgeführten Ranking-Verfahren sind mehr oder weniger manipulierbar. Die Qualität der Ranking-Verfahren ist sehr wichtig für eine effektive Suche. Es lassen sich grundsätzlich zwei unterschiedliche Ordnungsmöglichkeiten unterscheiden. Zum einen wird von manchen Systemen eine lineare (totale) Ordnung realisiert. Hier kann nur jeweils ein gefundenes Dokument auf der gleichen Rangstufe liegen. Bei einer schwachen Ordnung können sich hingegen mehrere Dokumente in der gleichen Rangstufe befinden.

2.3.1.4 Wissensrepräsentation für Texte

Den wichtigsten Teil des Information Retrievals nimmt das Dokumenten Retrieval ein, also die inhaltliche Suche in Texten. Durch die oben genannten linguistischen Phänomene stellt die Repräsentation für Textinhalte ein elementares Problem für das Information Retrieval dar. Auf der einen Seite sollen unterschiedliche Formulierungen auf die gleiche Repräsentation abgebildet werden um das Recall (Vollständigkeit) zu erhöht. Andererseits ist es nötig, unklare Formulierungen eindeutiger zu bestimmen, um die Precision (Genauigkeit) zu erhöhen. Es gibt grundsätzlich zwei verschiedene Ansätze um eine Wissensrepräsentation für Texte durchzuführen. Die Freitextsuche und einen semantischen Ansatz [Fuhr97].

Freitextsuche

Bei der Freitextsuche findet keine zusätzliche Repräsentation des Textes statt, sondern es werden nur erweiterte oder verbesserte Ansätze zur Suche in Texten verwendet. Es wird zunächst der Text in Einzelworte zerteilt und alle Stoppworte verworfen. Stoppworte sind Begriffe mit nur geringer Aussagekraft wie Artikel, Füllwörter, Konjunktionen usw. Dadurch reduziert sich der Textumfang schon fast um die Hälfte. Ein elementares Problem der Freitextsuche, wie die Wortwahl des Anwenders, bleibt auf alle Fälle ungelöst.

Ein informatischer Ansatz faßt das Dokumenten Retrieval als Zeichenkettensuche auf. Es wird der Text als Folge von Wörtern betrachtet. Die Verfahren Trunkation und Maskierung werden eingesetzt, um Flexionsformen und Derivationsformen zu erkennen. Um mehrgliedrige Ausdrücke (Komposita) zu behandeln, werden Kontextoperatoren eingesetzt. Der computerlinguistische Ansatz versucht, durch morphologische und syntaktische Verfahren eine Normalisierung von Wortformen durchzuführen. Im Gegensatz zum informatischen Ansatz, bezieht sich hier die Suche auf einzelne Wörter und nicht auf Zeichenketten. Durch Algorithmen kann die Transformation der Wortformen automatisch erfolgen. Nähere Informationen sind in [Fuhr97] zu finden.

Semantischer Ansatz

Die andere Möglichkeit beruht auf einem semantischen Ansatz unter Zuhilfenahme von sogenannten Dokumentationssprachen. Beim Vorgang des Indexierens werden dem Text Deskriptoren zugewiesen, die den Inhalt beschreiben und repräsentieren. Diese Deskriptoren sind weitgehend unabhängig von der Formulierung des eigentlich Textes. Der Text wird durch Verwendung eines vordefinierten Vokabulars auf rein semantischer Ebene beschrieben. Zwei klassische Dokumentationssprachen sind Klassifikation und Thesaurus. Bei der Klassifikation wird ein Wissensgebiet nach einem vorgegebenen formalen Schema strukturiert. Dabei werden in der Regel einzelne Dokumente einer solchen Klasse zugewiesen und dadurch repräsentiert. Thesauri sind demgegenüber nach DIN 1463 eine geordnete Zusammenstellung von Begriffen mit ihren (natürlichsprachlichen) Beziehungen. Es wird eine terminologische Kontrolle durch Erfassung von Synonymen und Kennzeichnung von Homographen und Polysemen erreicht. Weiterhin können Beziehungen zwischen einzelnen Begriffen dargestellt werden. Ein weiterer semantischer Repräsentationsansatz sind semantische Netze die in den Bereich Künstliche Intelligenz (KI) fallen. Als Beispiel kann die aus der KI entwickelte Sprache KL-ONE erwähnt werden. KL-ONE bietet ausdrucksstarke Mittel zur Definition von Begriffstaxonomien [Fuhr97].

2.3.1.5 Information Retrieval Modelle

Grundsätzlich lassen sich folgende Information Retrieval Modelle unterscheiden:

- Mengentheoretische Modelle (Boolean-Modell, Fuzzy-Modell)
- Algebraische Modelle (Vektorraum-Modell)
- Dokumenten-Clustering
- Probabilistische Modelle
- Hybrid Modelle (Extended Boolean Modell)

Mengentheoretisches Modell

Unter die mengentheoretischen Modelle fallen das Boolean-Modell und das Fuzzy-Modell. Beim Boolean-Modell werden die Anfragen als boolesche Ausdrücke formuliert. Die Retrievalfunktion liefert eine 1 für zutreffende Dokumente oder eine 0 für nicht zutreffende Dokumente auf die Anfrage zurück. Bei diesem Modell ist es deshalb nicht möglich, eine Rangfolge der zutreffenden Dokumente zu bekommen. Es besteht nicht die Möglichkeit, Terme zu gewichten. Auch die zu erwartende Anzahl der Treffer ist sehr unterschiedlich. Dabei spielt die sehr strenge Trennung zwischen gefundenen und nicht gefundenen Dokumenten eine große Rolle. So werden zum Beispiel bei der Anfrage q = t1  t2  t3  t4 Dokumente, bei denen kein Term gefunden wurde, genauso zurückgewiesen, wie wenn nur t3 nicht gefunden wurde. Ein weiterer Nachteil ist die sehr umständliche Frageformulierung, die teilweise den Benutzer überfordert. Die Retrievalqualität von booleschem Retrieval ist um einiges schlechter als bei den anderen Verfahren.

Das Fuzzy-Modell basiert auf der Fuzzy-Theorie und erlaubt eine teilweise Zugehörigkeit der Terme zu einer bestimmten Menge. Es kann als Weiterentwicklung des Boolean-Modells angesehen werden. Hier ist es möglich, eine gewichtete Indexierung einzusetzen, um dadurch eine Rangordnung der Antwortdokumente zu erhalten. Eine akzeptable Fragetermgewichtung ist noch nicht entwickelt. Auch die umständliche Frageformulierung hat sich nicht geändert. Die Retrievalqualität ist schlechter als bei den nachfolgenden Verfahren.

Algebraisches Modell (Vektorraum-Modell, Vector Space Model)

Im Vektorraum-Modell (VRM) werden Dokumente und Anfragen als Menge von Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch orthogonale und normalisierte Terme der Datenbasis aufgespannt. Dadurch ist eine einfache Retrievalmöglichkeit gegeben, da nur die Dokumenten- und Anfrage-Vektoren auf Ähnlichkeit überprüft werden müssen. Je größer die Ähnlichkeit zweier Vektoren, um so größer ist die Relevanz des gefundenen Dokuments. Zur Ähnlichkeitsüberprüfung wird meist das Skalarprodukt verwendet. Ein weiterer Vorteil liegt in der einfachen Integration von Relevance Feedback zur deutlichen Verbesserung der Retrievalqualität. Dabei wird die entsprechende Relevanz einzelner gefundener Dokumente dazu verwendet, um die Fragevektoren durch Anpassung der Fragetermgewichte zu modifizieren. Dadurch erreicht man eine verbesserte Anfrage und somit steigt die Relevance der gefundenen Dokumente und die Qualität der Suchergebnisse. In Kapitel 4.4 folgt eine nähere Beschreibung des VRM.

Dokumenten-Clustering

Ein Dokumentencluster ist eine Menge von ähnlichen Dokumenten. Bei diesem Verfahren nutzt man die Ähnlichkeit von Dokumenten dazu, um andere Dokumente zu erhalten. Hier wird also nicht wie bei den anderen Verfahren eine explizite Frageformulierung genutzt. Die Dokumentencluster werden unabhängig von Anfragen aufgebaut. Grundlage dieses Verfahrens liefert die Cluster-Hypothese. Durch sie wird bewiesen, daß die Ähnlichkeit relevanter bzw. irrelevanter Dokumente untereinander größer ist, als zwischen zufällig gewählten Teilmengen der Dokumentenkollektion. Es reduziert sich zwar der I/O-Aufwand, aber dafür ist die Retrievalqualität deutlich schlechter als bei anderen Verfahren.

Probabilistisches Modell

Bei diesem Modell wird die Ähnlichkeit und die Relation von Anfragedokumenten berücksichtigt. Dies wird durch Parameter, wie das Gewicht von Anfragetermen und die Form der Ähnlichkeit von Anfragedokumenten realisiert. Die zwei Hauptparameter sind die Wahrscheinlichkeit der Relevanz und der Irrelevanz von Dokumenten in Bezug auf die Anfrage des Anwenders. Ein klassischer Ansatz für probabilistische Modelle basiert auf dem Konzept der Relevanz. Ein einfaches Modell hierzu ist das Binary Independence Retrieval Modell (BIR-Modell). Hier findet eine Beurteilung der Relevanz durch den Nutzer in Bezug auf das gefundene Dokument statt. Die Aufgabe des Systems für Information Retrieval ist es, aufgrund des Relevance Feedbacks eine Annäherung an die Menge der relevanten Dokumente zu erlangen. Das verbessert die Ergebnisqualität der Anfrage. In Abbildung 9 sind einfache Algorithmen zur Berechnung der Auftrittswahrscheinlichkeit eines Terms t für relevante und irrelevante Dokumente (Pr(t|rel) bzw. Pr(t|n-rel)) aufgezeigt. Mit Hilfe dieser Wahrscheinlichkeiten wird bei einer Anfrage das Gewicht Gt eines Terms t ermittelt. Die Gewichte aller in einem Dokument auftretenden Terme werden addiert und ergeben den Retrieval Status Value (RSV). Durch einen Vergleich der RSV’s verschiedener Antwortdokumente, läßt sich eine Rangordnung (Ranking) der relevanten Dokumente erzielen. Weiterführende Betrachtungen über probabilistische Modelle sind bei [Fuhr97, Rijs79] zu finden.

Abbildung in dieser eseprobe nicht enthalten

Abbildung 9: Algorithmus zur Berechnung eines Termgewichts (nach [Fuhr97], verändert)

Hybrid Modell (Extended Boolean Modell)

Wie im Vektorraum-Modell, wird ein Dokument als Vektor in einem Vektorraum repräsentiert. Der Vektorraum ist durch eine Menge von orthogonalen Term-Vektoren aufgespannt. Das Extended Boolean Modell mißt die Ähnlichkeit von Anfragedokumenten durch ein generalisiertes Skalarprodukt zwischen dem korrespondierenden Vektor und dem Dokumentenraum. Die generalisierten Boolean-Operatoren OR und AND sind für das p- norm-Modell definiert. Eine Anfrage wird durch Verwendung berechneter Werte für p entsprechend der Ähnlichkeit von Anfragedokumenten (1  p  ) anders interpretiert. Beträgt p=1, so verschwinden die Unterschiede zwischen den Operatoren OR und AND wie beim Vektorraum-Modell. Wenn die Anfrageterme alle gleich gewichtet sind und p=, erfolgt die Interpretation der Anfrage entsprechend des Fuzzy-Modells. Sind die Anfrageterme nicht gewichtet und p=, so gleicht das p-norm-Modell dem Boolean-Modell.

Nähere Informationen zu dem großen Themengebiet des Information Retrievals sind bei [Fuhr97, Gaus95, GRGK97, Rijs79] zu finden.

2.3.2 Informationsfilterung

Eine Abgrenzung zwischen Informationsfilterung und Information Retrieval kann laut [BC92, FD92, HFDO92] auf einige elementare Unterschiede zurückgeführt werden:

- Im Gegensatz zum Information Retrieval liegt bei einem Informationsfilterungs-Prozeß ein relativ statisches Langzeitinteresse oder Langzeitziel bezüglich der für den Anwender relevanten Information vor. Dieses Langzeitinteresse wird durch Anwenderpräferenzen (Nutzerprofile) repräsentiert. Bei Information Retrieval ist das aufgrund des dynamischen Interesses und den sehr unterschiedlichen Anwenderanfragen nicht nötig bzw. nicht möglich.
- Beim Information Retrieval hängt die Qualität der Suchergebnisse stark von einer guten und korrekten Anfrageformulierung ab. Also von einer guten Repräsentation der benötigten Information. Dieses Problem wird bei der Informationsfilterung durch die Verwendung von Nutzerprofilen abgeschwächt. Da hier die Nutzerinteressen sehr genau spezifiziert vorliegen.
- Während das Information Retrieval typischerweise mit der Sammlung, Organisation und Suche von Dokumenten beschäftigt ist, werden bei der Informationsfilterung Dokumente auf einzelne Personen oder Gruppen verteilt.
- Werden die Prozesse für das Information Retrieval und für die Informationsfilterung in Bezug auf die Verfahren des Informationszugriffes näher betrachtet, so kann eine Zuordnung zu der Push- bzw. Pull-Strategie aus Kapitel 2.2 erfolgen. Beim Information Retrieval muß der Anwender aktiv eine gezielte Anfrage an das System stellen. Somit kann das Information Retrieval der Pull-Strategie zugeordnet werden. Dahingegen übernimmt bei der Informationsfilterung das System durch ein Nutzerprofil die Auswahl bzw. Suche der gewünschten Information und liefert dem Anwender das relevante Ergebnis automatisch. Im Idealfall arbeitet ein System zur Informationsfilterung also nach der Push-Zugriffsstrategie ohne zusätzliches Einwirken des Anwenders (siehe auch Abbildung 6).
- Das Informationsangebot kann bei der Informationsfilterung sehr dynamisch vorliegen, wie zum Beispiel neu veröffentlichte Dokumente und Journale. Betrachtet man das Information Retrieval, so wird die Information typischerweise aus relativ statischen Datenbasen selektiert und die Suche ist nicht auf neue Information beschränkt. Tabelle 3 zeigt einige unterschiedliche Suchprozesse für Information entsprechend dem auftretenden Informationsbedarfs und der Art der Informationsquelle.

Abbildung in dieser eseprobe nicht enthalten

Tabelle 3: Beispiele von Suchprozessen für Information (nach [OM96], verändert)

Da bei unterschiedlichen Nutzern oder Nutzergruppen die Informationspräferenzen sehr stark variieren, müssen die Systeme zur Informationsfilterung die persönlichen und individuellen Interessen der Nutzer berücksichtigen. Es wird daher auch von der personalisierten Informationsfilterung gesprochen. An ein System zur personalisierten Informationsfilterung werden deshalb verschiedene Anforderungen gestellt. Es müssen die spezifischen Interessen des einzelnen Nutzers in Nutzerprofile modelliert werden, um die relevante Information zu selektieren und zu präsentieren. Auch wenn bei der Informationsfilterung von einem Langzeitinteresse des Benutzers ausgegangen werden kann, müssen solche Systeme auch adaptionsfähig sein, da sich Interessen im Laufe der Zeit ändern können. Diese Änderung der Nutzerinteressen muß vom System erkannt werden um dann das Nutzerprofil anzupassen und auf die neuen Gegebenheiten einzustellen. Das verlangt nach einem intelligenten und lernfähigen System. Weiterhin muß das System zur Informationsfilterung fähig sein, neue Informationsquellen zu erschließen und zu untersuchen. Dadurch kann dem Nutzer neue relevante Information angeboten werden und unter Umständen die Trefferqualität erhöht werden. Eine Expansion in Bezug auf die Informationsquellen ist vor allem auch notwendig, wenn sich die Interessen des Nutzers ändern bzw. erweitern, da das System meist nur so relevante Information anbieten kann.

Die Entwicklung eines Systems für die Informationsfilterung kann auf den bestehenden Forschungen des Information Retrievals und der Nutzermodellierung aufsetzen. Die Beschreibung, welche Information für einen Anwender interessant ist, wird meist in Nutzerprofilen abgelegt. Es gibt viele Möglichkeiten, um ein adäquate persönliche Präferenz eines Nutzers zu erhalten. Zu Problemen führen die vielen Variationen von Faktoren, die für die Beschreibung der Anwenderinteressen herangezogen werden können. Eine nähere Betrachtung der Beschreibungstechniken für Nutzerprofile sind in Kapitel 4 zu finden.

Grundsätzlich lassen sich drei wichtige Ansätze für die Informationsfilterung unterscheiden. Dazu gehören die inhaltsbasierte Filterung (Content-Based Filtering), die soziale bzw. kollaborative Filterung (Social Filtering) und die ökonomische Filterung (Economic Filtering). Diese Konzepte werden nachfolgend näher beschrieben.

Inhaltsbasierte Filterung (Content-Based Filtering)

Inhaltsbasierte Systeme sind in der Entwicklung am weitesten fortgeschritten, da sie bereits auf den Ansatz von Luhn zurückgehen [Luhn58]. Für jeden einzelnen Anwender wird eine unabhängige Informationsfilterung durchgeführt. Wie der Name inhaltsbasierte Filterung schon ausdrückt, können nur Informationen zur Dokumentenrepräsentation genutzt werden, die im Dokument direkt enthalten sind oder abgeleitet werden können. Typischerweise wird die auftretende Termhäufigkeit in einem Dokument zu dessen Relevanzpräsentation herangezogen. Dies liegt in der Verhaltensweise von Autoren begründet, da diese die natürliche Tendenz besitzen, bei der Ausarbeitung des zentralen Themas, wichtige Wörter (Terme) häufig zu wiederholen. In Abbildung 10 ist der Zusammenhang zwischen der Termfrequenz und der Ergebnisqualität zu sehen. Durch das Heranziehen der Termfrequenz läßt sich somit eine recht gute inhaltliche und semantische Repräsentation erreichen. Stoppworte (unwichtige, häufig verwendete Wörter; Füllworte) werden dabei nicht berücksichtigt, da sie keinen Beitrag zur Repräsentation bieten können. Beispiele für inhaltsbasierte Filterung sind die Systeme SIFT, InfoScope und NIST.

Abbildung in dieser eseprobe nicht enthalten

Abbildung 10: Zusammenhang zwischen der Ergebnisqualität und der Termfrequenz (nach [CH98], verändert)

Soziale bzw. kollaborative Filterung (Social Filtering)

Bei der kollaborativen Filterung findet die Informationsfilterung in Abhängigkeit zu anderen Anwendern statt. Optional kann die Relevanz der einzelnen präsentierten Dokumente durch den Anwender bewertet werden. Die Nutzerprofile der verschiedenen Anwender stehen in Korrelation zueinander. Somit wird ermöglicht, daß Anwendern mit ähnlichem Interesse, die gleichen Dokumente angeboten werden. Experimente mit mehreren Systemen für die soziale Filterung haben gezeigt, daß eine kritische Masse von Anwendern mit ähnlichem Interesse vorhanden sein muß, um ein effizientes Arbeiten zu ermöglichen [OM96]. Die Systeme Tapestry und GroupLens sind Beispiele für soziale Filterung.

Ökonomische Filterung (Economic Filtering)

Kommerzielle Systeme zur Informationsfilterung sind vor einiger Zeit auf dem Markt erschienen. Solche Systeme bieten Information an und verlangen dafür ein gewisses Entgelt. Die Selektion der relevanten Information erfolgt auf Grund von Berechnungen des KostenNutzen-Faktors für den Anwender und entsprechend einiger Preismechanismen. Als Beispiel ist hier das System First! zu nennen [Shet94]. Weiterhin sind für die ökonomische Filterung Dokumentenlieferdienste wie SUBITO mögliche Einsatzgebiete.

Systeme für Informationsfilterung und Information Retrieval lassen sich in drei Teilprozesse untergliedern (Abbildung 11). Zunächst werden Informationsquellen gefunden und gesammelt. Dynamische Information kann aktiv z.B. durch autonome Software-Agenten über das WWW gesammelt werden. In einem zweiten Schritt erfolgt die Selektion der relevanten Information entsprechend der Anwenderanfrage. In diesem Modul wird die Basis gelegt, um eine Rangordnung (Ranking-Liste) zu ermöglichen. Das Selektionsmodul weist jedem Dokument ein oder mehrere Parameter zu, welche das Präsentationsmodul nutzt, um die Präsentation zu organisieren. Dadurch präsentiert der letzte Teilprozeß dem Anwender die selektierten relevanten Information entsprechend einer Rangordnung. Zwischen den Modulen der Selektion und der Präsentation besteht ein fließender Übergang.

Abbildung in dieser eseprobe nicht enthalten

Abbildung 11: Prozeß für die Informationsfilterung (nach [OM96], verändert)

Jedes Verfahren zur Textselektion besteht aus vier Grundkomponenten [OM96]:

- Techniken zur Repräsentation der Dokumente
- Techniken für die Repräsentation des Informationsbedarfs (Nutzerprofilerstellung)
- Techniken zum Vergleich des Nutzerprofils mit der Dokumentenrepräsentation
- Techniken um die Ergebnisse des Vergleichs zu benutzen

Die letzte Komponente muß streng genommen, entsprechend der Abbildung 11, dem Prozeß der Präsentation zugeordnet werden. Zwischen dem Prozeß der Selektion und der Präsentation besteht jedoch eine sehr enge Kopplung. Abbildung 12 zeigt ein Modell zur Dokumentenfilterung. Aus den Interessen des Anwenders entsteht ein gewisser Informationsbedarf. Daraus wird durch eine Funktion p zur Profilakquisition ein Nutzerprofil erstellt. Auf der anderen Seite werden die einzelnen Dokumente durch eine Funktion d repräsentiert. Durch Vergleich des Nutzerprofils und der Repräsentation der Dokumente werden die relevanten Dokumente selektiert. Aufgrund des Informationsbedarfs und der selektierten Dokumente kann der Anwender eine Bewertung der Informationsfilterung durchführen. Diese Bewertung kann für das Relevance Feedback herangezogen werden. Dabei wird das Nutzerprofil aufgrund der angestellten Bewertung angepaßt und somit zur Verbesserung der Informationsfilterung genutzt. Je mehr sich das Ergebnis einer automatischen Informationsfilterung dem Ergebnis einer persönlichen manuellen Filterung ähnelt, desto besser ist die Qualität des automatischen Systems. Der Informationsbedarf des Anwenders kann so optimal gedeckt werden. Zur Repräsentation kann Information aus der inhaltsbasierten und der kollaborativen Filterung herangezogen werden. Weiterhin ist eine Verwendung von syntaktischer und semantischer Information aus den einzelnen Dokumenten möglich. Zum Einsatz kommen die beim Information Retrieval entwickelten Modelle, wie im Kapitel 2.3.1.5 beschrieben. Diese verwenden unterschiedliche Verfahren zur Repräsentation der Dokumente und entsprechende Vergleichsfunktionen c, um auch eine Rangordnung der

Abbildung in dieser eseprobe nicht enthalten

Abbildung 12: Modell eines Systems zur Dokumentenfilterung (nach [OM96], verändert)

2.4 Software-Agenten

Dem Nutzer soll die mühsame und zeitraubende Arbeit der Suche nach relevanter Information erleichtert werden. Einen solchen innovativen Ansatz liefert die Technologie von intelligenten Softwareagenten. Während gewöhnliche Anwendungen maschinengleich nach einem vorgegebenen Schema Aufträge abarbeiten, bieten intelligente Agenten fast menschliche Qualitäten. Sie kennen ihr Arbeitsumfeld und behalten ständig das Geschehen darin im Auge. Durch ihre Kenntnis und ihr Beobachtungsvermögen sind sie in der Lage autonom maßgeschneiderte Pläne zu entwerfen, um ihre Aufgaben optimal zu erledigen. Bei Bedarf koordinieren und kommunizieren sie auch mit ihresgleichen und delegieren Aufgaben weiter. Auch wenn etwas unvorhergesehenes auftritt, reagieren sie flexibel darauf. Gerade in der Informationssuche (Information Retrieval, Informationsfilterung) im Internet bringen intelligente, mobile Agenten dem Benutzer enorme Vorteile. Agenten werden ausgesendet und liefern in angemessener Zeit das Ergebnis ihrer Recherche zurück. Informationsfilteragenten sammeln alle aktuellen Artikel zu dem gewünschten Thema und stellen dem Anwender die wesentlichen Inhalte zur Verfügung. Diese Agenten suchen die Information aus verschiedenen Quellen, wie z.B. WWW-Seiten oder Nachrichtenbereiche usw. zusammen. Sie Filtern diese Information auf der Basis der persönlichen Präferenzen des Nutzers und übergeben die gefilterten Inhalte aufbereitet an den Nutzer. Typischerweise werden diese Inhalte in einer WWW-Seite oder E-Mail-Nachricht weitergegeben.

Eine einheitliche Definition für intelligente Software-Agenten hat sich bisher noch nicht durchgesetzt. Bei einer Betrachtung aus unterschiedlichen Gebieten, wie zum Beispiel der Künstlichen Intelligenz (KI), der verteilten Künstlichen Intelligenz (VKI), der Informationstechnik und der Kommunikationstechnik lassen sich andere Schwerpunkte erkennen. Aus dem Bereich der Informatik stammt eine akzeptierte Definition von [BZW98], die wie folgt lautet:

„ Als intelligenten Software-Agenten bezeichnet man ein Softwareprogramm, das für einen Nutzer bestimmte Aufgaben erledigen kann und dabei einen Grad an Intelligenz besitzt, der es befähigt, seine Aufgaben in Teilen autonom durchzuführen und mit seiner Umwelt auf sinnvolle Art und Weise zu interagieren. “

Bereits in der Mitte der 1950er Jahre hatte John McCarthy vom Massachusetts Institute of Technology (MIT) die Vision von intelligenten SW-Agenten die als „soft robots“ bezeichnet wurden [Kay84]. Der Begriff Agent wurde erst einige Jahre später von Oliver G. Selfridge, der auch am MIT tätig ist, geprägt und hat sich erst viel später etabliert [Kay84]. Laut [Maes94] ändern intelligente Software Agenten die gegenwärtigen Erfahrungen und Handlungsweisen der Nutzer radikal, da sie entsprechend der Metapher eines Agenten als persönlicher Assistent agieren und somit den Nutzer unterstützen und entlasten. Intelligente Software-Agenten besitzen unterschiedliche Charakteristika, die ihre Aufgaben, Eigenschaften und Funktionsweise näher beschreiben. Durch diese charakteristischen Eigenschaften lassen sich intelligente SW-Agenten von herkömmlichen Softwareprogrammen unterscheiden und abgrenzen. Im folgenden sind die wichtigsten Charakteristika intelligenter SW-Agenten aufgeführt [BZW98, FG96, EW95]:

- Intelligenz

Um seine Aufgabe zu erfüllen benötigt der SW-Agent einen gewissen Grad an Intelligenz. Erst die Intelligenz ermöglicht es einem SW-Agenten, seine Aufgabe weitestgehend autonom zu bearbeiten, um nur bei wichtigen Entscheidungen den Benutzer heranzuziehen. Das verspricht eine starke Zeitersparnis für den Nutzer. Die Intelligenz eines SW-Agenten setzt sich aus der internen Wissensbasis, der Fähigkeit, Schlußfolgerungen (basierend auf den Inhalten der Wissensbasis) zu ziehen und der Fähigkeit zu lernen zusammen.

- Reaktivität

Der SW-Agent muß in der Lage sein, auf Einflüsse oder Informationen aus seiner Umwelt in angemessener Weise zu reagieren. Die Reaktivität gehört zu den elementaren Anforderungen an einen SW-Agenten. Um auf seine Umwelt reagieren zu können, benötigt der SW-Agent entweder geeignete Sensoren (reaktiver Agent), oder ein internes Modell (deliberativer Agent), das seine Umwelt nachbildet.

- Proaktivität und Zielorientiertheit

Die Proaktivität befindet sich eine Stufe über der Reaktivität. Der SW-Agent reagiert nicht nur auf Veränderungen in seiner Umwelt, sondern er ergreift in bestimmten Situationen selbständig die Initiative. Die Zielorientiertheit ist sehr eng mit der Proaktivität verknüpft, da eine selbständige Initiative nur durch Vorgabe wohldefinierter Ziele oder sogar komplexer Zielsysteme möglich ist. Für einen SW- Agenten macht es nur Sinn, aktiv auf seine Umgebung einzuwirken, wenn er seine eigenen Ziele verfolgen kann. Je genauer die Ziele bzw. Teilziele formuliert wurden, desto gründlicher kann der SW-Agent seiner Aufgabe nachkommen.

[...]


1 Personal Computer wird hier nicht als Produktname der IBM PC´s verwendet, sondern als Bedeutung des Begriffes selbst, als Persönlicher Computer. Hierunter fallen außer IBM PC´s auch Apple MAC usw.

2 Anstatt indexieren müßte es im Deutschen eigentlich deskribieren oder indizieren heißen. In Anlehnung an den englischen Fachausdruck indexing hat sich jedoch die Bezeichnung indexieren durchgesetzt [Gaus95].

Ende der Leseprobe aus 125 Seiten

Details

Titel
Modellierung und Auswertung von Nutzerprofilen zur personalisierten Informationsfilterung und -aufbereitung
Hochschule
Otto-von-Guericke-Universität Magdeburg
Note
0
Autor
Jahr
1999
Seiten
125
Katalognummer
V185364
ISBN (eBook)
9783656999980
ISBN (Buch)
9783867462945
Dateigröße
1668 KB
Sprache
Deutsch
Schlagworte
modellierung, auswertung, nutzerprofilen, informationsfilterung
Arbeit zitieren
Bernd Reiner (Autor:in), 1999, Modellierung und Auswertung von Nutzerprofilen zur personalisierten Informationsfilterung und -aufbereitung, München, GRIN Verlag, https://www.grin.com/document/185364

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Modellierung und Auswertung von Nutzerprofilen zur personalisierten Informationsfilterung und -aufbereitung



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden