Home Zeitschrift 2005/10 Next Index
 

 
 
 

 

Text Mining

Erklärungen und Anwendungsmöglichkeiten
 
 

Erklärungen

Große Mengen von textueller Information sind heutzutage elektronisch zugreifbar - man denke nur an das Internet oder auch Intranets, die in vielen Unternehmen den großen Teil der gespeicherten Informationen ausmachen.

Text-Mining hat zum Ziel, diese reichen Quellen von Informationen der maschinellen inhaltlichen Analyse zugänglich zu machen.

Ähnlich wie Data-Mining die Analyse strukturierter und numerischer Daten bezeichnet, beschreibt der Begriff des Text-Mining eine Menge von Methoden zur (halb-) automatischen Auswertung großer Mengen natürlichsprachlicher Texte. 

Es beinhaltet z. B. 

  • die Organisation von Textdatenbanken,
  • ihre Zusammenfassung   und 
  • explorative Analyse. 
Ziel ist nicht die umfassende und exakte semantische Analyse eines Textes, sondern partielle und robust handhabbare Auswertungen in Hinblick auf spezielle Aufgabenstellungen. 

Text-Mining ist ein multidisziplinäres Forschungsgebiet mit Einflüssen aus der Computerlinguistik, dem maschinellen Lernen, dem Information Retrieval und der Statistik.
 

aus
Zeitschrift KI, dem Organ des Fachbereichs 1
"Künstliche Intelligenz"
der Gesellschaft für Informatik e.V. (GI)
(ISSN 0933-1875)

 

Anwendungsmöglichkeiten

Die Textsuche bezieht sich auf die automatische Datenextraktion von verschiedenen archivierten Quellen mit dem Ziel, neue oder bisher unbekannte Informationen innerhalb von unstrukturierten Textdaten zu finden. Diese extrahierten Informationen werden in Beziehung zueinander gesetzt, um neue Fakten zu schaffen oder logische Verbindungen herzustellen. Eine umfassende Untersuchung wird durch den Einsatz von hochentwickelter Technologie ermöglicht zur 

  • Visualisierung, 
  • Ermittlung und 
  • Offenlegung. 
Mit der Hilfe von innovativen Visualisierungstools können Schlüsselinformationen leichter gefunden und bearbeitet werden. Dies bedeutet, dass die Visualisierung die gleichzeitige Anzeige von relevanten Informationen und deren wechselseitigen Beziehungen im jeweiligen Kontext ermöglicht. Anwender können mit fortschrittlichen Visualisierungstools große Datenbestände in ihrer Gesamtheit analysieren. 

Visualisierung beruht auf erkennbaren Strukturen, die in komplexen Datenbeständen nicht immer vorhanden sind. Da eine manuelle Strukturierung zeitaufwändig und kostenintensiv ist, braucht der Anwender effiziente Strukturierungstools. Daher hat u.a. die Firma ZyLAB verschiedene Tools für die manuelle Strukturierung entwickelt und diese in ihre Standardprodukte integriert. Diese Textsuchetools sind (halb-)automatische Werkzeuge, die den Prozess der Strukturierung unstrukturierter Daten weiter voranbringt. 
 

Arten der Textsuche

  • Extraktion von Dateieigenschaften
  • Extraktion von Dokumenteigenschaften
  • Konzeptextraktion
  • Automatische Spracherkennung 
  • Hashing-Funktionen für eindeutige Dokumentidentifizierung (basierend auf SHA1)
und erweiterte Funktionen wie:
  • Einheitenfilterung
  • Faktenfilterung
  • Zusammenfassung
  • Dokumentkategorisierung
  • Automatische Taxonomie-Generierung (ATG).
weitere Informationen
ZyLAB Deutschland,
Düsseldorf
Zum Seitenanfang
 

© ADOLPH Verlag GmbH - Letztes Update 11.11.2005