view · edit · sidebar · attach · print · history

Das Vorgehen von InfoCodex bei der Textanalyse

Schritt 1: Konversion/ Extraktion Metadaten

InfoCodex macht z.B. aus dem PDF File ein temporäres Textfile mit pdf2txt. Gleichzeitig werden die Metadaten soweit wie möglich extrahiert (Autor, Titel, Dokument-Datum, File-Typ, Prozentsatz der Graphiken im Dokument etc.)

Schritt 2: Text-Mining

Die Sätze in den konvertierten Textfiles werden erkannt (Komma, Punkt, Doppelpunkt etc.). Es werden alle Wörter identifiziert und mit den Einträgen in der linguistischen Datenbank (2.7 Mio Einträge) abgeglichen, nötigenfalls unter Zuhilfenahme einer sprachabhängigen lexikalischen Analyse (Endungen wie "s", "en" etc.). Gleichzeitig wird mittels CWR ("Collocated Word Recognition") untersucht, ob aufeinanderfolgende Wörter einem Begriff entsprechen, der in der Datenbank vorhanden ist. Beispiel: Die Wörterfolge "European Court of Justice" wird als Begriff erkannt und wird nicht als vier einzelne Wörter "European", "Court", "of" und "Justice" gehandhabt.

In der Text-Mining Phase werden für alle Wörter bzw. zusammengesetzten Begriffe die Wortart (Name, Hauptwort, Verb etc.), die Signifikanz, die Sprache, die Synonymgruppe und der Link auf den Taxonomiebaum aus der linguistischen Datenbank geholt und für die spätere Verarbeitung festgehalten. Parallel dazu erfolgt die Spracherkennung für den bearbeiteten Textblock.

Schritt 3: Konstruktion des 100-dimensionalen Inhaltsraumes

Die kumulierten Häufigkeiten, mit denen die einzelnen Knoten im Taxonomiebaum durch die Texte aus allen Dokumenten angesprochen werden, ergeben ein Bild über die thematischen Schwergewichte in der Dokumenten-Kollektion. Mit einer Cluster-Analyse wird nun ein 100-dimensionaler Inhaltsraum konstruiert, welcher die Inhalte der effektiv vorliegenden Dokumente möglichst gut wiedergeben kann. Dabei werden auch die Entropien ("Ungewissheiten" der verschiedenen Wörter / Begriffe) berechnet und verwendet.

Schritt 4: Projektion der Dokumente auf 100-dimensionale Vektoren

Die unter Schritt 2 gesammelten Informationen werden unter Verwendung der berechneten Entropien dazu verwendet, um jedes einzelne Text-Dokument auf den unter Schritt 3 konstruierten Inhaltsraum zu projizieren. Jedes Dokument wird in einen 100 dimensionalen Vektor mit 20 Deskriptoren verwandelt.

Schritt 5: Kohonen Map

Die Vektoren bilden den Input für das selbstorganisierende Neuronale Netz (Kohonen-Map). Dieses Modell besorgt nun die logische Anordnung der Dokumente in einer Informations-Landkarte: Ermittlung einer Ordnung nach thematischen Gesichtspunkten und Einordnen der einzelnen Dokumente in die Informations-Landkarte. Gleichzeitig wird das Ähnlichkeitsmass für den inhaltlichen Vergleich von Dokumenten ermittelt.

Schritt 6: Verschlagwortung

Hier erfolgen schliesslich die Bildung von Deskriptoren (Verschlagwortung der Dokumente), die Identifikation von Dokumentenfamilien (fast gleiche Dokumente) und die automatische Generierung von Abstracts. ====

Kunden von InfoCodex

Siemens Building Technologies
Swiss Re
Sogei - IT Departement des Italienischen Finanzministeriums
Agro Scope
Schweizerische Normenvereinigung

Take Home Messages

InfoCodex muss im Gegensatz zur Konkurrenz nicht trainiert werden.
InfoCodex findet sprachübergreifend ähnliche Dokumente und gruppiert diese in Dokumentenfamilien.
Gartner: Google enterprise search has its limits
Enterprise Search gets lost by Marc Strohlein.

ywesee GmbH - the need to Share!