view · edit · sidebar · attach · print · history

Ywesee.InfoCodexVorgehen History

Hide minor edits - Show changes to markup

June 15, 2006, at 06:07 PM by 84.72.155.224 -
Changed lines 15-16 from:

Die unter Schritt 2 gesammelten Informationen werden unter Verwendung der berechneten Entropien dazu verwendet, um jedes einzelne Text-Dokument auf den unter Schritt 3 konstruierten Inhaltsraum zu projizieren.

to:

Die unter Schritt 2 gesammelten Informationen werden unter Verwendung der berechneten Entropien dazu verwendet, um jedes einzelne Text-Dokument auf den unter Schritt 3 konstruierten Inhaltsraum zu projizieren. Jedes Dokument wird in einen 100 dimensionalen Vektor mit 20 Deskriptoren verwandelt.

June 15, 2006, at 02:51 PM by 84.72.155.224 -
Changed line 33 from:
  • Enterprise Search gets lost
to:
  • Enterprise Search gets lost by Marc Strohlein.
June 15, 2006, at 02:48 PM by 84.72.155.224 -
Added line 31:
  • InfoCodex findet sprachübergreifend ähnliche Dokumente und gruppiert diese in Dokumentenfamilien.
Changed line 33 from:
  • InfoCodex findet sprachübergreifend ähnliche Dokumente und gruppiert diese in Dokumentenfamilien.
to:
  • Enterprise Search gets lost
June 15, 2006, at 11:29 AM by 84.72.155.224 -
Changed line 22 from:
to:
June 15, 2006, at 11:29 AM by 84.72.155.224 -
Changed lines 31-32 from:
  • Gartner: Google enterprise search has its limits
to:
  • Gartner: Google enterprise search has its limits
  • InfoCodex findet sprachübergreifend ähnliche Dokumente und gruppiert diese in Dokumentenfamilien.
June 15, 2006, at 11:17 AM by 84.72.155.224 -
Changed lines 29-30 from:
 InfoCodex muss im Gegensatz zur Konkurrenz nicht trainiert werden.
 Gartner: Google enterprise search has its limits
to:

Take Home Messages

  • InfoCodex muss im Gegensatz zur Konkurrenz nicht trainiert werden.
  • Gartner: Google enterprise search has its limits
June 15, 2006, at 11:16 AM by 84.72.155.224 -
Changed lines 29-30 from:
 InfoCodex muss im Gegensatz zur Konkurrenz nicht trainiert werden.
to:
 InfoCodex muss im Gegensatz zur Konkurrenz nicht trainiert werden.
 Gartner: Google enterprise search has its limits
June 15, 2006, at 10:57 AM by 84.72.155.224 -
Deleted line 23:
 InfoCodex muss im Gegensatz zur Konkurrenz nicht trainiert werden.
Changed lines 28-29 from:
  • Schweizerische Normenvereinigung
to:
  • Schweizerische Normenvereinigung
 InfoCodex muss im Gegensatz zur Konkurrenz nicht trainiert werden.
June 15, 2006, at 10:56 AM by 84.72.155.224 -
Changed line 24 from:
  • InfoCodex muss im Gegensatz zur Konkurrenz nicht trainiert werden.
to:
 InfoCodex muss im Gegensatz zur Konkurrenz nicht trainiert werden.
June 15, 2006, at 10:56 AM by 84.72.155.224 -
Added line 24:
  • InfoCodex muss im Gegensatz zur Konkurrenz nicht trainiert werden.
June 15, 2006, at 10:20 AM by 84.72.155.224 -
Changed line 25 from:
  • SwissRe
to:
  • Swiss Re
Changed line 27 from:
  • AgroScope
to:
  • Agro Scope
June 15, 2006, at 10:19 AM by 84.72.155.224 -
Changed lines 21-28 from:

Hier erfolgen schliesslich die Bildung von Deskriptoren (Verschlagwortung der Dokumente), die Identifikation von Dokumentenfamilien (fast gleiche Dokumente) und die automatische Generierung von Abstracts.

to:

Hier erfolgen schliesslich die Bildung von Deskriptoren (Verschlagwortung der Dokumente), die Identifikation von Dokumentenfamilien (fast gleiche Dokumente) und die automatische Generierung von Abstracts.

Kunden von InfoCodex

  • Siemens Building Technologies
  • SwissRe
  • Sogei - IT Departement des Italienischen Finanzministeriums
  • AgroScope
  • Schweizerische Normenvereinigung
June 14, 2006, at 06:48 PM by 84.72.155.224 -
Changed lines 9-10 from:

In der Text-Mining Phase werden für alle Wörter bzw. zusammmengesetzten Begriffe die Wortart (Name, Hauptwort, Verb etc.), die Signifikanz, die Sprache, die Synonymgruppe und der Link auf den Taxonomiebaum aus der linguistischen Datenbank geholt und für die spätere Verarbeitung festgehalten. Parallel dazu erfolgt die Spracherkennung für den bearbeiteten Textblock.

to:

In der Text-Mining Phase werden für alle Wörter bzw. zusammengesetzten Begriffe die Wortart (Name, Hauptwort, Verb etc.), die Signifikanz, die Sprache, die Synonymgruppe und der Link auf den Taxonomiebaum aus der linguistischen Datenbank geholt und für die spätere Verarbeitung festgehalten. Parallel dazu erfolgt die Spracherkennung für den bearbeiteten Textblock.

Changed lines 18-19 from:

Die Vektoren bilden den Input für das selbstorganisierende Neuronale Netz (Kohonen-Map). Dieses Modell besorgt nun die logische Anordnung der Dokumente in einer Informations-Landkarte: Ermittlung einer Ordnung nach thematischen Gesichtspunkten und Einordnen der einzelenen Dokumente in die Informations-Landkarte. Gleichzeitig wird das Ähnlichkeitsmass für den inhaltlichen Vergleich von Dokumenten ermittelt.

to:

Die Vektoren bilden den Input für das selbstorganisierende Neuronale Netz (Kohonen-Map). Dieses Modell besorgt nun die logische Anordnung der Dokumente in einer Informations-Landkarte: Ermittlung einer Ordnung nach thematischen Gesichtspunkten und Einordnen der einzelnen Dokumente in die Informations-Landkarte. Gleichzeitig wird das Ähnlichkeitsmass für den inhaltlichen Vergleich von Dokumenten ermittelt.

June 13, 2006, at 11:21 AM by 84.72.154.82 -
Changed lines 18-19 from:

Die Vektoren bilden den Input für das selbstorganisierende Neuronale Netz (Kohonen-Map). Diese Modell besorgt nun die logische Anordnung der Dokumente in einer Informations-Landkarte: Ermittlung einer Ordnung nach thematischen Gesichtspunkten und Einordnen der einzelenen Dokumente in die Informations-Landkarte. Gleichzeitig wird das Ähnlichkeitsmass für den inhaltlichen Vergleich von Dokumenten ermittelt.

to:

Die Vektoren bilden den Input für das selbstorganisierende Neuronale Netz (Kohonen-Map). Dieses Modell besorgt nun die logische Anordnung der Dokumente in einer Informations-Landkarte: Ermittlung einer Ordnung nach thematischen Gesichtspunkten und Einordnen der einzelenen Dokumente in die Informations-Landkarte. Gleichzeitig wird das Ähnlichkeitsmass für den inhaltlichen Vergleich von Dokumenten ermittelt.

June 13, 2006, at 08:44 AM by 84.72.154.82 -
Changed lines 18-19 from:

Die Vektoren bilden den Input für das selbstorganisierende Neuronale Netz (Kohonen-Map). Diese Modell besorgt nun die logische Anordnung der Dokumente in einer Informations-Landkarte: Ermittlung einer Ordnung nach thematischen Gesichtspunkten und Eindorden der einzelenen Dokumente in die Informations-Landkarte. Gleichzeitig wird das Ähnlichkeitsmass für den inhaltlichen Vergleich von Dokumenten ermittelt.

to:

Die Vektoren bilden den Input für das selbstorganisierende Neuronale Netz (Kohonen-Map). Diese Modell besorgt nun die logische Anordnung der Dokumente in einer Informations-Landkarte: Ermittlung einer Ordnung nach thematischen Gesichtspunkten und Einordnen der einzelenen Dokumente in die Informations-Landkarte. Gleichzeitig wird das Ähnlichkeitsmass für den inhaltlichen Vergleich von Dokumenten ermittelt.

June 09, 2006, at 11:01 PM by 84.72.154.82 -
Changed lines 9-10 from:

In der Text-Mining Phase werden für alle Wörter bzw. zusammmengesetzten Begriffe die Wortart (Name, Hauptwort, Verb etc.), die Signifikanz, die Sprache, die Synonymgruppe und der Link auf den Taxonomiebaum aus der liguistischen Datenbank geholt und für die spätere Verarbeitung festgehalten. Parallel dazu erfolgt die Spracherkennung für den bearbeiteten Textblock.

to:

In der Text-Mining Phase werden für alle Wörter bzw. zusammmengesetzten Begriffe die Wortart (Name, Hauptwort, Verb etc.), die Signifikanz, die Sprache, die Synonymgruppe und der Link auf den Taxonomiebaum aus der linguistischen Datenbank geholt und für die spätere Verarbeitung festgehalten. Parallel dazu erfolgt die Spracherkennung für den bearbeiteten Textblock.

June 09, 2006, at 08:16 PM by 84.72.154.82 -
Changed lines 4-5 from:

InfoCodex macht z.B. aus dem PDF File ein temporäres Textfile. Gleichzeitig werden die Metadaten soweit wie möglich extrahiert (Autor, Titel, Dokument-Datum, File-Typ, Prozentsatz der Graphiken im Dokument etc.)

to:

InfoCodex macht z.B. aus dem PDF File ein temporäres Textfile mit pdf2txt. Gleichzeitig werden die Metadaten soweit wie möglich extrahiert (Autor, Titel, Dokument-Datum, File-Typ, Prozentsatz der Graphiken im Dokument etc.)

Changed lines 7-10 from:

Die Sätze des in den konvertierten Textfiles werden erkannt (Komma, Punkt, Doppelpunkt etc.). Es werden alle Wörter identifiziert und mit den Einträgen in der liguistischen Datenbank abgeglichen, nötigenfalls unter Zuhilfenahme einer sprachabhängigen lexikalischen Analyse (Endungen wie "s", "en" etc.). Gleichzeitig wird mittels CWR ("collocated word recognition") untersucht, ob aufeinanderfolgende Wörter einem Begriff entsprechen, der in der Datenbank vorhanden ist. Beispiel: Die Wörterfolge "European Court of Justice" wird als Begriff erkannt und wird nicht als vier einzelne Wörter "European", "Court", "of" und "Justice" gehandhabt.

In der Text-Mining Phase werden für alle Wörter bzw. zusammmengesetzten Begriffe die Wortart (Name, Hauptwort, Verb etc.), die Signizikanz, die Sprache, die Synonymgruppe und der Link auf den Taxonomiebaum aus der liguistischen Datenbank geholt und für die spätere Verarbeitung festgehalten. Parallel dazu erfolgt die Spracherkennung für den bearbeiteten Textblock.

to:

Die Sätze in den konvertierten Textfiles werden erkannt (Komma, Punkt, Doppelpunkt etc.). Es werden alle Wörter identifiziert und mit den Einträgen in der linguistischen Datenbank (2.7 Mio Einträge) abgeglichen, nötigenfalls unter Zuhilfenahme einer sprachabhängigen lexikalischen Analyse (Endungen wie "s", "en" etc.). Gleichzeitig wird mittels CWR ("Collocated Word Recognition") untersucht, ob aufeinanderfolgende Wörter einem Begriff entsprechen, der in der Datenbank vorhanden ist. Beispiel: Die Wörterfolge "European Court of Justice" wird als Begriff erkannt und wird nicht als vier einzelne Wörter "European", "Court", "of" und "Justice" gehandhabt.

In der Text-Mining Phase werden für alle Wörter bzw. zusammmengesetzten Begriffe die Wortart (Name, Hauptwort, Verb etc.), die Signifikanz, die Sprache, die Synonymgruppe und der Link auf den Taxonomiebaum aus der liguistischen Datenbank geholt und für die spätere Verarbeitung festgehalten. Parallel dazu erfolgt die Spracherkennung für den bearbeiteten Textblock.

Changed lines 12-13 from:

Die kumulierten Häufigkeiten, mit denen die einzelnen Knoten im Taxonomiebaum durch die Texte aus allen Dokumenten angesprochen werden, ergeben ein Bild über die thematischen Schwergewichte in der Dokumenten-Kollektion. Mit einer Cluster- Analyse wird nun ein 100-dimensionaler Inhaltsraum konstruiert, welcher die Inhalte der effektiv vorliegenden Dokumente möglichst gut wiedergeben kann. Dabei werden auch die Entropien ("Ungewissheiten" der verschiedenen Wörter / Begriffe) berechnet und verwendet.

to:

Die kumulierten Häufigkeiten, mit denen die einzelnen Knoten im Taxonomiebaum durch die Texte aus allen Dokumenten angesprochen werden, ergeben ein Bild über die thematischen Schwergewichte in der Dokumenten-Kollektion. Mit einer Cluster-Analyse wird nun ein 100-dimensionaler Inhaltsraum konstruiert, welcher die Inhalte der effektiv vorliegenden Dokumente möglichst gut wiedergeben kann. Dabei werden auch die Entropien ("Ungewissheiten" der verschiedenen Wörter / Begriffe) berechnet und verwendet.

Changed lines 15-16 from:

Die unter Schritt 2 gesammelten Informationen werden unter Verwendung der berechneten Entropien dazu verwendet, um jedes einzelne Text-Dokument auf den unter Schritt 3 konstruierten Inhaltsraum zu projizieren.

to:

Die unter Schritt 2 gesammelten Informationen werden unter Verwendung der berechneten Entropien dazu verwendet, um jedes einzelne Text-Dokument auf den unter Schritt 3 konstruierten Inhaltsraum zu projizieren.

Changed line 21 from:

Es folgen schliesslich noch die Bildung von Deskriptoren (Verschlagwortung der Dokumente), die Identifikation von Dokumentenfamilien (fast gleiche Dokumente) und die automatische Generierung von Abstracts.

to:

Hier erfolgen schliesslich die Bildung von Deskriptoren (Verschlagwortung der Dokumente), die Identifikation von Dokumentenfamilien (fast gleiche Dokumente) und die automatische Generierung von Abstracts.

June 09, 2006, at 08:07 PM by 84.72.154.82 -
Changed lines 18-19 from:

Die Vektoren bilden den Input für das selbstorganisierende Neuronale Netz (Kohonen-Map). Diese Modell besorgt nun die logische Anordnung der Dokumente in einer Informations-Landkarte: Ermittlung einer Ordnung nach thematischen Gesichtspunkten und Eindorden der einzelenen Dokumente in die Informations-Landkarte. Gleichzeitig wird das Ähnlichkeitsmass für den inhaltlichen Vergleich von Dokumenten ermittelt.

to:

Die Vektoren bilden den Input für das selbstorganisierende Neuronale Netz (Kohonen-Map). Diese Modell besorgt nun die logische Anordnung der Dokumente in einer Informations-Landkarte: Ermittlung einer Ordnung nach thematischen Gesichtspunkten und Eindorden der einzelenen Dokumente in die Informations-Landkarte. Gleichzeitig wird das Ähnlichkeitsmass für den inhaltlichen Vergleich von Dokumenten ermittelt.

June 09, 2006, at 08:06 PM by 84.72.154.82 -
Changed line 17 from:

Schritt 5: Kohonen Map

to:

Schritt 5: Kohonen Map

June 09, 2006, at 08:05 PM by 84.72.154.82 -
Added lines 1-21:

Das Vorgehen von InfoCodex bei der Textanalyse

Schritt 1: Konversion/ Extraktion Metadaten

InfoCodex macht z.B. aus dem PDF File ein temporäres Textfile. Gleichzeitig werden die Metadaten soweit wie möglich extrahiert (Autor, Titel, Dokument-Datum, File-Typ, Prozentsatz der Graphiken im Dokument etc.)

Schritt 2: Text-Mining

Die Sätze des in den konvertierten Textfiles werden erkannt (Komma, Punkt, Doppelpunkt etc.). Es werden alle Wörter identifiziert und mit den Einträgen in der liguistischen Datenbank abgeglichen, nötigenfalls unter Zuhilfenahme einer sprachabhängigen lexikalischen Analyse (Endungen wie "s", "en" etc.). Gleichzeitig wird mittels CWR ("collocated word recognition") untersucht, ob aufeinanderfolgende Wörter einem Begriff entsprechen, der in der Datenbank vorhanden ist. Beispiel: Die Wörterfolge "European Court of Justice" wird als Begriff erkannt und wird nicht als vier einzelne Wörter "European", "Court", "of" und "Justice" gehandhabt.

In der Text-Mining Phase werden für alle Wörter bzw. zusammmengesetzten Begriffe die Wortart (Name, Hauptwort, Verb etc.), die Signizikanz, die Sprache, die Synonymgruppe und der Link auf den Taxonomiebaum aus der liguistischen Datenbank geholt und für die spätere Verarbeitung festgehalten. Parallel dazu erfolgt die Spracherkennung für den bearbeiteten Textblock.

Schritt 3: Konstruktion des 100-dimensionalen Inhaltsraumes

Die kumulierten Häufigkeiten, mit denen die einzelnen Knoten im Taxonomiebaum durch die Texte aus allen Dokumenten angesprochen werden, ergeben ein Bild über die thematischen Schwergewichte in der Dokumenten-Kollektion. Mit einer Cluster- Analyse wird nun ein 100-dimensionaler Inhaltsraum konstruiert, welcher die Inhalte der effektiv vorliegenden Dokumente möglichst gut wiedergeben kann. Dabei werden auch die Entropien ("Ungewissheiten" der verschiedenen Wörter / Begriffe) berechnet und verwendet.

Schritt 4: Projektion der Dokumente auf 100-dimensionale Vektoren

Die unter Schritt 2 gesammelten Informationen werden unter Verwendung der berechneten Entropien dazu verwendet, um jedes einzelne Text-Dokument auf den unter Schritt 3 konstruierten Inhaltsraum zu projizieren.

Schritt 5: Kohonen Map

Die Vektoren bilden den Input für das selbstorganisierende Neuronale Netz (Kohonen-Map). Diese Modell besorgt nun die logische Anordnung der Dokumente in einer Informations-Landkarte: Ermittlung einer Ordnung nach thematischen Gesichtspunkten und Eindorden der einzelenen Dokumente in die Informations-Landkarte. Gleichzeitig wird das Ähnlichkeitsmass für den inhaltlichen Vergleich von Dokumenten ermittelt.

Schritt 6: Verschlagwortung

Es folgen schliesslich noch die Bildung von Deskriptoren (Verschlagwortung der Dokumente), die Identifikation von Dokumentenfamilien (fast gleiche Dokumente) und die automatische Generierung von Abstracts.

view · edit · sidebar · attach · print · history
Page last modified on June 15, 2006, at 06:07 PM