XSEARCH . Linguistic

Von: Weitkämper Technology GmbH  10.05.2011
Keywords: Suchtechnologie

 

XSEARCH Linguistic ist die vollständige linguistische Plattform für morpho-syntaktische Analyse der häufigsten europäischen Sprachen und ist ein wichtiger Baustein für erfolgreiche Suche.

  • Segmentierer und Tokenizer
  • Wortstammreduktion
  • Kompositazerlegung
  • Generieren von Flexionsformen
  • Part of Speech Tagging
  • Synonyme und Thesauri
  • Mehrwortbegriffe
  • Abkürzungen
  • neue / alte Rechtschreibung
  • Übersetzungsfunktion für cross-multilinguale Suche.

Das System bietet eine ganze Reihe von Vollformlexika kombiniert mit linguistischen Modulen und liefert aufgrund seiner Architektur ultra-schnelle Antwortzeiten.

XSEARCH Linguistik ist Basisgrundlage für die Verbesserung von Suchanwendungen oder für Knowledge Discovery Funktionen wie Schlüsselwortextraktion, , oder Erzeugung von Feature Vektoren.

XSEARCH Linguistik liegt ein nahezu vollständiges Vollformenlexikon zugrunde, das von anerkannten sprachwissenschaftlichen Experten über mehr als 20 Jahre entwickelt wurde und in vielen nationalen und europäischen Projekten mit großem Erfolg eingesetzt wird. Das Vollformenlexikon deckt neben wichtigen europäischen Sprachen nahezu den gesamten Bereich der deutschen Sprache ab:

  • Grundwortschatz von rund 1 Millionen Einträgen
  • zusätzlich rund 150.000 Synonymeinträge
  • zusätzlich rund 1 Millionen Komposita
  • Wortklasseninformationen Part of Speech
  • alte und neue Rechtschreibung
  • Umlautvariationen
  • Mehrwortbegriffe und Abkürzungen
  • Schweizer Variante für "ss" anstatt "ß"
  • Eigennamen, Länder- und Ortsbezeichnungen
  • Komposita Algorithmus.

Da Komposita nahezu beliebig gebildet werden können, verfügt die XSEARCH Linguistik zusätzlich über einen ausgeklügelten Algorithmus (Finite State Technologie), um unbekannte Komposita, die nicht im Lexikon vorhanden sind, korrekt zu zerlegen.  Das Vollformenlexikon wird ständig erweitert und bietet selbstverständlich die Möglichkeit, es um bel. eigene Lexika und Einträge zu ergänzen.

Die Zerlegung von Text in einzelne Worte und Begriffe steht ganz zu Beginn des Indexprozesses und ist wesentlich für die erfolgreiche Suche. Die Wortzerlegung von XSEARCH Linguistik ist auf die deutsche Sprache abgestimmt und berücksichtigt Punktation, Abkürzungen und Satzaufbau. Zusätzlich können alle diese Regeln manuell beeinflusst, ergänzt oder individualisiert werden, um optimale Ergebnisse zu erzielen.

Zusammengesetzte Worte wie "Haushaltstücher" werden in die Begriffe "Haushalt" und "Tuch" zerlegt.

Grundformreduktion und Expansion aller Flexionen wie

  •   "gehen, ging, gegangen"
  •   "groß, größer, am größten"
  • "Gang, Gänge".

Viele Begriffe werden abgekürzt oder mal mit und ohne Trennstrich geschrieben. Das erweiterte Flexionslexikon findet "zum Beispiel" aber auch "z. B.", "zB" oder "knowhow" und "Know-how".

Zerlegung oder Erweiterung auf sinnhafte Begriffe: "Frei-heit" wird nicht zerlegt, da "heit" keine eigenständige lexikalische Bedeutung hat.

Die Suche nach "Übel" findet auch "Uebel".

Die Suche nach "Delphin" findet auch "Delfin".

XSEARCH Linguistik stellt rund 140.000 Synonymeinträge zur Verfügung. So findet die Suche nach "Bank" auch "Bankhaus" oder "Geldinstitut". Auch Mehrwortbegriffe wie "Frankfurter Allgemeine Zeitung" und "F.A.Z." können abgebildet werden.

Aufgrund hinterlegter Wortklasseninformationen erkennt XSEARCH Linguistik, ob Worte Substantive, Adjektive, Verben, Adverbien, Ortsangaben oder feststehende Ausdrücke sind. Part of Speech Informationen sind Grundlage für Knowledge Discovery Funktionen wie Schlüsselwortextraktion, Klassifizierung oder Ähnlichkeitssuche.

XSEARCH Linguistik steht als Server zur Verfügung, der einfach via TCP/IP angesprochen werden kann. Alternativ ist auch eine DLL bzw. shared Object einsetzbar. Bediente Plattformen sind Windows, Linux und SUN Solaris.

Keywords: Suchtechnologie

Weitkämper Technology GmbH kontaktieren

E-Mail

Diese Seite drucken

Weitere Produkte und Dienstleistungen von Weitkämper Technology GmbH

Keyword Extractor von Weitkämper Technology GmbH Vorschau
08.09.2015

Keyword Extractor

Keyword Extractor 3.0 findet Schlüsselbegriffe und visualisiert Zusammenhänge


10.05.2011

XSEARCH . Federated Search

  XSEARCH Federated Search ist die Metasuchmaschine für Portale oder den unternehmensweiten Einsatz. Mit ihr durchsuchen Sie mit nur einer einzigen Suchanfrage beliebige Datenquellen.


10.05.2011

Entity Extractor

 Entity Extractor erkennt automatisch bestimmte Textelemente.


10.05.2011

XSEARCH . Clustering Engine

 Mit der XSEARCH Clustering Engine finden Sie relevante Informationen in kürzester Zeit, ohne ewig lange Trefferlisten mühsam durchforsten zu müssen.


10.05.2011

XSEARCH.DidYouMean

 DidYouMean macht Vorschläge bei Falschschreibung - und Ihre Nutzer Finden was sie suchen


10.05.2011

Facetten Navigation

 


10.05.2011

Echtzeitsuche HitEngine

  Suche während des Tippens ist ein unverzichtbarer De-facto-Standard für das Sucherlebnis in jedem Portal und Shop. Seit vielen Jahren forscht und entwickelt Weitkämper Technology an der für die Echtzeitsuche.


10.05.2011

HitEngine Suggest

 Mit HitEngine Suggest nutzen Sie das enorme Potenzial der HitEngine für die Anzeige passender Vorschläge während des Tippens. Während Sie einen Buchstaben in das Suchfeld eingeben, liefert Ihnen HitEngine Suggest präzise Treffer. Für die fehlertolerante Vorschlagssuche in Millisekunden