• English
  • Deutsch
  • Log In
    Password Login
    Research Outputs
    Fundings & Projects
    Researchers
    Institutes
    Statistics
Repository logo
Fraunhofer-Gesellschaft
  1. Home
  2. Fraunhofer-Gesellschaft
  3. Patente
  4. Verfahren und Vorrichtung zur Ermittlung ähnlicher Dokumente
 
  • Details
Options
Patent
Title

Verfahren und Vorrichtung zur Ermittlung ähnlicher Dokumente

Abstract
Die Erfindung betrifft ein Verfahren zur Ermittlung ähnlicher Dokumente aus einer Menge an Dokumenten (101), wobei die Dokumente (101) tokenisierte Zeichenketten aufweisen, dadurch gekennzeichnet, dassa) mit einem Indexierungsverfahren (102) ein inverser Index für mindestens eine Teilmenge der Dokumente (101) berechnet wird,b) für die mindestens eine Teilmenge der Dokumente (101) werden Word Embeddings (105) berechnet,c) für die mindestens eine Teilmenge der Dokumente (101) wird für jedes dieser Dokumente (101) jeweils ein Document Embedding (107) berechnet, indem für jedes Dokument (101) die Word Embeddings (105) aller Zeichenketten, insbesondere Worte des Dokuments (101) addiert und mit der Anzahl der Zeichenketten, insbesondere Worten, normiert werden (106), wobei vorher, nachfolgend oder paralleld) mit den berechneten Word Embeddings (105) mithilfe eines Clusteringverfahrens SimSet-Gruppen (109) von ähnlichen Zeichenketten berechnet werden, und dann anschließende) in einer Anfragephase (200) zunächst ein Query Embedding (205) bestimmt wird und dannf) ein Vergleich des Query Embeddings (205) mit den Document Embeddings (107) unter Verwendung der im Schritt d) mit dem Clusteringverfahren gebildeten SimSet-Gruppen (109) zur mengenmäßigen Einschränkung der Anzahl der zu vergleichenden Document Embeddings (107) durchgeführt wird, um automatisch ein Ranking der Ähnlichkeit der Dokumente (101) zu ermitteln und diese anzuzeigen und / oder abzuspeichern. Die Erfindung betrifft auch eine Vorrichtung.
Inventor(s)
Hoppe, Thomas  
Fraunhofer-Institut für Offene Kommunikationssysteme FOKUS  
Link to:
Espacenet
Patent Number
DE102019212421 A1
Publication Date
February 25, 2021
Language
German
Fraunhofer-Institut für Offene Kommunikationssysteme FOKUS  
  • Cookie settings
  • Imprint
  • Privacy policy
  • Api
  • Contact
© 2024