Options
Patent
Title
Verfahren und Vorrichtung zur Ermittlung ähnlicher Dokumente
Abstract
Die Erfindung betrifft ein Verfahren zur Ermittlung ähnlicher Dokumente aus einer Menge an Dokumenten (101), wobei die Dokumente (101) tokenisierte Zeichenketten aufweisen, dadurch gekennzeichnet, dassa) mit einem Indexierungsverfahren (102) ein inverser Index für mindestens eine Teilmenge der Dokumente (101) berechnet wird,b) für die mindestens eine Teilmenge der Dokumente (101) werden Word Embeddings (105) berechnet,c) für die mindestens eine Teilmenge der Dokumente (101) wird für jedes dieser Dokumente (101) jeweils ein Document Embedding (107) berechnet, indem für jedes Dokument (101) die Word Embeddings (105) aller Zeichenketten, insbesondere Worte des Dokuments (101) addiert und mit der Anzahl der Zeichenketten, insbesondere Worten, normiert werden (106), wobei vorher, nachfolgend oder paralleld) mit den berechneten Word Embeddings (105) mithilfe eines Clusteringverfahrens SimSet-Gruppen (109) von ähnlichen Zeichenketten berechnet werden, und dann anschließende) in einer Anfragephase (200) zunächst ein Query Embedding (205) bestimmt wird und dannf) ein Vergleich des Query Embeddings (205) mit den Document Embeddings (107) unter Verwendung der im Schritt d) mit dem Clusteringverfahren gebildeten SimSet-Gruppen (109) zur mengenmäßigen Einschränkung der Anzahl der zu vergleichenden Document Embeddings (107) durchgeführt wird, um automatisch ein Ranking der Ähnlichkeit der Dokumente (101) zu ermitteln und diese anzuzeigen und / oder abzuspeichern. Die Erfindung betrifft auch eine Vorrichtung.
Link to:
Patent Number
DE102019212421 A1
Publication Date
February 25, 2021
Language
German