CC BY 4.0Haan, PhilippPhilippHaanBerbig, ManuelManuelBerbigBlum, RalphRalphBlumJörden, JanJanJördenSchirrmeister, ElnaElnaSchirrmeisterZimmermann, RolandRolandZimmermann2023-10-262023-10-262023https://publica.fraunhofer.de/handle/publica/452213https://doi.org/10.24406/h-45221310.24406/h-452213In der strategischen Frühaufklärung liegen bislang ungenutzte Potenziale, da verschiedene Datenquellen wie Nachrichtentexte, Journalpublikationen und Patentdaten meist isoliert voneinander analysiert werden. Automatisierte NLP-Verfahren finden hierzu zunehmend Anwendung. Die spezifischen Charakteristika der Quellen werden jedoch nicht beachtet: 1) Nachrichtentexte sind zeitlich sehr aktuell, umfangreich und redaktionell teilweise vorgefiltert. Sie lenken den Blick auf aktuelle gesellschaftliche und technologische Entwicklungen, haben aber oft nur eine kurze Halbwertszeit. 2) Publikations- und Patentdatenbanken haben eine verifizierte Qualität und erlauben eine längerfristige Betrachtung von Themenentwicklungen, liegen jedoch lange Zeit außerhalb der breiteren gesellschaftlichen Wahrnehmung. Die verschiedenen Fristigkeiten ermöglichen eine iterative, sequenzielle Nutzung der Quellentypen mit dem Ziel, in der breiten Öffentlichkeit auftauchende Themenentwicklungen rasch zu erkennen (durch 1) und diese mittels längerfristigen, inhaltlich detaillierten Daten (durch 2) in einem zweiten Schritt zu präzisieren. Dazu werden automatisierte Ansätze zur Themenextraktion auf Basis von aktuellen Transformer-Sprachmodellen genutzt, die sich in den letzten Jahren als Instrument der strategischen Frühaufklärung etabliert haben.Untapped potentials exist in strategic early warning systems because various data sources, such as news texts, journal publications and patent data are usually analyzed in isolation. Automated NLP techniques are increasingly being used for this purpose. However, the specific characteristics of the sources are not considered: 1) News texts are very current, extensive, and often editorially pre-filtered. They focus attention on current social and technological developments, but often have a short half-life. 2) Publication and patent databases have verified quality and allow for a longer-term view of thematic developments, but are often outside of broader societal awareness for a long time. The different temporalities allow for an iterative, sequential use of the source types with the aim of quickly identifying thematic developments that appear in the broader public (through 1) and refining them in a second step using longer-term, more detailed content data (through 2). Automated topic extraction approaches based on current transformer language models are used, which have established themselves as instruments of strategic early warning in recent years. To demonstrate the potential of iterative, sequential fusion of these data sources, this paper develops a prototype that identifies topics within a corpus of news texts and determines their significance by linking them to patent and publication data, as well as trend indicators based on these data. The study demonstrates that automated topic extraction provides semantically closed topics that can subsequently be used for automated searches on patent and publication databases. Furthermore, the results of the study show that the automated combination of different types of data contributes significantly to the verification of identified trend topics, and supports the early recognition and evaluation of topics with high economic potential.deHorizon ScanningNatural Language ProcessingChatGPTTopic ModelingText-ClusteringTrend-AnalyseTrend AnalysisMehrstufige strategische Frühaufklärung durch iterative automatisierte Themenerkennung und Fusion von Nachrichten-, Journal- und Patenttexten mittels Natural Language Processing (NLP)Multi-level strategic early intelligence through iterative automated topic detection and fusion of news, journal, and patent texts using Natural Language Processing (NLP)conference paper