• English
  • Deutsch
  • Log In
    Password Login
    Research Outputs
    Fundings & Projects
    Researchers
    Institutes
    Statistics
Repository logo
Fraunhofer-Gesellschaft
  1. Home
  2. Fraunhofer-Gesellschaft
  3. Konferenzschrift
  4. Intelligentes Web Crawling für die industrielle Trendanalyse
 
  • Details
  • Full
Options
2025
Conference Paper
Title

Intelligentes Web Crawling für die industrielle Trendanalyse

Title Supplement
Eine skalierbare KI-gestützte Architektur
Other Title
Intelligent Web Crawling for Industrial Trend Analysis - A Scalable AI-Driven Architecture
Abstract
Die rechtzeitige Erkennung neuer Trends ist für strategische Vorausschau und industrielle Forschung von entscheidender Bedeutung. Herkömmliche Web-Crawler sind zwar bei der Erfassung großer Datenmengen effektiv, verfügen jedoch häufig nicht über semantische Filter-funktionen, was zur Anhäufung von irrelevanten oder wenig wertvollen Informationen führt. Um diese Limitation zu beheben, wird in diesem Artikel eine fokussierte Web-Crawling-Architektur vorgestellt, die Large Language Models (LLMs) für die dynamische Bewertung und Priorisierung von Inhalten integriert. Das System basiert auf einem verteilten Framework unter Verwendung von Apache StormCrawler, Apache Storm, Playwright und OpenSearch. LLMs sind in den Crawling-Prozess integriert, um bei Bedarf Relevanzbewertungen durchzuführen und den Crawler zu Inhalten mit hoher thematischer Relevanz zu leiten. Dieser Ansatz reduziert Datenrauschen und erhöht die Effizienz der webbasierten Informationssammlung bei gleichzeitiger Verringerung der Rechenkomplexität und der Kosten. Über die technische Infrastruktur hinaus beschreibt der Artikel die analytischen Methoden, die auf die gesammelten Inhalte angewendet werden, darunter Topic Modelling zur Trenderkennung und Clustering-Algorithmen zur thematischen Strukturierung. Das Ergebnis ist eine modulare, skalierbare Pipeline, die unstrukturierte Webdaten in strukturierte Erkenntnisse umwandeln kann und da-mit fortschrittliche Anwendungen in der strategischen Frühwarnung für aufkommende Trends und für die Technologieplanung unterstützt. Durch die Integration von LLMs in das fokussierte Web-Crawling leistet diese Arbeit einen methodischen Beitrag in den Bereichen Voraus-schau, Innovationsmanagement und datengesteuerte strategische Analyse. Alle Komponenten und Techniken werden vor dem Hintergrund des aktuellen Stands der Technik kontextualisiert, um ihren Mehrwert und ihren neuartigen Beitrag zum Fachgebiet hervorzuheben.

; 

Timely identification of emerging trends is essential for strategic foresight and industrial research. Conventional web crawlers, though effective at large-scale data collection, often lack semantic filtering capabilities, leading to the accumulation of contextually irrelevant or low-value information. To address this limitation, this paper presents a focused web crawling architecture that integrates Large Language Models (LLMs) for dynamic content evaluation and prioritization. The system is built on a distributed framework using Apache StormCrawler, Apache Storm, Playwright, and OpenSearch. LLMs are integrated into the crawling process to perform on-demand relevance estimation, guiding the crawler toward content with high thematic relevance. This approach reduces data noise and increases the efficiency of web-based information gathering, while reducing computational complexity and cost. Beyond infrastructure, the paper details the analytical methods applied to the collected content, including topic modeling for trend detection and clustering algorithms for thematic structuring. The result is a modular, scalable pipeline capable of transforming unstructured web data into structured insights, supporting advanced applications in strategic early warning for emerging trends and technology planning. By integrating LLMs into focused web crawling, this work contributes methodological improvements to the fields of foresight, innovation management and datadriven strategic analysis. All components and techniques are contextualized against the current state of the art to highlight their added value and novel contribution to the field.
Author(s)
Zowalla, Richard
Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO  
Mackensen, Jan
Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO  
Jin, Meng  
Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO  
Schaefer, Kristian  
Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO  
Omri, Safa
Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO  
Neuhüttler, Jens  
Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO  
Mainwork
Vorausschau und Technologieplanung. 19. Symposium für Vorausschau und Technologieplanung 2025  
Conference
Symposium für Vorausschau und Technologieplanung 2025  
Open Access
File(s)
Download (713.55 KB)
Rights
CC BY 4.0: Creative Commons Attribution
DOI
10.24406/publica-6893
Language
German
Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO  
Keyword(s)
  • Web-Crawler

  • Large Language Models

  • Topic Modelling

  • Foresight

  • Trend Analysis

  • Cookie settings
  • Imprint
  • Privacy policy
  • Api
  • Contact
© 2024