Fraunhofer-Gesellschaft

Publica

Hier finden Sie wissenschaftliche Publikationen aus den Fraunhofer-Instituten.

Entwicklung eines Muster-basierten Crawlers zur Extraktion von Informationen aus Open Source Repositories

 
: Emrich, Andreas
: Rech, Jörg; Rombach, H. Dieter

Kaiserslautern, 2007, VIII, 95 pp.
German
Report
Fraunhofer IESE ()
information retrieval; software reuse; XPath

Abstract
Heutzutage werden immer mehr Softwareprojekte als Open Source herausgegeben. Das Softwareportal Sourceforge beherbergt beispielsweise 104.114 Open Source Projekte (Stand: 30.08.2007). Um diese sehr große Menge an Erfahrungen zu erschließen, müssen Informationen über Open Source Softwareprojekte von Open Source Repositories, wie z.B. Sourceforge, Freshmeat oder BerliOS, gesammelt werden. Eine spezielle Crawler-Komponente soll diese Aufgabe als ein Hintergrunddienst wahrnehmen. Um diese Informationen für weitere Analysen nutzen zu können.
In dieser Arbeit wird eine prototypische Implementierung des COWA Crawlers entwickelt, die anhand einer ebenfalls zu erstellenden Konfiguration für das Repository Sourceforge getestet wird.
Um eine größtmögliche Aktualität der extrahierten Informationen zu gewährleisten und zudem den Ressourcenaufwand so gering wie möglich zu halten, muss dieser Crawler-Mechanismus entsprechend an die Strukturen - d.h. in Bezug auf die Navigation und die Informationsdarstellung - der zu untersuchenden Open Source Repositories angepasst sein. Weiterhin sollen keine individuellen Implementierungen für einzelne Open Source Repositories geschaffen werden, sondern eine generische Implementierung, bei der der Crawling-Mechanismus mit Hilfe von Metadaten gesteuert werden kann. Dies ist vor allem in Hinblick auf häufige Änderungen auf den entsprechenden Open Source Repositories in besonderem Maße wichtig.

: http://publica.fraunhofer.de/documents/N-63325.html