Now showing 1 - 10 of 40
  • Publication
    Developing trustworthy AI applications with foundation models
    ( 2024-04) ;
    Schmidt, Sebastian
    ;
    Müller, Felix Benjamin
    ;
    Görge, Rebekka
    ;
    ; ; ; ; ;
    Kern, Carmen
    ;
    Loh, Silke
    The trustworthiness of AI applications has been the subject of recent research and is also addressed in the EU's recently adopted AI Regulation. The currently emerging foundation models in the field of text, speech and image processing offer completely new possibilities for developing AI applications. This whitepaper shows how the trustworthiness of an AI application developed with foundation models can be evaluated and ensured. For this purpose, the application-specific, risk-based approach for testing and ensuring the trustworthiness of AI applications, as developed in the "AI Assessment Catalog - Guideline for Trustworthy Artificial Intelligence" by Fraunhofer IAIS, is transferred to the context of foundation models. Special consideration is given to the fact that specific risks of foundation models can have an impact on the AI application and must also be taken into account when checking trustworthiness.
  • Publication
    Wie Agenten und Foundation-Modelle bei der Versorgung Schwerverletzter helfen
    ( 2024-03)
    Meyer, Mareen
    ;
    ; ;
    Defosse, Jérôme
    ;
    Hensen, Sandra
    ;
    Iser, Henri
    ;
    Salge, Torsten Oliver
    ;
    Stead, Susan
    ;
    Tjardes, Thorsten
    ;
    Waloßek, Nina
    Künstliche Intelligenz im Schockraum: Wie kann sie das medizinische Team entlasten und unterstützen, um die Behandlung für die Patient*innen sicherer und besser zu machen? Und welche Anwendungen eignen sich hierfür besonders? Hier kommt die Entwicklung neuer KI-Modelle ins Spiel. Insbesondere sogenannte Foundation-Modelle und Large-Language-Modelle (LLMs) ermöglichen die Umsetzung einer Vielzahl von neuen Use Cases im Krankenhaus. Diese umfassen die gesamte Kette klinischer Prozesse bis hin zu Extremsituationen, wie der Schwerverletzten-Versorgung im Schockraum. Besonders relevant ist, dass LLMs ein omnipräsentes Problem von Data Science in der Medizin lösen könnten: Sie können auch mit wenigen Trainingsdaten auf Use Cases adaptiert werden und liefern durch ihr tiefes Sprachverständnis fundiertere Ergebnisse, als es bisher möglich war. Eine besonders spannende Entwicklung stellen LLM-Agenten dar, die eine Umgebung analysieren und daraufhin eigenständig Aktionen, wie z. B. die Bedienung von Systemen über Schnittstellen, durchführen können. In diesem Whitepaper veranschaulichen wir den Nutzen von LLMs und Agenten anhand von zwei Einsatzmöglichkeiten im Schockraum, die im Rahmen des Projekts TraumAInterfaces umgesetzt wurden.
  • Publication
    Superkraft Sprachmodell?
    ( 2024-03)
    Dinnessen, Felix
    ;
    Bringmann, Björn
    ;
    Dang, David
    ;
    ;
    Halscheidt, Sandra
    Die deutsche Verwaltungslandschaft steht angesichts der notwendigen Digitalisierung und Automatisierung von bisher manuellen Prozessen vor einer grundlegenden Transformation. Der Anstieg an Anträgen für Wohngeld, BAföG oder Einbürgerungsverfahren setzt Behörden zusätzlich unter Druck. Der entstehende Rückstau trägt zu einem sinkenden Vertrauen in die Leistungsfähigkeit der öffentlichen Verwaltung bei. Gleichzeitig muss sie die rückläufigen Mitarbeitendenzahlen infolge des demografischen Wandels kompensieren. Generative Künstliche Intelligenz (GenAI) und insbesondere große Sprachmodelle (Large Language Models, LLMs) spielen hier eine wichtige Rolle, um die Mitarbeitenden zukünftig in ihren Aufgaben zu unterstützen, zu entlasten und hierdurch Freiräume zu schaffen, um sich verstärkt der direkten Interaktion mit Bürgerinnen und Bürgern zu widmen. In diesem Briefing präsentieren Fraunhofer IAIS und Deloitte drei Anwendungsbeispiele großer Sprachmodelle, von welchen die öffentliche Verwaltung schon heute profitieren kann. Bei der Betrachtung zu etablierender Rahmenbedingungen muss zwischen den behördeninternen Voraussetzungen und der staatlichen Infrastruktur unterschieden werden. Diese Publikation betrachtet die Voraussetzungen auf individueller Ebene der Behörden.
  • Publication
    Vertrauenswürdige KI-Anwendungen mit Foundation-Modellen entwickeln
    ( 2024-01-22) ;
    Schmidt, Sebastian
    ;
    Müller, Felix Benjamin
    ;
    Görge, Rebekka
    ;
    ; ; ; ;
    Die weltweit erste, umfassende Regulierung von Künstlicher Intelligenz ist die europäische KI-Verordnung (AI Act), die zum Zeitpunkt der Veröffentlichung des Whitepapers kurz vor der formellen Verabschiedung steht und eine KI-Konformitätsbewertung von Hochrisikosystemen fordert. Vor diesem Hintergrund zeigt das Whitepaper auf, wie die Vertrauenswürdigkeit einer mit Foundation-Modellen entwickelten KI-Anwendung bewertet und sichergestellt werden kann. Dafür wird die Vorgehensweise, wie sie im »KI-Prüfkatalog zur Gestaltung vertrauenswürdiger Künstlicher Intelligenz« des Fraunhofer IAIS entwickelt worden ist, in den Kontext von Foundation-Modellen übertragen. Dabei wird besonders berücksichtigt, dass sich spezielle Risiken der Foundation-Modelle auf die KI-Anwendung auswirken können und zusätzlich bei der Prüfung der Vertrauenswürdigkeit beachtet werden müssen.
  • Publication
    A survey and classification of face alignment methods based on face models
    ( 2023-11-06)
    Meher, Jagmohan
    ;
    Allende-Cid, Héctor
    ;
    Nordling, Torbjörn
    A face model is a mathematical representation of the distinct features of a human face. Traditionally, face models were built using a set of fiducial points or landmarks, each point ideally located on a facial feature, i.e., corner of the eye, tip of the nose, etc. Face alignment is the process of fitting the landmarks in a face model to the respective ground truth positions in an input image containing a face. Despite significant research on face alignment in the past decades, no review analyses various face models used in the literature. Catering to three types of readers - beginners, practitioners and researchers in face alignment, we provide a comprehensive analysis of different face models used for face alignment. We include the interpretation and training of the face models along with the examples of fitting the face model to a new face image. We found that 3D-based face models are preferred in cases of extreme face pose, whereas deep learning-based methods often use heatmaps. Moreover, we discuss the possible future directions of face models in the field of face alignment.
  • Publication
    Welche Zertifizierung ist hilfreich für Verbraucher*innen?
    ( 2023-10-25)
    Baeva, Gergana
    ;
    Brunner, Robert
    ;
    Elmas, Filiz
    ;
    Fresz, Benjamin
    ;
    Fuß, Christine
    ;
    Heß, Claudia
    ;
    Kellmeyer, Philipp
    ;
    Mahner, Malin
    ;
    Paulheim, Heiko
    ;
    ;
    Puntschuh, Michael
    ;
    Seyerlein-Klug, Annegrit
    In diesem Whitepaper fokussieren wir uns auf die KI-Verordnung nicht erfasste freiwillige Zertifizierung. Dabei stehen die Interessen und Sichtweisen der Verbraucher*innen im Vordergrund. Als Verbraucher*innen betrachten wir nicht nur die unmittelbaren Nutzer*innen von KI-Systemen, sondern auch Privatpersonen, die indirekt von KI-Ergebnissen betroffen sein können. Zudem berücksichtigen wir Menschen in der Rolle als souveräne Datensubjekte, deren personenbezogene Daten in die Entwicklung von KI-Systemen einfließen. Dieses breite Verständnis des Verbraucher*innenbegriffs entspricht dem Selbstverständnis des Zentrums für vertrauenswürdige Künstliche Intelligenz (ZVKI). Wir stellen Thesen auf, wie freiwillige Zertifizierungen von KI-Systemen für Verbraucher*innen nützlich sein können. Die im Verlauf vorgestellten und begründeten acht Thesen wurden in einer Reihe von interdisziplinären Workshops erarbeitet. Dabei identifizierten wir Herausforderungen einer KI-Zertifizierung aus Verbraucher*innensicht und präzisierten diese iterativ. Die Gruppendiskussionen dienten als Grundlage dieses Whitepapers und bauten auf Erkenntnissen der Fach-Arbeitsgruppe „KI Zertifizierung“ des ZVKI auf. Alle Co-Autor*innen waren an der Erstellung des finalen Texts beteiligt. Die aufgestellten Thesen thematisieren grundlegende Anforderungen an eine KI-Zertifizierung aus einer übergeordneten Perspektive, unabhängig von den spezifischen Details einer KI-Anwendung. Somit liefern sie keine Aussagen zu konkreten Inhalten der Zertifizierung. Detaillierte Empfehlungen setzen eine umfassende Analyse von Einsatzfällen voraus, die in diesem Rahmen nicht geleistet werden kann.
  • Publication
    CarExpert: Leveraging Large Language Models for In-Car Conversational Question Answering
    ( 2023-10-14)
    Rony, Md Rashad Al Hasan
    ;
    Süß, Christian
    ;
    Bhat, Sinchana Ramakanth
    ;
    Sudhi, Viju
    ;
    Schneider, Julia
    ;
    Vogel, Maximilian
    ;
    ;
    Friedl, Ken E.
    ;
    Large language models (LLMs) have demonstrated remarkable performance by following natural language instructions without fine-tuning them on domain-specific tasks and data. However, leveraging LLMs for domain-specific question answering suffers from severe limitations. The generated answer tends to hallucinate due to the training data collection time (when using off-the-shelf), complex user utterance and wrong retrieval (in retrieval-augmented generation). Furthermore, due to the lack of awareness about the domain and expected output, such LLMs may generate unexpected and unsafe answers that are not tailored to the target domain. In this paper, we propose CarExpert, an in-car retrieval-augmented conversational question-answering system leveraging LLMs for different tasks. Specifically, CarExpert employs LLMs to control the input, provide domain-specific documents to the extractive and generative answering components, and controls the output to ensure safe and domain-specific answers. A comprehensive empirical evaluation exhibits that CarExpert outperforms state-of-the-art LLMs in generating natural, safe and car-specific answers.
  • Publication
    Assessing Systematic Weaknesses of DNNs using Counterfactuals
    With the advancement of DNNs into safety-critical applications, testing approaches for such models have gained more attention. A current direction is the search for and identification of systematic weaknesses that put safety assumptions based on average performance values at risk. Such weaknesses can take on the form of (semantically coherent) subsets or areas in the input space where a DNN performs systematically worse than its expected average. However, it is non-trivial to attribute the reason for such observed low performances to the specific semantic features that describe the subset. For instance, inhomogeneities within the data w.r.t. other (non-considered) attributes might distort results. However, taking into account all (available) attributes and their interaction is often computationally highly expensive. Inspired by counterfactual explanations, we propose an effective and computationally cheap algorithm to validate the semantic attribution of existing subsets, i.e., to check whether the identified attribute is likely to have caused the degraded performance. We demonstrate this approach on an example from the autonomous driving domain using highly annotated simulated data, where we show for a semantic segmentation model that (i) performance differences among the different pedestrian assets exist, but (ii) only in some cases is the asset type itself the reason for this reduction in the performance.
  • Publication
    Using ScrutinAI for Visual Inspection of DNN Performance in a Medical Use Case
    ( 2023-08-02)
    Görge, Rebekka
    ;
    ;
    Our Visual Analytics (VA) tool ScrutinAI supports human analysts to investigate interactively model performance and data sets. Model performance depends on labeling quality to a large extent. In particular in medical settings, generation of high quality labels requires in depth expert knowledge and is very costly. Often, data sets are labeled by collecting opinions of groups of experts. We use our VA tool to analyse the influence of label variations between different experts on the model performance. ScrutinAI facilitates to perform a root cause analysis that distinguishes weaknesses of deep neural network (DNN) models caused by varying or missing labeling quality from true weaknesses. We scrutinize the overall detection of intracranial hemorrhages and the more subtle differentiation between subtypes in a publicly available data set.
  • Publication
    Word Sense Disambiguation as a Game of Neurosymbolic Darts
    ( 2023-07-25)
    Dong, Tiansi
    ;
    Word Sense Disambiguation (WSD) is one of the hardest tasks in natural language understanding and knowledge engineering. The glass ceiling of 80% F1 score is recently achieved through supervised deep-learning, enriched by a variety of knowledge graphs. Here, we propose a novel neurosymbolic methodology that is able to push the F1 score above 90%. The core of our methodology is a neurosymbolic sense embedding, in terms of a configuration of nested balls in n-dimensional space. The centre point of a ball well-preserves word embedding, which partially fix the locations of balls. Inclusion relations among balls precisely encode symbolic hypernym relations among senses, and enable simple logic deduction among sense embeddings, which cannot be realised before. We trained a Transformer to learn the mapping from a contextualized word embedding to its sense ball embedding, just like playing the game of darts (a game of shooting darts into a dartboard). A series of experiments are conducted by utilizing pre-training n-ball embeddings, which have the coverage of around 70% training data and 75% testing data in the benchmark WSD corpus. The F1 scores in experiments range from 90.1% to 100.0% in all six groups of test data-sets (each group has 4 testing data with different sizes of n-ball embeddings). Our novel neurosymbolic methodology has the potential to break the ceiling of deep-learning approaches for WSD. Limitations and extensions of our current works are listed.