Wenn KI-Systeme systematisch versagen

26.09.2023 225 mal gelesen 0 Kommentare

Systemische Fehler in KI-Modellen: Eine tiefgehende Analyse

Wissenschaftler haben den Markt kommerzieller Machine-Learning-Modelle untersucht und dabei charakterisiert, wann und wie Individuen ausschließlich fehlklassifiziert werden. Die Forschung im Bereich des maschinellen Lernens konzentrierte sich traditionell auf die Untersuchung einzelner Modelle. Doch die Auswirkungen dieser Technologie auf die Menschen hängen vom kumulativen Ergebnis vieler Interaktionen ab, die Menschen mit verschiedenen Modellen haben - oder einem Modell-Ökosystem.

Ein interdisziplinäres Team des Center for Research on Foundation Models (CRFM), unter der Leitung des Stanford CS PhD Rishi Bommasani, analysierte mehrere Machine-Learning-Modell-Ökosysteme. Ihr Ziel war es, zu charakterisieren, wie Individuen maschinelles Lernen in verschiedenen Kontexten wie Computer Vision, Natural Language Processing und Spracherkennung erleben.

Ihre Studie, betitelt „Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes“, deckt beunruhigende Muster systemischer Fehler auf, die aus der vorherrschenden Perspektive der Einzelmodellanalyse unsichtbar sind. Unter anderem identifiziert die Studie neue Formen rassischer Diskrepanzen in der medizinischen Bildgebung für die Dermatologie, die in den Vorhersagen von ML-Modellen, aber nicht in den Vorhersagen von menschlichen Dermatologen auftreten.

Kommerziell eingesetztes ML im Fokus

Das CRFM-Team baute auf früheren Arbeiten auf, die vermuteten, dass Standardpraktiken im maschinellen Lernen homogene Ergebnisse erzielen könnten. Sie glaubten, dass eine algorithmische Monokultur einige Menschen wiederholt schädigen könnte. Die Forscher nannten dieses Konzept „Outcome Homogenization“, bei dem algorithmische Monokultur sicherstellt, dass Individuen wiederholt die gleichen Ergebnisse über AI-Tools hinweg erleben.

Um auf dieser Arbeit aufzubauen, entwarfen sie eine Folgestudie, die ihre Ökosystem-Perspektive anwendet, um kommerziell eingesetzte ML-Modelle von Anbietern wie Amazon, Google, IBM, Microsoft und anderen zu analysieren. Das Team nutzte eine umfangreiche ML-API-Prüfung namens HAPI (History of APIs), um allgemeine Trends im eingesetzten maschinellen Lernen zu identifizieren.

Polarisierte Ergebnisse dominieren

Ein klarer Trend zeigte sich in jedem untersuchten Kontext: Kommerzielle ML-Systeme neigen zu systemischen Fehlern, was bedeutet, dass einige Menschen immer von allen verfügbaren Modellen fehlklassifiziert werden. Wenn jedes Sprachassistentenprodukt auf dem Markt denselben zugrunde liegenden Algorithmus verwendet und dieser Algorithmus die einzigartige Sprechweise eines Individuums nicht erkennen kann, wird diese Person effektiv von der Nutzung jeglicher Spracherkennungstechnologie ausgeschlossen.

„Wir haben festgestellt, dass es Benutzer gibt, die von allen Modellen im Ökosystem klare negative Ergebnisse erhalten“, sagt Connor Toups, ein Stanford-Informatikstudent, der als Hauptautor des Papiers fungierte.

Ökosystem-Ebene-Analyse in der medizinischen Bildgebung

Um den Kontext der medizinischen Bildgebung zu erkunden und ob Ökosystem-Ebene-Ergebnisse über Rassen hinweg variieren, nutzte das Team den Diverse Dermatology Images (DDI)-Datensatz. Hier zeigte sich ein unerwarteter Kontrast zwischen Modellverhalten und menschlichem Verhalten.

Implikationen für Forschung und Politik

Das Team glaubt, dass die von ihnen entwickelte Methodik auf Ökosystem-Ebene zukünftigen Forschungsteams helfen wird, die gesellschaftlichen Auswirkungen des maschinellen Lernens zu messen und anzugehen. Sie schlagen vor, dass politische Interventionen notwendig sein könnten, um negative Auswirkungen homogener Ergebnisse zu verhindern.

„Softwareanbieter sind sich möglicherweise nicht bewusst, dass ihre Systeme alle dieselben Menschen scheitern lassen“, sagt Kathleen Creel, eine Embedded EthiCS Postdoktorandin. „Ohne politische Änderungen zur Förderung der Überwachung auf Ökosystem-Ebene können wir keine Verbesserung erwarten.“

Die Forscher planen, weiter zu untersuchen, was homogene Ergebnisse verursacht und ob maschinelles Lernen homogene Ergebnisse verbessert oder verschlechtert. Dazu benötigen die Forscher mehr Transparenz darüber, wie kommerzielle Modelle trainiert und eingesetzt werden.

„Leider wissen wir nichts über die Trainingsdaten oder Modelle, die diesen kommerziellen KI-Systemen zugrunde liegen. Und obwohl wir wissen, dass diese Systeme weit verbreitet sind, wissen wir nicht genau, wo diese Systeme eingesetzt werden oder wer die Endbenutzer sind“, sagt Toups. „Daher können wir, selbst wenn wir ein konstantes Muster des systemischen Versagens feststellen, die Auswirkungen auf das Leben der Menschen nicht weiter konkretisieren. Größere Transparenz von ML-Anbietern würde es uns ermöglichen, die Forschung weiter voranzutreiben.“

Ihre Meinung zu diesem Artikel

Bitte geben Sie eine gültige E-Mail-Adresse ein.
Bitte geben Sie einen Kommentar ein.
Keine Kommentare vorhanden

Zusammenfassung des Artikels

Wissenschaftler des CRFM haben systemische Fehler in kommerziellen Machine-Learning-Modell-Ökosystemen analysiert und festgestellt, dass einige Individuen wiederholt von allen Modellen fehlklassifiziert werden. Sie fordern politische Interventionen und mehr Transparenz der ML-Anbieter, um die negativen Auswirkungen homogener Ergebnisse zu verhindern.