

Themen
Verantwortungsvolle KI
Die Responsible AI-Initiative untersucht, wie Organisationen verantwortungsvolle KI-Praktiken, -Richtlinien und -Standards definieren und angehen.
Mehr in dieser Serie

Zum fünften Mal in Folge MIT Sloan Management Review und Boston Consulting Group (BCG) haben ein internationales Gremium von KI-Experten zusammengestellt, das Akademiker und Praktiker umfasst, um uns zu helfen zu verstehen, wie verantwortungsvolle künstliche Intelligenz weltweit in Organisationen implementiert wird. In unserem ersten Beitrag dieses Jahres untersuchten wir, wie Organisationen über die Auswirkungen von KI auf die Belegschaft nachdenken sollten, wobei unsere Experten betonten, dass verantwortungsvolle KI bedeutet, über die Sicherheit von KI-Systemen hinauszublicken, um reale Konsequenzen für Arbeitnehmer und wirtschaftliche Stabilität zu adressieren.
Dieses Mal baten wir unser Gremium, auf folgende Provokation zu reagieren: Bemühungen um verantwortungsvolle KI scheitern, wenn sie keine menschlichen Experten hervorbringen, die KI-Lösungen verifizieren können. Oberflächlich betrachtet gibt es einen breiten Konsens, wobei eine klare Mehrheit (84 %) unserer Panelisten der Aussage zustimmt oder stark zustimmt. Aber eine tiefergehende Analyse zeigt, dass die Panelisten Verifikation weitaus umfassender definieren, als die Provokation impliziert. Anstatt sie als eine enge, ausgabeorientierte Prüfung zu behandeln, beschreiben sie Verifikation als die Arbeit, menschliches Urteilsvermögen über den gesamten Lebenszyklus eines KI-Systems hinweg anzuwenden, Kontext zu interpretieren, Tests zu entwerfen, Arbeitsabläufe zu prüfen, Schwellenwerte festzulegen, abzuwägen, wann KI überhaupt nicht verwendet werden sollte, und die Verantwortung zu tragen, die Maschinen nicht übernehmen können. So verstanden ist Verifikation kein letzter Kontrollpunkt, sondern das verbindende Element verantwortungsvoller KI, das die Gestaltung, Überwachung und Rechenschaftspflicht umfasst, die Organisationen parallel zu den Systemen selbst skalieren müssen. Im Folgenden teilen wir Erkenntnisse der Panelisten und geben praktische Empfehlungen für Organisationen, die die menschliche Expertise fördern möchten, von der ihre Bemühungen um verantwortungsvolle KI-Governance abhängen.
Menschen liefern den Kontext zur Überprüfung von KI-Ergebnissen. ForHumanity-Gründer Ryan Carrier unterstützte den Konsens, dass verantwortungsvolle KI-Bemühungen menschliche Fachkenntnisse fördern müssen, um KI-Ergebnisse zu überprüfen, denn, wie er sagt, „kommt es auf den Kontext an“. Ähnlich merkt Franziska Weindauer, CEO des TÜV AI.Lab, an: „KI-Lösungen operieren in komplexen realen Kontexten, und menschliche Experten sind unerlässlich, um Ergebnisse zu interpretieren, Fehler zu erkennen und sicherzustellen, dass Systeme wie beabsichtigt funktionieren.“ Wie Stefaan Verhulst, Chief Research and Development Officer bei GovLab, erklärt: „Viele der bedeutendsten Risiken von KI sind gesellschaftlicher und nicht technischer Natur, wie etwa die Abweichung von öffentlichen Werten, schädliche Auswirkungen auf gefährdete Gruppen oder unangemessene Einsatzkontexte.“ Diese Risiken, so viele Experten, sind genau diejenigen, die mit einer rein technischen Lösung am schwersten zu bewältigen sind.
Für manche ist Kontext untrennbar menschlich und kann nicht allein in maschinenlesbarer Form erfasst werden. Wie OdeseIA-Präsidentin Idoia Salazar erklärt: „Nicht alles wird in Daten übersetzt, wie etwa der Kontext in einer bestimmten Situation.“ Yasadora Cordova, herausragendes Mitglied des Investitionsausschusses des Co-Develop-Fonds, stimmt dem zu, dass verantwortungsvolle KI „kontextuelle Sensibilität“ erfordert – eine Eigenschaft, die ihrer Ansicht nach „nicht automatisiert werden kann“. Dr. Jai Ganesh, Vizepräsident für Technologie, Connected Services, Engineering bei Wipro Ltd., fügt hinzu: „Situationsbewusstsein ist ein weiterer Problembereich für KI-Systeme, bei dem eine korrekte Ausgabe in einem bestimmten Land oder einer bestimmten Situation kulturell unsensibel oder rechtlich problematisch sein kann.“ Yan Chow von Automation Anywhere bemerkt ebenfalls, dass „Menschen soziopolitische Nuancen und Veränderungen erkennen, die Daten nicht erfassen können.“ Aus diesen Gründen kommt Simon Chesterman, Provost der National University of Singapore, zu dem Schluss, dass „egal wie ausgefeilt das Modell oder wie umfangreich der Governance-Rahmen ist, jemand in der Lage sein muss zu fragen, ob ein System zuverlässig, rechtmäßig und im Kontext angemessen ist“ – eine Verantwortung, die seiner Ansicht nach menschliches Fachwissen erfordert.
Wenn Kontext von Maschinen nicht vollständig erfasst werden kann, sind die praktischen Konsequenzen erheblich. Carrier argumentiert, dass „Fachexperten notwendig sind, um Feedback und Risikobewertungen zu liefern, die zu maßgeschneiderten Kontrollen, Behandlungen und Minderungsmaßnahmen führen, die darauf ausgelegt sind, die spezifischen und einzigartigen Risiken des kontextabhängigen KI-Einsatzes und der Nutzung zu bewältigen.“ Salazar geht noch weiter und behauptet, dass „egal wie fortschrittlich ein Werkzeug ist, es nicht garantieren kann, dass seine Ergebnisse fair, sicher oder dem Kontext angemessen sind.“ Für Ganesh steigen die Risiken bei „Grenzfällen, seltenen Szenarien und neuen Kontexten, in denen KI-Systeme tendenziell versagen“, und er glaubt, dass „das Erkennen dieser Fehler menschliches Urteilsvermögen und tiefgehende Fachexpertise erfordert.“ Chow stimmt zu, dass menschliche Expertise entscheidend ist, um „expertengestützte Schutzmechanismen für die Grenzfälle zu schaffen, in denen KI am anfälligsten ist.“ Darüber hinaus argumentiert er, dass „verantwortungsvolle KI-Rahmenwerke ohne menschliche Experten zu Compliance-Theater verkommen, weil KI keinen dynamischen Kontext wahrnehmen kann.“
Der Verlust menschlicher Expertise stellt eine existenzielle Bedrohung für Organisationen dar. Die Sorge besteht nicht nur darin, dass KI-Systeme ohne menschliche Expertise zur Überprüfung von Ergebnissen versagen, sondern auch darin, dass Organisationen im Laufe der Zeit menschliche Expertenkapazitäten verlieren könnten. Cordova argumentiert, dass „Organisationen, die die Überprüfung nur KI delegieren, die institutionelle Fähigkeit zur Prüfung untergraben, da Fachwissen verkümmert und Nachwuchskräfte nie Eigenständigkeit entwickeln.“ Ebenso warnt die Beraterin Linda Leopold: „Wenn wir KI immer die Arbeit für uns erledigen lassen, verlieren wir nach und nach die Expertise, die zur Überwachung nötig ist“, und „wir müssen das menschliche Urteilsvermögen scharf genug halten, um es herauszufordern.“ EnBW-Chefdatenwissenschaftler Rainer Hoffmann sagt: „Verantwortungsvolle KI-Bemühungen scheitern nicht daran, dass Menschen nicht jede KI-Entscheidung überprüfen können, sondern daran, dass Organisationen nicht über die Expertise verfügen, um zu steuern, wie KI-Systeme bewertet, überwacht und verantwortungsvoll eingesetzt werden sollten.“
Die geschäftlichen Risiken sind aus dieser Perspektive grundlegend menschlicher Natur. Wie Belona Sonna von der Australian National University argumentiert: „Das Kernziel verantwortungsvoller KI besteht nicht nur darin, Systeme zu entwickeln, die ethischen Grundsätzen entsprechen, sondern auch sicherzustellen, dass Menschen weiterhin eingreifen können, wenn Abweichungen auftreten.“ Anders ausgedrückt, so Salazar, braucht verantwortungsvolle KI „Menschen, die bereit sind, das, was eine grundlegend menschliche Verantwortung bleibt, nicht an Maschinen zu delegieren.“ Ohne diese Fähigkeit wird die Frage, ob verantwortungsvolle KI eine menschliche Überprüfung von KI-Ergebnissen erfordert, hinfällig – da niemand mehr über die nötige Fachkenntnis verfügt.
Die menschliche Verifikation allein skaliert nicht. Trotz breiter Unterstützung für die Bedeutung der Förderung menschlicher Expertise äußern viele Experten Bedenken hinsichtlich des Umfangs und der Reichweite menschlicher Überprüfung. Der Professor der Wharton School, Kartik Hosanagar, erklärt: „Es gibt viele Bereiche, in denen eine menschliche Überprüfung hilfreich ist. Aber es gibt viele andere, in denen eine menschliche Überprüfung aufgrund des erforderlichen Prüfumfangs nicht durchführbar ist.“ Hoffmann stimmt zu, dass bei „Anwendungen, die große Datenmengen verarbeiten oder Muster erkennen, die über die menschliche Fähigkeit hinausgehen, eine outputweise menschliche Überprüfung weder machbar noch sinnvoll ist.“ Für einige Experten würde die Anforderung, menschliche Überprüfung in diesem Umfang zu skalieren, das gesamte Wertversprechen des KI-Einsatzes untergraben. Wie Öykü Işik es ausdrückt: „Der Kernwert der KI liegt in ihrer Geschwindigkeit und Skalierbarkeit“, sodass „die Forderung nach menschlicher Überprüfung für jede Ausgabe diese Effizienzgewinne effektiv neutralisieren würde.“
Die Lösung besteht für diese Experten nicht darin, menschliches Urteilsvermögen aufzugeben, sondern es strategischer einzusetzen. Philip Dawson, Leiter der KI-Politik bei Armilla AI, ist der Ansicht, dass „mit zunehmender Komplexität und Einsatzgeschwindigkeit von KI-Systemen die rein menschliche Überprüfung zu einem strukturellen Engpass wird“ und einen anderen Ansatz erfordert. Unter Berufung auf die Cybersicherheit als Beispiel argumentiert Işik, dass ein System die Fähigkeit besitzen müsse, zu erkennen, wann menschliches Eingreifen nötig ist, „während es sich für den Großteil der Arbeitslast auf automatisierte Entscheidungsfindung stützt, um massive operative Engpässe zu vermeiden“, und vertritt die Ansicht, dass „die erfolgreichsten verantwortungsvollen KI-Bemühungen menschliche Expertise und automatisierte Werkzeuge als ein kombiniertes System behandeln“. Alyssa Lefaivre Škopac, Direktorin für Vertrauen und Sicherheit am Alberta Machine Intelligence Institute, plädiert für einen „mehrschichtigen Verteidigungsansatz, der von den Front-End-Nutzern, die eine Ausgabe sinnvoll hinterfragen können, bis hin zu den Fachleuten reicht, die das Sicherheitsökosystem um diese Systeme herum aufbauen“. Dawson argumentiert ähnlich, dass „das Feld in automatisierte Bewertungsrahmen und agentische Sicherheitspipelines investieren muss, die menschliches Urteilsvermögen im großen Maßstab erweitern, nicht ersetzen“.
Aufsicht und Rechenschaftspflicht bleiben von größter Bedeutung. Neben der Kombination aus menschlicher und maschineller Überprüfung sind nach Ansicht unserer Experten Aufsicht und Rechenschaftspflicht nach wie vor von größter Bedeutung für jede verantwortungsvolle KI-Strategie. Chesterman argumentiert, dass „Verifizierung nicht zu eng verstanden werden sollte“. Er fügt hinzu: „In manchen Umgebungen validieren menschliche Experten die Ergebnisse direkt, in anderen entwerfen sie Tests, prüfen Arbeitsabläufe, legen Schwellenwerte für die akzeptable Nutzung fest oder entscheiden, wann KI überhaupt nicht eingesetzt werden sollte.“ Mit anderen Worten: Wie Chow es ausdrückt: „Menschliche Expertise ist eine Notwendigkeit in der Entwurfsphase, nicht nur eine Laufzeitkontrolle.“ Der ehemalige Chief Analytics Officer der DBS Bank, Sameer Gupta, stimmt dem zu: „Governance und Aufsicht sollten in jede Phase des Entwurfs und der Bereitstellung einer KI-Lösung eingebettet sein, anstatt nur als letzte Kontrollinstanz für die Ergebnisse behandelt zu werden.“
Viele Experten argumentieren, dass die menschliche Überprüfung von KI-Ergebnissen nicht als Selbstzweck, sondern als zentraler Bestandteil einer sinnvollen Aufsicht und Rechenschaftspflicht für KI-Systeme unerlässlich ist. Ben Dias, Chef-KI-Wissenschaftler der IAG, erklärt, dass KI-Systeme als „technologische Konstrukte … nicht über die Handlungsfähigkeit verfügen, um rechtlich oder ethisch für die Konsequenzen ihres Handelns zur Verantwortung gezogen zu werden“. Aus diesem Grund, so Dias, „braucht jede KI-Lösung einen rechenschaftspflichtigen Menschen, der dafür verantwortlich ist, dass die Ergebnisse des Systems richtig verstanden und überprüft werden“. Naomi Lariviere, Chief Product Officer bei ADP, stimmt dem zu und sagt: „KI-Systeme können Empfehlungen generieren und Entscheidungen automatisieren, aber sie können keine Verantwortung tragen.“ Mike Linksvayer, Vice President of Developer Policy bei GitHub, argumentiert, dass „mit zunehmender Handlungsfähigkeit der Systeme der limitierende Faktor nicht mehr die Fähigkeit ist, einzelne Ergebnisse zu überprüfen, sondern die Fähigkeit, fundierte Urteile über Ziele, Einschränkungen, Eskalationswege und Verantwortlichkeiten zu fällen.“
Empfehlungen
Wenn der limitierende Faktor die Fähigkeit ist, fundierte Urteile zu fällen, nicht nur KI-Ergebnisse zu überprüfen, dann müssen Organisationen bewusst in dieses Urteilsvermögen investieren. Wir bieten die folgenden Empfehlungen für Organisationen, die menschliche Expertise aufbauen möchten, die mit ihren KI-Ambitionen skaliert:
1. Überprüfen Sie Entwürfe, nicht nur Ergebnisse. Eine enge Sichtweise der menschlichen Überprüfung, die sich nur auf Systemausgaben konzentriert, ist unzureichend. Menschliche Überprüfung im weiteren Sinne der menschlichen Aufsicht sollte in jeder Phase des Designs und der Bereitstellung einer KI-Lösung verankert sein und nicht als letzte Kontrollinstanz behandelt werden. Das bedeutet, dass menschliche Experten Schwellenwerte festlegen, Tests entwerfen, Arbeitsabläufe prüfen und entscheiden, wann KI nicht eingesetzt werden sollte – und nicht nur einzelne Ergebnisse im Nachhinein überprüfen.
2. Verlassen Sie sich nicht allein auf menschliche Überprüfung. Da die menschliche Überprüfung jedes KI-Outputs nicht skalierbar ist, sollten Organisationen, die sich einer verantwortungsvollen Aufsicht verpflichtet fühlen, in verschiedene Ansätze investieren, die automatisierte Werkzeuge nutzen, um menschliches Urteilsvermögen zu erweitern oder zu ergänzen. Die menschliche Überprüfung sollte dort betont werden, wo menschliches Urteilsvermögen unerlässlich ist, einschließlich Grenzfällen, Entscheidungen mit hohen Einsätzen und neuartigen Kontexten, während automatisierte Werkzeuge das verbleibende Aufgabenvolumen bewältigen können. Ziel ist ein kombiniertes System, das menschliches Urteilsvermögen in großem Maßstab erweitert, anstatt es zu ersetzen oder durch es zum Engpass zu werden.
3. In menschliche Expertise investieren. Organisationen sollten in menschliche Expertise investieren, um die Ergebnisse von KI-Systemen zu überprüfen und eine kontinuierliche Aufsicht darüber zu gewährleisten, wie Systeme konzipiert werden und ob sie wie beabsichtigt funktionieren. Tatsächlich steigt mit wachsenden technischen Fähigkeiten der Bedarf an menschlicher Expertise nur noch weiter. Wenn Nachwuchskräfte nie ein unabhängiges Urteilsvermögen entwickeln und die Expertise erfahrener Mitarbeiter verkümmert, weil sie nicht in diesen Prozess eingebunden sind, riskiert die Organisation, ihre Fähigkeit zur Steuerung von KI-Systemen zu verlieren. Dies kann bedeuten, dass menschliche Beteiligung an Prozessen oder Aufgaben aufrechterhalten wird, die Fachwissen und Urteilsvermögen aufbauen, selbst wenn sie mit KI automatisiert werden könnten. In diesen Fällen sollten die entgangenen Effizienzgewinne als strategische Investitionen in die Zukunft betrachtet werden.
4. Überprüfen Sie, was gelernt wurde, nicht nur, was produziert wurde. Unternehmen konzentrieren sich bei der Verifikation meist darauf, ob die Ergebnisse eines KI-Systems korrekt sind, doch sie müssen auch die Lehren hinterfragen, die sie aus KI-Einsätzen und -Ergebnissen ziehen. Wenn Teams Pilotresultate interpretieren, Leistungssteigerungen messen oder entscheiden, was funktioniert hat und was nicht, werden diese Schlussfolgerungen zur Grundlage für künftige Investitionen, Skalierungsentscheidungen und organisationsinterne Narrative über den Wert von KI. Sind diese Lehren fehlerhaft (weil falsche Kennzahlen verfolgt, Randfälle ignoriert oder Erfolge vorschnell verkündet wurden), riskieren Unternehmen, falsche Annahmen in immer größerem Maßstab zu verfestigen. Fachleute sollten nicht nur einbezogen werden, um die Ergebnisse von KI-Systemen zu überprüfen, sondern auch, um kritisch zu bewerten, was die Organisation glaubt, aus deren Einsatz gelernt zu haben.
5. Verifizierung als strategische Notwendigkeit betrachten, nicht nur als Verantwortungspraxis. Laut einer globalen Führungskräfteumfrage aus dem Jahr 2025, die von MIT Sloan Management Review und BCG betrachten 86 % der Führungsteams KI als wesentlichen Bestandteil ihrer strategischen Prioritäten. Wenn KI im Zentrum dessen steht, wie ein Unternehmen konkurriert, wächst und Entscheidungen trifft, beeinflusst die Qualität der menschlichen Aufsicht direkt strategische Ergebnisse – nicht nur ethische. Fehlerhafte Ergebnisse, unkontrollierte Einsätze und schlecht gezogene Lehren schaffen nicht nur Haftungsrisiken; sie führen zu Fehlallokation von Ressourcen, gescheiterten Initiativen, geschwächter Wettbewerbsposition und verlorenem Kundenvertrauen. Die vorangegangenen Empfehlungen – Designs überprüfen, menschliche und automatisierte Aufsicht kombinieren, in Fachwissen investieren und Gelerntes hinterfragen – sind nicht bloß wünschenswerte Ergänzungen eines verantwortungsvollen KI-Programms. Sie sind Voraussetzungen für effektives strategisches Management.
#Verifizierung #Verantwortung #Anforderungen #Menschliche #Experten

