Zurück zur Übersicht
15.11.2024

Datenschutz bei generativer KI

ChatGPT und Co.: Datenschutzrechtliche Herausforderungen und Risiken beim Einsatz generativer KI in Unternehmen

Ende 2022 hat das Unternehmen OpenAI den Dienst ChatGPT für die Öffentlichkeit verfügbar gemacht und damit einen regelrechten Hype ausgelöst. Die Fähigkeiten von generativer Künstlicher Intelligenz (KI) wie z. B. ChatGPT sind zumindest auf den ersten Blick sehr beeindruckend. Allerdings bringt deren Einsatz auch verschiedene tatsächliche und rechtliche Schwierigkeiten mit sich – eine davon ist die Erfüllung datenschutzrechtlicher Pflichten.

Generative Künstliche Intelligenz

Der Begriff der Künstlichen Intelligenz, der bis in die 1950er Jahre zurückreicht, ist nicht einheitlich definiert und umfasst ein sehr weites Feld unterschiedlicher Algorithmen, IT-Anwendungen und IT-Dienste. Bereits dies erschwert den Umgang mit KI auch aus datenschutzrechtlicher Sicht, da von unterschiedlichsten IT-Anwendungen gesprochen werden kann, wenn es um den Einsatz von KI geht. Allen Definitionen gemeinsam ist, dass das Ziel von KI im Wesentlichen die Annäherung der Datenverarbeitung an die menschliche Intelligenz aus Sicht des menschlichen, rationalen Denkens und Handelns ist. Um dieses weite Themenfeld einzugrenzen, konzentriere ich mich im Folgenden auf Verfahren des maschinellen Lernens und insbesondere auf die derzeit in der öffentlichen Diskussion stehenden, auf neuronalen Netzen aufbauenden generativen KIs und großen Sprachmodellen (Large Language Models – LLM). Diese Konzepte unterscheiden sich grundlegend von der klassischen Vorstellung der Datenverarbeitung, die im Wesentlichen darauf basiert, Eingaben zu verarbeiten, die in einem vorgegebenen und vorhersehbaren Rahmen angenommen werden, und mit vorher programmierten Ausgaben darauf zu reagieren.

LLMs werden mit riesigen Mengen bereits bestehender Texte z. B. aus dem Internet trainiert. Jeder Satz, der während des Trainings verwendet wird, sorgt dafür, dass im Lernprozess die sogenannten Parameter zwischen den einzelnen, der unzähligen künstlichen Neuronen in den neuronalen Netzen, die aus vielen Schichten miteinander verbundener sogenannter Neuronen bestehen, verändert und angepasst werden. Durch Hunderte von Milliarden solcher Parameter werden sowohl die Position in einem Satz als auch die Gewichtung einzelner Worte berücksichtigt, so dass Eigenarten des Aufbaus, der Zusammensetzung von Texten und der jeweiligen Sprache berücksichtigt werden. Die gelernten (personenbezogenen) Daten sind somit nicht als solche irgendwo gespeichert, können von der KI aber anhand der erlernten Parameter generell wieder reproduziert werden.

Anders als bei klassischen datenbankbasierten Anwendungen speichert eine generative KI die gelernten Daten – wie z. B. Namen oder Sätze – nicht in herkömmlicher Weise ab. Vielmehr ermittelt sie mathematisch unter Berücksichtigung der semantischen Zusammenhänge der Eingabe die Wahrscheinlichkeit des jeweils nächsten Wortes. Sie würde z.B. ermitteln, dass im Zusammenhang mit klassischer Musik das Wort „Ludwig“ vorkommt und wiederum mit extrem hoher Wahrscheinlichkeit darauf das Wort „van“ und darauf „Beethoven“ folgt. Der Name „Ludwig van Beethoven“ als Ganzes wäre hingegen nicht buchstäblich im neuronalen Netz der LLM gespeichert. Das System hat kein Weltwissen. Es weiß weder, was Musik ist, noch, wer Beethoven war. Es hat aber gelernt, menschliche Sprache anhand statistischer Wahrscheinlichkeiten so zu imitieren, dass es mit uns über die Musik Beethovens „sprechen“ kann.

Zusammen mit weiteren, in den IT-Anwendungen der LLMs eingesetzten Algorithmen befähigt diese Fähigkeit die Anwendungen dazu, frei formulierte Eingaben eines Nutzers richtig zu interpretieren und als Antwort darauf passende, teilweise auch sehr lange und komplexe Texte zu generieren. Deren Inhalt basiert wiederum auf den im Training zum jeweiligen Kontext hergestellten Verknüpfungen.

Entsprechende Anwendungen bieten ungeheures Potenzial zur Automatisierung aller möglichen text- oder sprachbasierten Tätigkeiten, vom Abfassen von journalistischen Texten oder dienstlichen Vermerken über die Kommunikation z.B. im Kundendienst bis hin zur Erstellung grundlegend neuer Ideen und Konzepte. Dementsprechend viele mögliche Anwendungsfälle sind denkbar und dementsprechend gefragt sind vergleichbare Anwendungen bereits jetzt.

Mit diesen Fähigkeiten gehen aber auch zum Teil erhebliche Probleme einher. Da für die Adressaten oftmals nicht erkennbar ist, dass sie einen generierten Text lesen, besteht eine große Gefahr für Manipulation und Desinformation. So besteht insbesondere die Gefahr, dass falsche oder durch sogenannte Halluzinationen erzeugte Informationen durch die KI dem menschlichen Nutzer überzeugend dargestellt und damit als richtig suggeriert werden. Sind in den Trainingsdaten – offen oder versteckt – Vorurteile eingebettet, besteht eine hohe Wahrscheinlichkeit, dass auch die Antworten des Sprachmodells unzulässige Diskriminierungen enthalten. Da eine KI weder Emotionen noch ethische Werte kennt, können auch stark beleidigende oder gar hasserfüllte Ausgaben erfolgen, solange dies nur bestimmten, von der KI erlernten Mustern folgt. Und nicht zuletzt können je nach Inhalt und Qualität der Trainingsdaten auch Verarbeitungen erfolgen, die auf unzulässiger Nutzung von beispielsweise urheberrechtlich geschützten Werken oder personenbezogenen Daten basieren.

Datenschutzrechtliche Fragestellungen

Im Zuge der fortschreitenden Digitalisierung und des vermehrten Einsatzes Künstlicher Intelligenz (KI) sind datenschutzrechtliche Fragestellungen von essenzieller Bedeutung. Die Datenschutzaufsichtsbehörde hat im aktuellen Berichtszeitraum verstärkt den Fokus auf die Herausforderungen gerichtet, die mit dem Einsatz von KI-Technologien einhergehen. Insbesondere stellen sich Fragen zur Transparenz und Nachvollziehbarkeit von KI-Entscheidungen, da komplexe Algorithmen oft schwer verständlich sind. Auch die rechtmäßige Verarbeitung personenbezogener Daten im Kontext von KI-Anwendungen erfordert besondere Aufmerksamkeit, um sicherzustellen, dass Datenschutzprinzipien wie Zweckbindung und Datenminimierung gewahrt bleiben. Ein weiterer zentraler Aspekt ist die Sicherheit der Datenverarbeitung, um potenzielle Risiken für die informationelle Selbstbestimmung der Betroffenen zu minimieren. Die Datenschutzaufsichtsbehörde hat in diesem Berichtszeitraum verstärkte Anstrengungen unternommen, Unternehmen und Organisationen bei der Implementierung von Datenschutzmaßnahmen im Kontext von Künstlicher Intelligenz zu unterstützen und auf bestehende rechtliche Rahmenbedingungen hinzuweisen. Der Schutz der Privatsphäre und die Einhaltung datenschutzrechtlicher Vorgaben sind in einer zunehmend von KI geprägten Welt von entscheidender Bedeutung, und die Datenschutzaufsichtsbehörde wird auch zukünftig proaktiv agieren, um diesen Herausforderungen gerecht zu werden.

Generative KI ist, zumindest als praktisch nutzbare und breit verfügbare Anwendung, noch sehr jung. Da sich die Verarbeitung von Daten dabei recht grundlegend von der herkömmlichen, auf Datenbanken basierenden Verarbeitung unterscheidet, sind viele datenschutzrechtliche Fragen bisher noch nicht hinreichend beantwortet.

Eine rechtlich wie auch technisch spannende Frage, die zugleich die Anwendbarkeit des Datenschutzrechts an sich betrifft, ist die Frage, ob die beim Training einer generativen KI verwendeten personenbezogenen Daten von der KI gespeichert oder anderweitig verarbeitet werden. Angesichts der weiten Definition der Verarbeitung von Daten in Art. 4 Nr. 2 DSGVO spricht aber vieles dafür, dass auch die oben beschriebene Form der Verarbeitung grundsätzlich gemäß Art. 2 Abs. 1 DSGVO vom Datenschutzrecht erfasst ist.

Schwierig ist zudem auch die Frage nach der datenschutzrechtlichen Verantwortlichkeit. Die Entwicklung und das Training von KI-Basis-Modellen verantworten zweifellos deren Entwickler und Anbieter. Auf diesen Basis-Modellen bauen wiederum verschiedene Dienste auf, die zu der jeweiligen Basis zusätzliche Fähigkeiten, Einschränkungen oder sonstige Besonderheiten ergänzen und damit Einfluss auf die Datenverarbeitung durch die KI nehmen. Schließlich lösen auch die Nutzenden Verarbeitungsvorgänge aus, die mit personenbezogenen Daten verbunden sind, indem sie solche in Anfragen an die KI eingeben oder als Antworten auf ihre jeweiligen Anfragen erhalten. Wie sich das Zusammenspiel dieser Akteure in rechtlicher Form bezüglich der Verantwortlichkeit abbildet, hängt vom jeweiligen Einzelfall und von der technischen Gestaltung der KI sowie der rechtlichen Gestaltung im Nutzungsverhältnis ab. Dabei kann es sowohl einen einzelnen Verantwortlichen geben, möglich sind aber auch gemeinsame Verantwortlichkeiten der Beteiligten sowie Auftragsverarbeitungsverhältnisse.

Fraglich ist weiterhin auch der Umgang mit den Betroffenenrechten, also beispielsweise mit den Rechten auf Berichtigung, Löschung oder Auskunft von personenbezogen Daten. Die Tatsache, dass die zum Training verwendeten, ggf. auch personenbezogenen Daten nicht in abstrakt nachvollziehbarer Form gespeichert werden und damit nicht einfach abgerufen, geändert oder gelöscht werden können, erschwert die Geltendmachung von Betroffenenrechten erheblich. Die einer KI einmal antrainierten Daten im Nachhinein zu beeinflussen, ist schwer möglich, da sich mit dem Training neuronale Verknüpfungen gebildet haben, die sich in aller Regel nicht vollständig rückgängig machen lassen dürften. Eine denkbare Lösung für dieses Problem wäre jedoch das sog. AI-Alignment. Entsprechende Verfahren zielen darauf ab, KI-Systeme so zu lenken, dass sie im Einklang mit menschlichen Zielen, Präferenzen oder ethischen Grundsätzen handeln. Auf diese Weise könnten das Training und die Ausgaben der KI vorab beeinflusst oder nachträglich abgeändert werden, um zumindest die Wiedergabe unangemessener oder beispielsweise datenschutzrechtlich unzulässiger Inhalte zu verhindern.

Auch noch weitgehend ungeklärt, letztlich aber auch von der Gestaltung des jeweiligen Dienstes abhängig ist der Umgang mit den bei der Nutzung der KI anfallenden Daten der sie Nutzenden. Da die KI zur Weiterentwicklung und Verbesserung auf beständiges Training mit neuen Texteingaben angewiesen ist, dürfte es für viele Anbieter naheliegen, auch die Eingaben der Nutzenden zu diesem Zweck zu verwenden. Zudem ermöglicht dieses Vorgehen auch, die Antworten der KI mit der Zeit zu individualisieren und stärker auf die Vorstellungen der einzelnen Nutzenden abzustimmen. Auch die Anfragen enthalten aber häufig personenbezogene Daten und lassen unter Umständen weitgehende Rückschlüsse auf die nutzende Person und deren Lebensumstände zu. Äußerst problematisch wäre es beispielsweise, wenn häufige Eingaben einer Person und entsprechendes Lernen der KI dazu führen würden, dass die gelernten Informationen auch anderen Nutzenden in Form von generiertem Text zur Verfügung gestellt würden.

Umgang mit diesen Herausforderungen

Angesichts der vielen offenen Fragen im Zusammenhang mit generativer KI habe ich, gemeinsam und inhaltlich abgestimmt mit mehreren anderen deutschen Datenschutzaufsichtsbehörden, im Berichtszeitraum eine Prüfung des Dienstes ChatGPT und dessen Anbieters OpenAI eingeleitet. Da das Unternehmen im Berichtszeitraum seinen einzigen Sitz in den USA hatte und von dort aus seine Dienste auch Nutzern in der EU anbot, waren alle europäischen Datenschutzaufsichtsbehörden gleichermaßen zuständig, die Rechtmäßigkeit der Datenverarbeitung durch das Unternehmen zu überprüfen.

Dem Unternehmen wurden weitreichende Fragen gestellt, um die Hintergründe der Datenverarbeitung und den Umgang mit personenbezogenen Daten bei dem Dienst besser einschätzen und rechtlich bewerten zu können. Die Prüfung war zum Ende des Berichtszeitraums noch nicht abgeschlossen, es zeigten sich jedoch bereits einige Eigenschaften, die weiteres kritisches Nachfragen erfordern.

Durch die in der DSGVO geregelte enge und koordinierte Zusammenarbeit der europäischen Datenschutzbehörden ist ein konsistentes weiteres Vorgehen auch dann sichergestellt, wenn das Unternehmen eine Niederlassung in der EU gründet, welche die Verarbeitung der Daten europäischer Nutzender verantwortet.

Wer generative KI in seinem Arbeitsumfeld einsetzen möchte, sei es in einem Unternehmen oder auch in öffentlichen Stellen, ist mit der schwierigen Aufgabe konfrontiert, dies in einem datenschutzrechtlich verantwortbaren Rahmen zu tun. Nicht nur, aber auch aus datenschutzrechtlicher Sicht sind viele Fragen zur Nutzung von KI und den dadurch möglicherweise entstehenden Folgen noch nicht abschließend geklärt. Sie können damit auch von den ggf. rechtlich verantwortlichen KI-Nutzenden selbst (noch) nicht hinreichend beantwortet werden und bergen rechtliche Risiken. Dies gilt neben dem Datenschutzrecht auch für andere Rechtsgebiete wie z. B. die gewerblichen Schutzrechte, das Zivil- oder das Arbeitsrecht. Insofern ist grundsätzlich zu einem umsichtigen und bedachten Vorgehen zu raten.

In jedem Fall sollte beim Einsatz von LLM durch geeignete und angemessene Maßnahmen den o. g. Risiken adäquat begegnet und so das Risiko für das Persönlichkeitsrecht auf ein akzeptables Maß reduziert werden. So sollten schon bei der Auswahl eines bestimmten KI-Anbieters datenschutzrechtliche Fragen von Anfang an bedacht und darauf geachtet werden, ob dieser zufriedenstellende Antworten auf die o.g. Problembereiche geben kann. Wenn grundsätzliche Bedenken bei Fragen der Rechtmäßigkeit der Datenverarbeitung, der Verantwortlichkeit, dem Umgang mit Nutzerdaten oder Betroffenenrechten oder auch der Übermittlung von Daten in Drittstaaten außerhalb der EU bestehen, sollte vom Einsatz einer solchen Anwendung bis zur Klärung der offenen Fragen abgesehen werden.

Auch bei der Gestaltung des Rechts- bzw. Nutzungsverhältnisses mit dem Anbieter der KI ist auf datenschutzrechtliche Belange zu achten. So sollte beispielsweise die datenschutzrechtliche Verantwortlichkeit in angemessener Form zwischen den Beteiligten verteilt und die mögliche Geltendmachung von Betroffenenrechten gewährleistet sein. Ebenso ist sicherzustellen, dass Nutzerdaten nicht in unzulässiger Weise erhoben und verarbeitet werden und der Umfang der Datenverarbeitung für die Nutzer transparent und nachvollziehbar dargestellt wird. Innerhalb der KI-Anwendung sollten möglichst datenschutzfreundliche Einstellungen getroffen werden.

Um datenschutzrechtlichen und weiteren rechtlichen Risiken zu begegnen, sollten die Ergebnisse der KI in jedem Fall einer hinreichenden und dem Risiko der jeweiligen Verarbeitung angemessenen menschlichen Kontrolle unterzogen werden. Beim derzeitigen Entwicklungsstand von KI-Anwendungen ist dies dringend erforderlich, um falsche, unangemessene oder auch rechtlich angreifbare Ergebnisse der KI zumindest korrigieren zu können. Zu Recht verbietet Art. 22 Abs. 1 DSGVO ausdrücklich, dass Personen einer ausschließlich auf einer automatisierten Verarbeitung beruhenden Entscheidung unterworfen werden, wenn sie ihnen gegenüber rechtliche Wirkung entfaltet oder sie in ähnlicher Weise erheblich beeinträchtigt. Bei nicht nur nebensächlichen Dingen sollte niemand ohne ein menschliches Korrektiv der alleinigen Entscheidung einer Maschine ausgesetzt sein, mag sie auch noch so intelligent erscheinen.

Quelle: HBDI

Fragen Sie sich, ob Sie beim Einsatz von KI-Systemen als Unternehmen bei Datenschutz und Datensicherheit richtig aufgestellt sind?

Unverbindlich mit einem Datenschutzbeauftragten sprechen.

Kontakt aufnehmen

Weitere unterstützende Hinweise zum Datenschutz finden Sie in diesen Beiträgen:

Dieser Absatz enthält Affiliatelinks/Werbelinks