CLEAR – Contextual Legal Entity Anonymization and Recognition
Texte, die personenbezogene Daten enthalten, dürfen für viele Zwecke, darunter etwa das Trainieren von KI-Systemen, Forschungs- oder Schulungszwecke sowie die Veröffentlichung von Gerichtsentscheidungen oder parlamentarischen Materialien, nur dann verwendet werden, wenn sie zuvor anonymisiert oder pseudonymisiert wurden. Dafür braucht es eine verlässliche und nachvollziehbare Identifikation der Personenbezüge.
Das Forschungsprojekt CLEAR entwickelt und untersucht generische, transparente, vertrauenswürdige und nachhaltige Lösungen zur Erkennung von Entitäten in deutschsprachigen Fließtexten, mit dem Schwerpunkt auf der Identifikation personenbezogener Daten. Dabei kombiniert CLEAR die Vorteile von regelbasierten und maschinellen Lernverfahren:
- Mittels Human-in-the-Loop-Ansätzen werden Regeln für Named Entity Recognition (NER) gelernt und für Fachanwender:innen konfigurierbar gemacht.
- Deep-Learning-Modelle generieren Kandidaten für Entitäten, die anhand trainierter, anwendungsspezifischer Regelsätze ausgewählt werden.
So entsteht eine flexible und prüfbare Architektur, die die Schwächen aktueller „Black Box“-Lösungen zu vermeiden versucht und gleichzeitig Umweltkosten und Trainingsaufwand reduziert.
Der Schwerpunkt liegt neben der technischen Entwicklung auf den rechtlichen Fragen der Anonymisierung. Das Institut für Innovation und Digitalisierung im Recht forscht im Rahmen des Projekts insbesondere zu folgenden Fragen:
- Wie ist Anonymisierung im Unterschied zur Pseudonymisierung rechtlich abzugrenzen?
- Welche Bedeutung haben unklare Definitionen in der DSGVO sowie in neuen EU-Rechtsakten wie dem Data Act und dem Data Governance Act?
- Welche Vorgaben macht die KI-Verordnung (AI Act) – etwa zur Forschungsausnahme, zu Pflichten für Entwickler:innen und Anbieter oder zur Risikoeinstufung von KI-Systemen?
- Welche urheberrechtlichen Fragestellungen ergeben sich beim Einsatz von Trainingsdaten?
Durch diese interdisziplinäre Verbindung von Technik und Rechtswissenschaft soll CLEAR praktikable und rechtssichere Anonymisierungsstrategien entwickeln, die auch für sensible Anwendungsbereiche wie Justiz, Verwaltung oder Parlament von zentraler Bedeutung sind.
Weitere Informationen über das Projekt finden Sie hier und in u:cris.
An diesem Projekt arbeiten folgende Expert*innen des Instituts:
- Forgó, Nikolaus (Projektleiter)
- Wimmer, Martina (Projektadministratorin)
- Kandov, Boris (wissenschaftlicher Projektmitarbeiter)
- Hafenscher, Hannah (wissenschaftliche Projektmitarbeiterin)
