Daten schwärzen


Sensible Daten schwärzen oder entfernen

Herausforderungen

 

Personenbezogene Daten (PII), die für die nachgelagerte Verwendung oder Wiederherstellung nicht benötigt werden sollten überarbeitet (mit Maskierungszeichen überzogen oder entfernt) werden, um Missbrauch zu verhindern. In der Zwischenzeit müssen möglicherweise noch andere Datenelemente oder ausgewählte Teile des PII-Wertes selbst freigelegt werden.

 

Gleichzeitig sollte die Maskierung das ursprüngliche Speicherformat und das Gesamtbild des Feldes beibehalten, damit die Plattformstruktur (z.B. DB-Tabelle) oder Anwendung nicht verändert werden muss. Das Maskieren aller bis auf die letzten vier Ziffern einer Kreditkarten- oder Sozialversicherungsnummer mit Sternchen ist eine häufige Anforderung an die Datenredaktion.

 

Während DBAs Spalten in Tabellen entfernen können, gibt es nur wenige Alternativen, um Daten auf unterschiedliche Weise über mehrere Datenbanken und Dateiquellen hinweg zu maskieren.

Lösungen

Um Daten im Ruhezustand zu bearbeiten, verwenden Sie die integrierten Funktionen in:

Um bewegte Daten zu bearbeiten (dynamische Datenmaskierung), verwenden Sie entweder die:

  • replace_char API Funktion in der FieldShield SDK

In jedem Fall können Sie das IRI-Produkt verwenden, das Sie für die Suche, Klassifizierung und Redaktion einer bestimmten Anzahl von Bytes, definierten (Unter-)Zeichenketten, ganzen Feldern oder einer oder mehrerer Zeilen benötigen. Wählen Sie den Typ und die Start-/Stopppositionen der Maskierungszeichen. Bestimmen Sie, ob die Redaktion basierend auf Spaltennamen oder Datenklassen, Musterübereinstimmungen, Feldwertbedingungen, NER-Modellen usw. angewendet werden soll.

Die Zeichenmaskierung ist nur eine der nicht umkehrbaren Schutzfunktionen der IRI-Software. Andere sind Randomisierung, externe Quellen-Pseudonymisierung und möglicherweise Hashing. Reversible Schutzfunktionen umfassen Verschlüsselung, Kodierung, eine proprietäre ASCII-De-ID-Funktion, Pseudonymisierung aus derselben Quelle, Ausdruckslogik und Zeichenkettenfunktionen.

 

SortCL-Benutzer haben zusätzlich die Möglichkeit Daten zu transformieren und zu berichten, während sie sie ganz oder teilweise bearbeiten.

Die gesamte IRI-Software wird von einer kostenlosen, vertrauten, auf Eclipse basierenden Benutzeroberfläche namens IRI Workbench unterstützt, die mehrere Datenquellen anzeigt und profiliert, bei der Konfiguration von Maskierungsaufträgen hilft und die Projekte für Team-Sharing und Konformität-Verifizierung verwaltet.

CCN schwärzen

Neben der Kreditkartenverschlüsselung und den Tokenisierungsoptionen für PCI DSS-Anwendungen bietet IRI auch eine komfortable Möglichkeit, eine 16-stellige Kreditkartennummer ganz oder teilweise in Datenbanktabellen und Flat-Files zu maskieren.

Die IRI Workbench GUI für FieldShield kann automatisch alle bis auf die letzten 4 Stellen des Feldes in jeder Datenbank oder Flat-File maskieren. Sie können auch ein anderes Zeichen und einen Satz von Ziffern definieren, die im gleichen Dialog maskiert werden sollen:

Diese oder jede andere Datenmaskierungsfunktion kann ad hoc oder als tabellenübergreifende Regel für den Massenschutz angewendet werden.

Um rechnerisch gültige PANs für den Test zu erstellen, verwenden Sie die beschriebene IRI RowGen-Funktion: hier.

NID schwärzen

Neben der Verschlüsselung und anderen Möglichkeiten zum Schutz von National Identification (NID)-Nummern bietet IRI auch herkömmliche Masken für gängige NID-Formate.

Die IRI Workbench GUI für FieldShield kann über diesen Dialog NID-Werte in Tabellen und Flat-Files automatisch maskieren:

Die Ergebnisse dieser Funktionen werden im Tech Tip Artikel in diesem IRI Newsletter vorgestellt. Wenn Sie daran interessiert sind, rechnerisch gültige NID-Testdaten zu erzeugen, lesen Sie diesen Abschnitt des IRI-Blogs.

SSN schwärzen

Neben der Verschlüsselung und anderen Möglichkeiten zum Schutz von Social Security Numbers (SSNs) bietet IRI auch konventionelle und benutzerdefinierte Maskierungsoptionen für dieses 9-stellige Format.

Die IRI Workbench GUI für FieldShield kann über diesen Dialog SSN-Feldwerte in Tabellen und Flat-Files automatisch maskieren:

Die Datenmaskierungsfunktion kann ad hoc oder als tabellenübergreifende Regel für den Massenschutz angewendet werden.

Verwenden Sie das Testdatenprodukt IRI RowGen, um gültige und ungültige Sozialversicherungsnummern zu generieren: hier.

Spalte löschen

Wenn Sie personenbezogene Daten in Datenbanktabellen oder Flat-Files verwalten, können Sie auswählen, welche Quellspalten und -werte in Ihren Zielen verbleiben oder angezeigt werden sollen. Füllen Sie Tabellen, Berichte und Übergabedateien mit Daten, die auf der Grundlage der erforderlichen Kenntnisse bereitgestellt werden. Mit IRI Voracity, IRI FieldShield oder dem SortCL-Programm in IRI CoSort können Sie Teile von Zeilen oder Spalten selektiv auslassen oder maskieren, basierend auf einer bedingten Auswertungslogik. Das heißt, entweder die Feldwerte oder Komponenten (Substrings oder bestimmte Bytes) basierend auf Ihren Geschäftsregeln herauszufiltern oder zu überdecken.

Wenn sich die sensiblen Daten in unstrukturierten Textdateien befinden, kann die IRI-Software Ihnen helfen, diese Informationen zu finden, zu strukturieren und in geschützten, strukturierten Zielen zu platzieren. Zusätzliche FieldShield-Funktionen wie Verschlüsselung, De-Identifizierung und Verschleierung sind auch bei anderen Feldern gleichzeitig möglich. CoSort SortCL-Benutzer können auch Daten während der Datentransformation, Migration und des Berichtswesens bearbeiten und maskieren.

Unstrukturierte Quellen

Wenn Sie Daten in unstrukturierten Textdateien, Microsoft Office-Dokumenten, .pdf-, .rtf- oder .html-Dateien, Bilddateien oder Gesichtern haben, verwenden Sie den IRI Workbench-Assistenten für die Erkennung Dark Data um Daten zu finden (und zu extrahieren), die mit Mustern oder Dictionary-Werten übereinstimmen oder sich anderweitig in einem JSON-Schlüsselnamen, einer Bereichsgrenze oder einem NER NLP-Modell befinden. IRI-Partner-Technologie erledigt den Rest.

Hadoop-Optionen

Die IRI Voracity Datenmanagement Plattform kann PII auf Feldebene in HDFS-Dateien, Cloud-Anwendungen und anderen großen Datenquellen (Hive, NoSQL, etc.) bearbeiten.