-
❌ IBM DataStage ❌ Unkompliziert 10x schnellere Datenmanipulation für ETL-Tool InfoSphere DataStage ❗
Herausforderungen: Auch nach der Beratung und dem Tuning können große Datenmengen (d.h. mehr als eine Million Zeilen) nur langsam transformiert werden, insbesondere ohne ein teures Hardware- oder Versions-Upgrade von DataStage. Große Datenengpässe sind große Sortierungen, Joins, Aggregationen, Ladungen und manchmal auch Entladungen. Die Parallelisierung oder Optimierung in anderen Ebenen oder Tools kann unhandlich, wenn nicht sogar teuer sein und die Leistung für andere Benutzer beeinträchtigen. Aus Sicherheitssicht können die Datenmaskierungslösungen von IBM für einige teuer oder umständlich sein oder nicht alle Funktionen der PII-Erkennung oder des Datenschutzes für andere bereitstellen. DataStage-Transformationen beschleunigen: Beschleunigen Sie das Sortieren, Aggregieren und Zusammenführen in einem einzigen Durchgang mit der CoSort Sort Control Language (SortCL)…
-
❌ PII-Schutz in Dark Data ❌ RPC API für die Suche und Maskierung von personenbezogenen Daten in unstrukturierten Dateien ❗
IRI DarkShield Version 4 verfügt über ein Remote Procedure Call (RPC) Application Programming Interface (API) für die Suche und Maskierung von unstrukturierten Dateien. Mit der API kann DarkShield einfach als Middleware in eine Pipeline außerhalb von IRI Workbench eingebettet werden. Derzeit werden folgende Formate unterstützt: Einfacher Text, CSV/TSV, JSON, XML, PDFs (mit eingebetteten Bildern) und Bilder (png, .jpg/x/2, .tif/f, .gif, .bmp). Die Unterstützung für Microsoft-Dokumente (Word, Excel und Powerpoint) wird ebenfalls in kommenden kleineren Updates der API veröffentlicht. Die API ist als Plugin auf der IRI Web Services Platform (Codename Plankton) aufgebaut, so dass der Benutzer auswählen kann, welche Dienste er benötigt, während er die gleichen Hosting-, Konfigurations- und Protokollierungsfunktionen…
-
❌ Snowflake Datenbank ❌ Datenintegration, Datenbereinigung und Datenmaskierung + direkte Bereitstellung in Zieltabellen für Datenanalyse ❗
Snowflake ETL und PII-Maskierung: Schnelles, kostengünstiges Datenmapping & Verwaltung! Möglicherweise sind Sie mit diesen zeitaufwendigen Problemen bei der Arbeit mit Snowflake konfrontiert: Datensuche, -profilierung und/oder -klassifizierung Integration oder Daten-Wrangling für DW/BI-Ops Datenbewegung/Migration zu/von Tabellen Transformieren oder Laden großer Tabellen Datenerfassung oder -replikation ändern Clustering oder Abfrage der Performance Generierung intelligenter und sicherer Testdaten Maskierung sensibler Daten Auch spezifische Leistungsdiagnosen und -abstimmungen brauchen Zeit und können andere Benutzer betreffen. Schließlich können gespeicherte SQL-Prozeduren auch ineffizient programmiert werden und erfordern eine Optimierung und dauern dann immer noch zu lange! Daten in Ordnung halten: IRI CoSort für die Vorsotierung von Flat-Files für Bulk-Ladungen und Inserts. Das entfernt den Overhead dieser Arbeit von Snowflake,…
-
❌ Vom Data Lake, Data Mart zum Data Warehouse ❌ Moderner und gemischter Ansatz zwischen Datenintegration und Datenvirtualisierung ❗
Prozess mit Informationen auf Augenhöhe: Dies ist der erste einer vierteiligen Serie von Blogartikeln, die die inhärenten Kompromisse zwischen Datenverarbeitung und Informationsspeicherung und -präsentation innerhalb traditioneller ETL-Paradigmen untersucht – vom ODS bis zum Data Lake. Er erklärt die Notwendigkeit eines moderneren, gemischten Ansatzes zwischen Datenintegration und Virtualisierung, genannt Production Analytic Platform, und die Vorteile der Implementierung mit der IRI Voracity-Technologie. Die Artikel wurden von Dr. Barry Devlin von 9sight Consulting geschrieben, einer führenden Autorität im Bereich Data Warehousing seit 1988 und Autor von "Business unIntelligence: Insight and Innovation beyond Analytics and Big Data". Ein Podcast und ein Video, die diese Konzepte unterstützen, finden Sie hier. In dieser kurzen Serie von…
-
❌ Test Data Generation ❌ Realistische Testdaten-Werte konsistent über Tabellen oder Dateien hinweg synthetisieren ❗
Datengenerierungsregeln in der IRI-Workbench: Die IRI Workbench GUI enthält einen Abschnitt mit Datengenerierungsregeln auf Feldebene zur Verwendung in der IRI RowGen-Testdatensynthese, der IRI FieldShield-Datenmaskierung und anderen SortCL-kompatiblen Aufgaben oder IRI Voracity (ETL)-Workflows. In diesem Artikel werden diese Funktionen vorgestellt, die ebenso wie Datenmaskierungs- oder Datenqualitätsfunktionen ad hoc oder global in Multi-Source-Jobs eingesetzt werden können. Es können 11 verschiedene Arten von synthetischen Testdaten generiert werden, hier sind die technischen Details zu den verschiedenen Generatoren wie zum Datumsbereich-Generator, Lineare Verteilung, Normalverteilung, Gewichtete Verteilung von Elementen, E-Mail-Generator, Nationale ID-Funktionen, Prozentsatz der Nullen Wert, Zufallswertgenerierung, Zeilen-ID-Wert, Dateiauswahl setzen, String-Generierungsfunktionen und Tabellen-Lookup. Weltweite Referenzen: Seit über 40 Jahren nutzen unsere Kunden wie die NASA, American…
-
❌ Anonymisierung von PHI ❌ Blurring auf Zeilenebene statt auf Spaltenebene bei gleichzeitiger Beibehaltung des Intervalls zwischen diesen Daten ❗
. Verschieben von Datumsangaben unter Beibehaltung von Intervallen: Eine der Anforderungen an die Datenmaskierung für IRI FieldShield, die wir in Anwendungsfällen der PHI-Anonymisierung sehen, beinhaltet das Blurring (Unschärfe/Verwischen) von Daten auf Zeilenebene statt auf Spaltenebene bei gleichzeitiger Bereitstellung einer konfigurierbaren Option zur Beibehaltung des Intervalls zwischen diesen Daten. Dies wird typischerweise in klinischen Forschungs- oder Testdatenszenarien benötigt, bei denen bestimmte Intervalle zwischen den Daten für die Aufnahme oder Entlassung in ein Krankenhaus oder den Beginn und das Ende einer Behandlung eingehalten werden müssen. Nehmen wir an, dass eine Tabelle oder Datei in der Produktion eine Spalte "StartDate" und "EndDate" enthält. Die Werte beider Daten müssen anonymisiert, aber um die gleiche…
-
❌ Dynamische Datenmaskierung ❌ Sensible Informationen in Echtzeit von datenbankverbundenen Anwendungen dynamisch schützen ❗
Dynamische Datenmaskierung: Datenbank und Datei-PII in Echtzeit schützen! Dieser Artikel beschreibt eine Methode zur dynamischen Datenmaskierung (DDM), die für IRI FieldShield verfügbar ist und ein Proxy-basiertes System zum Abfangen von Anwendungsabfragen an JDBC-verbundene Datenbanken verwendet. Es ist einer von mehreren Ansätzen zur Maskierung von Daten im Flug, die FieldShield-Benutzer in Betracht ziehen können. Andere IRI-DDM-Optionen umfassen: API-aufrufbare FieldShield-Funktionen, die in C/C++/C#-, Java- oder .NET-Programme eingebettet sind; Echtzeit-FieldShield-Funktionen, die in SQL-Prozeduren eingebettet sind, die maskierte Ansichten erstellen; und die dynamische Demaskierung von statisch maskierten Tabellen für autorisierte Benutzer. Das hier vorgestellte proxy-basierte System verwendet einen zweckmäßigen, datenbankspezifischen "JDBC SQL Trail"-Treiber in Verbindung mit einer Konfigurations- und Verwaltungs-Webanwendung namens SQL Sharp (SQL#).…
-
❌ Datenmigration und Datenbankmigration ❌ Umfangreiche Datenkonvertierung oder Neuzuordnung/Datenmapping in Legacy-Quellen ❗
Entsperren Sie den Geschäftswert von Anwendungsdaten: NextForm befreit Ihre Daten, Programme und Datenbanken von Legacy-Formaten und Vendor Lock-Ins. Mehr Datenvielfalt bedeutet höhere Benutzerfreundlichkeit!Verwenden Sie Ihre Daten für einen neuen Zweck: NextForm modernisiert Dateiformate, damit diese in neuen Anwendungen verwendet werden können. Es repliziert auch DB-Daten, ordnet Datentypen neu zu und zeichnet Layouts auf und erstellt föderierte Sichten, um Einblicke zu beschleunigen! Höhere Leistung und niedrigere Kosten: NextForm bietet auch die Möglichkeit, Daten während des Verschiebens zu löschen, wodurch I/O beschleunigt und Speicher reduziert wird. Reduzieren Sie Design und Laufzeit um 75% und nutzen Sie die Point-and-Click-Feldzuordnung, mit der Sie Daten mühelos kontrollieren können! Ein aktueller Live-Walkthrough: Schauen Sie sich dieses…
-
❌ Schnelleres ETL und ELT ❌ Die Big Data Sortier-, Join- und Aggregationsjobs erheblich beschleunigen, ohne RDB oder Budget zu belasten ❗
Big Data Integration: Erschwingliche ETL-Beschleuniger & Alternativen! Schnelleres E, T & L: Die meisten Datenintegrationsaufgaben werden in älteren ETL- oder ELT-Tools durchgeführt, die auf kompilierten Java-Programmen oder ineffizienten In-DB-Transformationen beruhen. Der Entwurf und die Ausführungszeit von Jobs leidet darunter. Dies gilt auch für alle nachgeschalteten Abfragen und Anwendungen, die von diesen Jobs abhängen. Details hier! Die erschwingliche Alternative: Hunderttausende von Euros und viele Monate werden für den Aufbau und die Unterstützung von Arbeitsplätzen in veralteten ETL-Tools aufgewendet. Mehrere Benutzer und Lizenzen summieren sich schnell und dominieren die Projektbudgets. Kleine und mittelständische Unternehmen sind mit Open-Source-Tools beschäftigt, die nicht leistungsfähig sind. Details hier! 5 einfachere Vorgehensweisen: Lange Beratungsverträge sind erforderlich, um…
-
❌ Beschleunigung von VLDB ❌ Paralleles Entladen von Oracle, DB2 und anderer Big Data Tabellen in Flat-Files ❗
Datenerfassung beschleunigen: Unloads 7x schneller! IRI FACT™ ist ein Dienstprogramm zum parallelen Entladen von sehr großen Datenbanktabellen (VLDB). FACT verwendet einfache Job-Skripte (unterstützt in einer vertrauten Eclipse-GUI), um schnell portable Flat-Files zu erstellen. Die Geschwindigkeit von FACT basiert auf nativen Verbindungsprotokollen und einer proprietären Split-Abfragelogik, die Milliarden von Zeilen in Minuten entladen. IRI FACT verwendet native Datenbank-APIs und parallele Verarbeitung, um Tabellen schneller in Flat-Fiels umzuwandeln als jedes andere Entladetool oder -verfahren. FACT skaliert linear im Volumen, so dass das Entladen einer Zwei-Milliarden-Zeilentabelle nicht mehr als doppelt so lange dauern sollte wie das Entladen einer Ein-Milliarden-Zeilentabelle. Die Kombination der leistungsstarken Extraktion von FACT mit den leistungsstarken, konsolidierten Datentransformationen und vorsortierten…