Connect CDC

Replicación de datos en tiempo real desde IBM i y mainframe hacia la nube, bases de datos y plataformas de streaming.

El problema que resuelve

Los datos más valiosos de muchas empresas viven en IBM i o mainframe, pero los equipos de analytics, BI e IA necesitan esos datos en plataformas modernas. El problema:

Sin CDC

  • ETL por lotes: datos de analytics con horas/días de retraso
  • Full table scans nocturnos que impactan producción
  • Scripts manuales frágiles para mover datos
  • Datos en silos: IBM i desconectado del mundo moderno
  • Sin visibilidad en tiempo real de cambios en Db2
  • Migración al cloud requiere reescribir todo

Con Connect CDC

  • Cambios replicados en tiempo real (segundos de latencia)
  • Lee journals nativos de Db2 → cero impacto en producción
  • Configuración visual, sin desarrollo custom
  • Datos de IBM i disponibles en Snowflake, Kafka, etc.
  • Cada INSERT/UPDATE/DELETE capturado y entregado
  • Integración incremental, sin migración big-bang

¿Qué es Connect CDC?

Connect CDC (de Precisely, anteriormente SQData) es una solución de Change Data Capture que captura cada cambio en las bases de datos de origen (INSERT, UPDATE, DELETE) y lo replica en tiempo real a uno o más destinos — sin impactar los sistemas de producción.

En IBM i, Connect CDC lee los journals nativos de Db2 for i (el mismo mecanismo que usa el sistema para auditoría y recovery). Esto significa que no necesita triggers, polling ni full table scans.

Analogía: Pensá en Connect CDC como un "traductor en tiempo real". Cada vez que algo cambia en Db2 for i, el journal lo registra. Connect CDC lee ese journal, traduce el cambio al formato que necesita el destino (JSON, Avro, SQL) y lo entrega — como un intérprete simultáneo entre IBM i y el mundo moderno.

¿Cómo funciona?

Origen

Db2 for i (journals)

Db2 z/OS, Oracle

SQL Server, MySQL

VSAM, IMS

Capture Agent(lee journals/logs)

Replicator Engine

Transforma y mapea

Garantiza entrega

Zero data loss

Apply Engine(escribe al destino)

Destino

Snowflake, Databricks

Kafka, Confluent

PostgreSQL, Oracle

Google Cloud, AWS

El flujo paso a paso:

1

Capture — Lectura de journals

El agente de captura lee los journals nativos de Db2 for i (o los logs de transacción en otros orígenes). No modifica tablas ni ejecuta queries.

2

Publish — Cola de cambios

Los cambios capturados se publican en una cola interna resiliente. Si la conexión se interrumpe, los cambios se acumulan sin pérdida.

3

Transform — Mapeo y transformación

El Replicator Engine transforma los datos al formato del destino. Soporta mapeo de columnas, filtrado, conversión de tipos y transformaciones custom.

4

Apply — Escritura en destino

El Apply Engine escribe los cambios en el destino: como SQL (INSERT/UPDATE/DELETE), mensajes Kafka (JSON/Avro), archivos Avro, o carga directa a cloud.

Orígenes y destinos soportados

📥 Orígenes (Sources)

Db2 for i (vía journals nativos)

Db2 for z/OS (mainframe)

Db2 for LUW (Linux/Unix/Windows)

Oracle / Exadata

SQL Server

MySQL / PostgreSQL

Sybase / Informix

VSAM, IMS (mainframe)

Archivos secuenciales, COBOL copybooks

📤 Destinos (Targets)

Snowflake

Databricks (incl. Unity Catalog)

Apache Kafka / Confluent

Google Cloud (BigQuery, Cloud SQL)

Amazon Redshift / S3

Microsoft Azure / SQL Database

Oracle, SQL Server, PostgreSQL, MySQL

Teradata

Archivos Avro / JSON

Casos de uso

📊 Analytics en tiempo real

Replicar datos de Db2 for i a Snowflake o Databricks para dashboards y reportes con datos actualizados al segundo.

🔄 Event streaming

Publicar cambios de Db2 como eventos en Kafka/Confluent. Cada INSERT/UPDATE/DELETE se convierte en un mensaje que dispara procesos downstream.

☁️ Migración al cloud

Mover datos incrementalmente desde IBM i a cloud sin big-bang. Los cambios se replican continuamente hasta el cutover.

🏢 Consolidación de datos

Centralizar datos de múltiples orígenes (IBM i + mainframe + Oracle) en un único data warehouse o data lake.

🤖 Alimentar IA/ML

Proveer datos frescos y continuos desde sistemas transaccionales a modelos de machine learning y pipelines de datos.

🔗 Integración de aplicaciones

Sincronizar datos entre IBM i (ERP/WMS) y CRM, ecommerce, o APIs de partners en tiempo real.

Características clave

Log-based CDC

Lee journals/logs nativos del origen. Cero impacto en producción — no usa triggers, polling ni full scans.

Zero data loss

Entrega resiliente con cola persistente. Si la conexión se cae, los cambios se acumulan y se entregan cuando se restaura.

Múltiples topologías

Point-to-point, broadcast (1-a-muchos), consolidación (muchos-a-1), bidireccional y cascading.

Formatos Kafka nativos

Produce mensajes JSON o Avro con integración automática a Confluent Schema Registry. Soporta las 3 APIs principales de Kafka.

Consola de gestión

Portal web para configurar, monitorear y administrar data flows. Onboarding de esquemas completos con point-and-click.

Design once, deploy anywhere

Los flujos se diseñan una vez y se despliegan en on-premises, cloud o hybrid sin reescribir.

Comparación con el mundo x86

x86 — CDC típico

  • Debezium + Kafka Connect (open source, complejo)
  • Configurar connectors por cada origen/destino
  • Schema evolution manual o con tooling extra
  • ETL batch como alternativa (Airflow, dbt, etc.)
  • Cada BD tiene su propio mecanismo de CDC
  • No soporta mainframe ni IBM i nativamente

IBM i — Connect CDC

  • Un producto: captura, transforma y entrega
  • Lee journals nativos de Db2 for i sin agents extra
  • Schema Registry integrado (Avro + Confluent)
  • CDC en tiempo real, no batch
  • Soporta IBM i, mainframe, Oracle, SQL Server, etc.
  • 50+ años de expertise en datos de IBM/mainframe

Relación con otros productos Precisely

Connect CDC forma parte de la familia Precisely Connect, que incluye capacidades de ETL y CDC. En el contexto de IBM i:

Connect CDC vs QuickEDD

QuickEDD replica un servidor IBM i completo a otro IBM i (HA/DR). Connect CDC replica datos específicos desde IBM i hacia plataformas externas (Snowflake, Kafka, etc.).

Connect CDC + Assure Security

Los datos replicados por Connect CDC pueden pasar por las políticas de Assure Security para cifrado y auditoría antes de salir del IBM i.

Connect CDC + Flash for i

Flash for i clona particiones completas (backup/test). Connect CDC replica datos específicos en tiempo real a destinos externos. Son complementarios.

Connect ETL

Connect también ofrece ETL (Extract, Transform, Load) para cargas batch. CDC y ETL se pueden combinar: CDC para tiempo real, ETL para cargas históricas iniciales.

Contexto: Connect CDC es un producto de Precisely (al igual que QuickEDD y Assure Security). El modelo de licenciamiento es por suscripción, basado en orígenes y destinos configurados. Se puede incorporar en cotizaciones junto con los demás productos de Precisely.