Del concepto DataCentric al Data Sharing y los Data Lakes
Te contamos cómo pasar de la visión DataCentric a una arquitectura híbrida que une datos operativos, compartición segura y analítica avanzada con AVEVA PI System, CONNECT y Databricks.
Hace unas semanas, os contaba en otro artículo qué significa ser una organización DataCentric y cómo poner los datos en el centro de toda la arquitectura empresarial, de los procesos y de la cultura permite tomar decisiones más rápidas y acertadas.
Ahora que entendemos el “qué” y el “por qué”, toca abordar el “cómo”: ¿qué necesitamos para hacerlo realidad desde el punto de vista tecnológico?
Y aquí entran en juego dos ejes fundamentales que lo hacen posible en la práctica:
- Data Sharing (compartición de datos): para romper silos, habilitar ecosistemas colaborativos y conseguir que distintos actores —internos y externos— trabajen sobre una misma verdad.
- Data Lakes / Data Hubs: como infraestructura que permite centralizar, estructurar y escalar el dato en crudo e histórico, de manera que pueda gobernarse, enriquecerse y explotarse posteriormente.
Ambos conceptos están estrechamente relacionados y se refuerzan mutuamente: mientras el Data Sharing define cómo los datos se comparten, acceden y consumen dentro y fuera de la organización, los Data Lakes y Data Hubs proporcionan la base tecnológica donde esos datos se integran, organizan y gobiernan para que el intercambio sea eficiente y seguro.
A continuación, veamos cómo se complementan para dar soporte real a un modelo DataCentric.
Data Sharing
Para empezar, adoptar un enfoque DataCentric implica que los datos fluyan sin fricciones entre equipos, sistemas y partners. Y el Data Sharing permite precisamente eso: crear espacios de intercambio seguros y multi-tenant donde los distintos equipos, partners o clientes accedan a la misma fuente de verdad, sin duplicidades ni inconsistencias.
Para lograrlo, es necesario definir niveles de acceso, permisos granulares y trazabilidad, garantizando así la confianza y el control sobre los datos compartidos.
Además, se deben habilitar APIs, conectores y dashboards que faciliten su consumo en diferentes contextos —operativos, estratégicos o regulatorios— sin comprometer la integridad ni la coherencia de la información.
El resultado es una organización más ágil y colaborativa, capaz de romper silos y compartir conocimiento de forma controlada. Pero para que esta compartición sea sostenible a gran escala, hace falta una infraestructura sólida que centralice y prepare los datos: ahí es donde entran los Data Lakes y los Data Hubs.
Data Lakes / Data Hubs
Los Data Lakes y Data Hubs permiten centralizar datos históricos y en tiempo real, tanto en crudo como estructurados, procedentes de múltiples fuentes (OT, IT, IoT o cloud). Gracias a ellos, las organizaciones pueden escalar analítica avanzada, inteligencia artificial, machine learning y reporting, sin sobrecargar los sistemas operativos ni duplicar esfuerzos.
Además, el hecho de desacoplar las aplicaciones del núcleo de datos reduce costes evolutivos, aumenta la resiliencia y permite evolucionar las soluciones sin afectar la capa de información.
Cuando una organización alcanza este nivel, ya no es solo DataCentric en visión, sino que habilita las infraestructuras (Data Lakes / Data Hubs) y las prácticas de Data Sharing que la preparan para competir en ecosistemas digitales más amplios y conectados.
El siguiente paso es llevar este modelo a la práctica y entender cómo las plataformas y tecnologías disponibles pueden hacerlo realidad en entornos industriales o corporativos.
¿Cómo encajan AVEVA PI System, CONNECT y Databricks en un modelo DataCentric?
- AVEVA PI System: AVEVA PI System es la fuente operativa con baja latencia, capaz de capturar y estructurar datos OT en tiempo real con fidelidad y contexto mediante Asset Framework y Event Frames. Resulta ideal para operaciones, ingeniería y mantenimiento, y para casos en los que se requiere visibilidad en cuestión de segundos o minutos.
- CONNECT: CONNECT, por su lado, proporciona un entorno de data sharing seguro y multi-tenant, pensado para habilitar la colaboración entre partners, clientes o integradores. Permite desacoplar aplicaciones del dato —evitando integraciones point-to-point frágiles— y actúa como API hub, exponiendo la “fuente de verdad” a otras herramientas (Power BI, aplicaciones web, ERP/MES). Además, ofrece capacidades de visualización rápida y comunidades de datos que facilitan la colaboración dentro y fuera de la organización.
- Databricks: Databricks opera como un lakehouse diseñado para combinar datos OT+IT (ERP, MES, calidad, ESG) y gestionar históricos masivos. Sobre esta base, la organización puede escalar analítica avanzada, IA/ML y procesos de data engineering en un entorno unificado, aplicando esquemas de limpieza y curado (bronze/silver/gold). Incluye herramientas nativas como Delta Lake, MLflow o Unity Catalog para gobierno, linaje, versionado y enmascarado de datos, garantizando cumplimiento y trazabilidad a gran escala.
Flujos típicos (patrones) – ¿Cómo se orquestan estas herramientas para dar soporte a los distintos casos de uso?
- Operaciones en tiempo real
PLC/SCADA → Adapters/EDS → AVEVA PI System → Operaciones/AVEVA PI Vision → CONNECT Visualization (tendencias, KPIs) → Compartes con partner vía CONNECT. - Analytics/IA a escala
AVEVA PI/CONNECT → ADLS/API → Databricks (Delta Lake) → Limpieza/curado (silver) → Features/Modelos (gold) → MLflow → Inferencia (batch/near-real-time) → Resultados devueltos a CONNECT/AVEVA PI para consumo operativo. - Reporting corporativo / ESG
AVEVA PI + IT (ERP, mantenimiento, energía) → Databricks (unifica) → SQL dashboards/Power BI → CONNECT para compartir con stakeholders externos.
Despliegue híbrido y resiliencia
AVEVA PI System se ejecuta localmente (on-prem) y CONNECT y Databricks, en la nube. Si cae la red cloud, AVEVA PI sigue registrando y sirviendo datos de forma local. Una vez se restablece la conectividad, los datos se reingestan automáticamente en CONNECT y Databricks (reliable delivery).
¿Cuándo usar cada uno?
AVEVA PI captura la verdad operativa, CONNECT la comparte sin fricciones y Databricks la convierte en inteligencia a escala. Así que:
- Necesito segundos y contexto de activos → AVEVA PI System.
- Quiero compartir datos con terceros y visualizar rápido → CONNECT.
- Voy a entrenar modelos, cruzar OT+IT y gobernar histórico masivo → Databricks.
