Seleccionar página

Del concepto DataCentric al Data Sharing y los Data Lakes

Te contamos cómo pasar de la visión DataCentric a una arquitectura híbrida que une datos operativos, compartición segura y analítica avanzada con AVEVA PI System, CONNECT y Databricks.

Business Development Manager

Hace unas semanas, os contaba en otro artículo qué significa ser una organización DataCentric y cómo poner los datos en el centro de toda la arquitectura empresarial, de los procesos y de la cultura permite tomar decisiones más rápidas y acertadas.

Ahora que entendemos el “qué” y el “por qué”, toca abordar el “cómo”: ¿qué necesitamos para hacerlo realidad desde el punto de vista tecnológico?

Y aquí entran en juego dos ejes fundamentales que lo hacen posible en la práctica:

  • Data Sharing (compartición de datos): para romper silos, habilitar ecosistemas colaborativos y conseguir que distintos actores —internos y externos— trabajen sobre una misma verdad.
  • Data Lakes / Data Hubs: como infraestructura que permite centralizar, estructurar y escalar el dato en crudo e histórico, de manera que pueda gobernarse, enriquecerse y explotarse posteriormente.

Ambos conceptos están estrechamente relacionados y se refuerzan mutuamente: mientras el Data Sharing define cómo los datos se comparten, acceden y consumen dentro y fuera de la organización, los Data Lakes y Data Hubs proporcionan la base tecnológica donde esos datos se integran, organizan y gobiernan para que el intercambio sea eficiente y seguro.

A continuación, veamos cómo se complementan para dar soporte real a un modelo DataCentric.

 

Data Sharing

Para empezar, adoptar un enfoque DataCentric implica que los datos fluyan sin fricciones entre equipos, sistemas y partners. Y el Data Sharing permite precisamente eso: crear espacios de intercambio seguros y multi-tenant donde los distintos equipos, partners o clientes accedan a la misma fuente de verdad, sin duplicidades ni inconsistencias.

Para lograrlo, es necesario definir niveles de acceso, permisos granulares y trazabilidad, garantizando así la confianza y el control sobre los datos compartidos.

Además, se deben habilitar APIs, conectores y dashboards que faciliten su consumo en diferentes contextos —operativos, estratégicos o regulatorios— sin comprometer la integridad ni la coherencia de la información.

El resultado es una organización más ágil y colaborativa, capaz de romper silos y compartir conocimiento de forma controlada. Pero para que esta compartición sea sostenible a gran escala, hace falta una infraestructura sólida que centralice y prepare los datos: ahí es donde entran los Data Lakes y los Data Hubs.

 

Data Lakes / Data Hubs

Los Data Lakes y Data Hubs permiten centralizar datos históricos y en tiempo real, tanto en crudo como estructurados, procedentes de múltiples fuentes (OT, IT, IoT o cloud). Gracias a ellos, las organizaciones pueden escalar analítica avanzada, inteligencia artificial, machine learning y reporting, sin sobrecargar los sistemas operativos ni duplicar esfuerzos.

Además, el hecho de desacoplar las aplicaciones del núcleo de datos reduce costes evolutivos, aumenta la resiliencia y permite evolucionar las soluciones sin afectar la capa de información.

Cuando una organización alcanza este nivel, ya no es solo DataCentric en visión, sino que habilita las infraestructuras (Data Lakes / Data Hubs) y las prácticas de Data Sharing que la preparan para competir en ecosistemas digitales más amplios y conectados.

El siguiente paso es llevar este modelo a la práctica y entender cómo las plataformas y tecnologías disponibles pueden hacerlo realidad en entornos industriales o corporativos.

 

¿Cómo encajan AVEVA PI System, CONNECT y Databricks en un modelo DataCentric?

  • AVEVA PI System: AVEVA PI System es la fuente operativa con baja latencia, capaz de capturar y estructurar datos OT en tiempo real con fidelidad y contexto mediante Asset Framework y Event Frames. Resulta ideal para operaciones, ingeniería y mantenimiento, y para casos en los que se requiere visibilidad en cuestión de segundos  o minutos.
  • CONNECT: CONNECT, por su lado, proporciona un entorno de data sharing seguro y multi-tenant, pensado para habilitar la colaboración entre partners, clientes o integradores. Permite desacoplar aplicaciones del dato —evitando integraciones point-to-point frágiles— y actúa como API hub, exponiendo la “fuente de verdad” a otras herramientas (Power BI, aplicaciones web, ERP/MES). Además, ofrece capacidades de visualización rápida y comunidades de datos que facilitan la colaboración dentro y fuera de la organización.
  • Databricks: Databricks opera como un lakehouse diseñado para combinar datos OT+IT (ERP, MES, calidad, ESG) y gestionar históricos masivos. Sobre esta base, la organización puede escalar analítica avanzada, IA/ML y procesos de data engineering en un entorno unificado, aplicando esquemas de limpieza y curado (bronze/silver/gold). Incluye herramientas nativas como Delta Lake, MLflow o Unity Catalog para gobierno, linaje, versionado y enmascarado de datos, garantizando cumplimiento y trazabilidad a gran escala.

 

Flujos típicos (patrones) – ¿Cómo se orquestan estas herramientas para dar soporte a los distintos casos de uso?

  1. Operaciones en tiempo real
    PLC/SCADA Adapters/EDS AVEVA PI System Operaciones/AVEVA PI Vision CONNECT Visualization (tendencias, KPIs) Compartes con partner vía CONNECT.
  2. Analytics/IA a escala
    AVEVA PI/CONNECT ADLS/API Databricks (Delta Lake) Limpieza/curado (silver) Features/Modelos (gold) MLflow Inferencia (batch/near-real-time) Resultados devueltos a CONNECT/AVEVA PI para consumo operativo.
  3. Reporting corporativo / ESG
    AVEVA PI + IT (ERP, mantenimiento, energía) Databricks (unifica) SQL dashboards/Power BI CONNECT para compartir con stakeholders externos.

 

Despliegue híbrido y resiliencia

AVEVA PI System se ejecuta localmente (on-prem) y CONNECT y Databricks, en la nube. Si cae la red cloud, AVEVA PI sigue registrando y sirviendo datos de forma local. Una vez se restablece la conectividad, los datos se reingestan automáticamente en CONNECT y Databricks (reliable delivery).

 

¿Cuándo usar cada uno?

AVEVA PI captura la verdad operativa, CONNECT la comparte sin fricciones y Databricks la convierte en inteligencia a escala. Así que:

  • Necesito segundos y contexto de activos AVEVA PI System.
  • Quiero compartir datos con terceros y visualizar rápido CONNECT.
  • Voy a entrenar modelos, cruzar OT+IT y gobernar histórico masivo Databricks.