Big Data & Data Lake

Analítica Avanzada

El término "big data" se refiere a datos que son tan grandes, rápidos o complejos que es difícil o imposible procesarlos con métodos tradicionales. La definición actual de big data incluye, lo que se conoce como, las cinco "Vs":

  • Volumen. Las organizaciones recopilan datos de una variedad de fuentes, incluidas transacciones comerciales, dispositivos inteligentes (IoT), equipos industriales, videos, redes sociales y más. En el pasado, almacenarlo habría sido un problema, pero un almacenamiento más barato en plataformas como data lakes y Hadoop ha aliviado la carga.
  • Velocidad. Con el crecimiento en el internet de las cosas, los datos fluyen a las empresas a una velocidad sin precedentes y deben manejarse de manera oportuna. Las etiquetas RFID, los sensores y los medidores inteligentes están impulsando la necesidad de lidiar con estos torrentes de datos casi en tiempo real.
  • Variedad. Los datos vienen en todo tipo de formatos, desde datos numéricos estructurados en bases de datos tradicionales hasta documentos de texto no estructurados, correos electrónicos, videos, audios, datos de cotizaciones bursátiles y transacciones financieras.
  • Variabilidad. Además de las crecientes velocidades y variedades de datos, los flujos de datos son impredecibles: cambian a menudo y varían enormemente. Es un desafío, pero las empresas necesitan saber cuándo algo está de moda en las redes sociales y cómo administrar las cargas de datos pico diarias, estacionales y activadas por eventos.
  • Veracidad. La veracidad se refiere a la calidad de los datos. Debido a que los datos provienen de tantas fuentes diferentes, es difícil vincular, unir, limpiar y transformar los datos en los sistemas. Las empresas necesitan conectarse y correlacionar relaciones, jerarquías y múltiples enlaces de datos. De lo contrario, sus datos pueden descontrolarse rápidamente.

He leído y estoy de acuerdo con el Aviso de Privacidad