El término "big data" se refiere a datos que son tan grandes, rápidos o complejos que
es difícil o imposible procesarlos con métodos tradicionales. La definición actual de big
data incluye, lo que se conoce como, las cinco "Vs":
Volumen. Las organizaciones recopilan datos de una variedad de fuentes, incluidas
transacciones comerciales, dispositivos inteligentes (IoT), equipos industriales, videos,
redes sociales y más. En el pasado, almacenarlo habría sido un problema, pero un
almacenamiento más barato en plataformas como data lakes y Hadoop ha aliviado la
carga.
Velocidad. Con el crecimiento en el internet de las cosas, los datos fluyen a las empresas a una velocidad sin
precedentes y deben manejarse de manera oportuna. Las etiquetas RFID, los sensores y los medidores
inteligentes están impulsando la necesidad de lidiar con estos torrentes de datos casi en tiempo real.
Variedad. Los datos vienen en todo tipo de formatos, desde datos numéricos estructurados en bases de
datos tradicionales hasta documentos de texto no estructurados, correos electrónicos, videos, audios,
datos de cotizaciones bursátiles y transacciones financieras.
Variabilidad. Además de las crecientes velocidades y variedades de datos, los flujos de datos son
impredecibles: cambian a menudo y varían enormemente. Es un desafío, pero las empresas necesitan saber
cuándo algo está de moda en las redes sociales y cómo administrar las cargas de datos pico diarias,
estacionales y activadas por eventos.
Veracidad. La veracidad se refiere a la calidad de los datos. Debido a que los datos provienen de tantas
fuentes diferentes, es difícil vincular, unir, limpiar y transformar los datos en los sistemas. Las empresas
necesitan conectarse y correlacionar relaciones, jerarquías y múltiples enlaces de datos. De lo contrario, sus
datos pueden descontrolarse rápidamente.