¿Alimentando al BIG DATA?


La información es poder y este poder cada vez es más grande con el aumento de la presencia digital de las personas y las organizaciones,  el gran ancho de banda en las comunicaciones, las grandes capacidades de procesamiento y el desarrollo de complejos algoritmos para los tratamientos de los datos que los transforman en información y conocimiento. Tal y como se menciona en muchas publicaciones, ¿son los datos el “nuevo petróleo” en la economía?

Tradicionalmente los grandes gestores de la información fueron las administraciones públicas, los bancos y las energéticas,  posteriormente los operadores de telecomunicación y hoy en día los gigantes tecnológicos con los buscadores y redes sociales. A mediados del siglo XX quién tenía la mayoría de la información de los ciudadanos eran las administraciones públicas, esencialmente con el objetivo de mantener la seguridad y servicios como la recaudación de impuestos, seguridad social etc. Con la evolución de la tecnología, las transacciones electrónicas y la gestión informatizada de los movimientos bancarios los bancos adquirieron gran importancia con información acerca de nuestras preferencias, estilos de vidas, nivel social etc. Con las primeras incursiones en la WEB e Internet fueron sobre todo los operadores de comunicación los que sabían y conocían nuestros accesos e inquietudes y esto ha evolucionado con el análisis de las búsquedas e historiales de navegación WEB y la presencia y opiniones en las redes sociales. ¿Qué no saben Google, Apple, Microsoft, Facebook o similares de nosotros?  También es una realidad que cada vez se genera más información desde dispositivos IoT con sensores y medidores cada vez más precisos, baratos y rápidos.

Datos personales

Actualmente las herramientas de Big Data tienen un papel decisivo en la gestión de toda esta información. Las características esenciales de estas herramientas son la Variedad de datos con múltiples orígenes y tratamiento de datos estructurados y no estructurados, gran volumen de información y velocidad de proceso.  Datos no estructurados se refiere a aquellos datos que no están contenidos en una estructura o formatos de datos tradicional (por ejemplo un registro o un formulario) y pueden ser textuales (o semiestructurados) o no textuales (estructurados puros). Los datos no estructurados textuales son por ejemplo los correos electrónicos, documentos, presentaciones, SMS,  redes sociales etc. mientras que  los datos no estructurados no textuales son las imágenes, archivos de audio, videos etc.
Algunos autores establecen 3 tipos de datos en las organizaciones a ser analizados por un Big Data: Datos tradicionales procedentes de las bases de datos corporativas y sistemas Legacy que son normalmente internos, estructurados y fácil de analizar con las tecnologías tradicionales, datos enriquecidos  que suelen ser externos y específicos para un propósito  complementando a los anteriores como pudieran ser por ejemplo datos demográficos de los clientes y datos emergentes que suelen ser no estructurados y con un gran volumen que procede de los correos, redes sociales, documentos, ficheros log, multimedia etc.

“El auténtico genio consiste en la capacidad de evaluar información incierta, aleatoria y contradictoria” – Winston Churchill



¿Variedad de los datos: múltiples orígenes?
En este artículo se presenta, a modo de tormenta de ideas, diferentes formas en las que nutrimos sistemas informáticos de datos, susceptibles de ser analizados y cuya información o conocimiento generado podría ser muy valiosa para diferentes fines. No se centra en los importantes aspectos de privacidad, protección de datos personales,  seguridad de la información, o en las diferentes finalidades como pudieran ser el marketing digital, prevención de delitos, estadísticas de comportamientos, toma de decisiones u otros fines que podrían ser en algunos casos no lícitos. Básicamente se expresan formas de generación de datos que de forma cotidiana, consciente, o menos consciente, nutren a diferentes bases de datos y que pudieran ser analizados por un sistema de Big Data.

Mecanismos tradicionales
La forma tradicional de obtención de datos es cuando aportamos información bien por obligación legal, relación comercial, promoción etc. y que por lo general es una información estructurada habitualmente a través de formularios en línea, papel o telefónica. Por ejemplo cuando nos damos de alta en algún servicio e informamos ciertos datos personales como pudiera ser nuestro nombre, dirección, correo electrónico, datos de facturación etc.
Estos datos se suelen almacenar en los sistemas tradicionales de gestión en las empresas, por ejemplo, los departamentos de atención a usuarios, fuerza de ventas etc. suelen estar gestionados por herramientas de CRM (Customer Relationship Management) donde se registran estos datos así como las interacciones con los clientes o usuarios.  Estas herramientas en muchos casos están en la nube y se usan en modo SaaS (Software as a Service) y además son multicanal aceptando interacciones telefónicas, WEB, correo etc. Por ejemplo en ciertas ocasiones nuestras llamadas son grabadas aportando también datos no estructurados no textuales susceptibles de ser analizados.

Movimientos bancarios
Los movimientos bancarios ya mencionados anteriormente proporcionan información muy relevante acerca de hábitos y costumbres de la personas. Con el pago de una tarjeta bancaria se puede obtener gran información acerca de consumo así como las localizaciones habituales de los usuarios en función de cajeros o donde se efectúen pagos.  Hace unas décadas posiblemente fueran los bancos los que más podían saber acerca de la vida privada de las personas y obtener estadísticas generales de pautas de consumo disociando los datos personales. Actualmente debemos de considerar también las plataformas de pago por internet tipo Paypal.

Historiales de navegación, visitas y búsquedas
Los historiales no solo se guardan en local en nuestro navegador. Los operadores de telecomunicaciones gestionan los datos de accesos con la IP origen asociada a los datos del contrato, los proxies de las organizaciones y los buscadores como Google guardan esta información (es recomendable desactivar estas opciones de guardado en sus servidores). Por ejemplo visitando Google Trends se pueden buscar tendencias de búsquedas en la WEB conforme las búsquedas que realizamos todos los usuarios.
Un uso muy común de estos datos es que durante la navegación se muestren banners publicitarios relacionados con nuestras visitas y búsquedas.

Mensajería, correos electrónicos etc.
Los mecanismos de mensajería y correos electrónicos son datos no estructurados textuales y contienen gran información a analizar. Estos datos pueden ser analizados en diferentes sitios ya que residen en el sistema origen, destino y en los servidores intermedios. Hoy en día es común su análisis por los péritos judiciales e incluso pueden servir de prueba judicial.
Suelen tener información también de las operaciones de comercio electrónico, pago, relaciones con la administración etc. ya que a menudo se avisa o confirma mediante estos canales.

Movilidad y localización
Los datos de ubicación (coordenadas GPS)  de nuestros dispositivos móviles, a menudo activados por defecto, dan una ubicación bastante exacta de donde estamos en cada momento. Incluso desactivando las opciones de ubicación se podrá obtener nuestra localización aproximada por la celda móvil a la cual esté conectado nuestro dispositivo.
Los sistemas de copia de seguridad en la nube son una herramienta muy útil en caso de pérdida, robo o cambio de móvil, sin embargo, debemos de ser conscientes que toda nuestra información está duplicada en un servidor en la nube del proveedor. Recordar las fotos comprometidas de famosas que fueron obtenidas de forma ilegal de la nube de Apple procedentes de copias de seguridad de algunos iPhone.
Cuidado con las app en estos dispositivos y los permisos solicitados sobre nuestro terminal ya que muchas veces son de dudosa aplicación y desconfía especialmente si no son obtenidas desde los “app markets” oficiales.
Con respecto a los mecanismos de autenticación biométricos como pudieran ser la huella digital, reconocimiento facial u otros a priori aportan mayor seguridad en la autenticación, sin embargo,  estos patrones son información que nos identifican como persona. ¿Estamos seguros que no se suben estos datos a alguna aplicación en la nube? (Recordemos el caso de la copia de seguridad de los iphone).

Redes Sociales y foros
Cuando interactuamos en redes sociales con un “me gusta”, “tweets”, comentando etc. estamos expresando opinión y en muchos casos relacionada con información sensible como pudiera ser política, sexo o religión. También se comparte muchísima información en los archivos multimedia y además se facilita con funciones como el etiquetado o metadatos de estos archivos.
Todos hemos oído casos de detección de fraude en compañías de seguros cuando se daba un parte con contrario cuando el contrario casualmente era un amigo en Facebook, y además curiosamente no tenía su coche a todo riesgo, o casos de bajas laborales de salud de personas que en el periodo subían fotos a Facebook mostrando una actividad deportiva intensa.
Es importante gestionar las opciones de privacidad y decidir que se quiere compartir de forma pública o en foros más reducidos.

Plataformas de contenidos,  gaming online etc.
En las suscripciones en canales de televisión on line,  “pay per view” etc. elegimos contenidos de muchos tipos en base a nuestras preferencias,  los valoramos, accedemos a determinadas horas, compramos online, los añadimos a nuestra carpeta de favoritos etc. Esta fuente de información es de las mejores y de gran aplicación en el marketing digital. ¿Has oído hablar del big data de Netflix?
Los juegos online son un ejemplo muy similar al anterior y en muchas ocasiones con información y preferencias de personas que son menores de edad. En los medios se han publicado casos donde se han producido robo de datos personales en estas plataformas.

Internet of Everything (IoE), Internet of Things (IoT), IIoT (Industrial Internet of Things)
Estos dispositivos suelen tener dos características principales: Conectados y sensores.
En el fondo se trata de sensores más o menos sofisticados que envían información de forma regular a la nube con precisión, cantidad y normalmente de forma estructurada.
Podemos imaginar que aplica en multitud de sectores como pudiera ser el deporte, salud, domótica, automoción etc. y además está en pleno crecimiento.  Datos de ubicación, velocidad de conducción, calorías, pulsaciones, horas de sueño, temperatura hogar, alarma activada etc.
Otro aspecto a considerar es la IIoT aplicada a la industria con información muy sensible que pudiera ser relevante en el espionaje industrial o entre estados.

Datos


Podemos observar que existen muchas formas de “alimentar al Big Data” siendo la venta de datos personales un negocio al alza. Estos datos pueden ser obtenidos de forma de forma lícita o ilícita, analizados con mayor o menor complejidad y ser usados para multitud de finalidades. Por todo lo anterior la normativa acerca de la privacidad, datos personales, derecho al olvido y las cuestiones relativas a la ciberseguridad adquieren gran importancia.


“Si puedes controlar la información, puedes controlar a la gente” – Tom Clancy


What is big data? - YouTube

Big Data, Big Impact: New Possibilities for International Development

A global economy powered by data

Why Data Is The New Oil

Data Is the New Oil of the Digital Economy

How secure is your data?

Big Data Lessons From Netflix

Qué nos enseñan los datos: información no estructurada y datos estructurados

15 frases interesantes sobre información - Josep Cobarsí-Morales
¿Alimentando al BIG DATA? ¿Alimentando al BIG DATA? Reviewed by Bloginnova on diciembre 15, 2016 Rating: 5
Con la tecnología de Blogger.