La información es poder y este poder cada vez es más grande con el
aumento de la presencia digital de las personas y las organizaciones, el gran ancho de banda en las comunicaciones,
las grandes capacidades de procesamiento y el desarrollo de complejos algoritmos
para los tratamientos de los datos que los transforman en información y
conocimiento. Tal y como se menciona en muchas publicaciones, ¿son los datos el
“nuevo petróleo” en la economía?
Tradicionalmente los grandes gestores de la información fueron
las administraciones públicas, los bancos y las energéticas, posteriormente los operadores de telecomunicación
y hoy en día los gigantes tecnológicos con los buscadores y redes sociales. A
mediados del siglo XX quién tenía la mayoría de la información de los
ciudadanos eran las administraciones públicas, esencialmente con el objetivo de
mantener la seguridad y servicios como la recaudación de impuestos, seguridad
social etc. Con la evolución de la tecnología, las transacciones electrónicas y
la gestión informatizada de los movimientos bancarios los bancos adquirieron
gran importancia con información acerca de nuestras preferencias, estilos de vidas,
nivel social etc. Con las primeras incursiones en la WEB e Internet fueron
sobre todo los operadores de comunicación los que sabían y conocían nuestros
accesos e inquietudes y esto ha evolucionado con el análisis de las búsquedas e
historiales de navegación WEB y la presencia y opiniones en las redes sociales.
¿Qué no saben Google, Apple, Microsoft, Facebook o similares de nosotros? También es una realidad que cada vez se genera más información desde dispositivos IoT con sensores y medidores
cada vez más precisos, baratos y rápidos.
Actualmente las herramientas
de Big Data tienen un papel decisivo en la gestión de toda esta información.
Las características esenciales de estas herramientas son la Variedad de datos con múltiples
orígenes y tratamiento de datos estructurados y no estructurados, gran volumen de información y velocidad de proceso. Datos no estructurados se refiere a aquellos
datos que no están contenidos en una estructura o formatos de datos tradicional
(por ejemplo un registro o un formulario) y pueden ser textuales (o semiestructurados)
o no textuales (estructurados puros). Los datos no estructurados textuales son por ejemplo los correos electrónicos,
documentos, presentaciones, SMS, redes
sociales etc. mientras que los datos no estructurados no textuales son las imágenes,
archivos de audio, videos etc.
Algunos autores establecen 3 tipos de datos en las
organizaciones a ser analizados por un Big Data: Datos tradicionales procedentes de las bases de datos corporativas
y sistemas Legacy que son normalmente internos, estructurados y fácil de analizar
con las tecnologías tradicionales, datos
enriquecidos que suelen ser externos
y específicos para un propósito
complementando a los anteriores como pudieran ser por ejemplo datos
demográficos de los clientes y datos
emergentes que suelen ser no estructurados y con un gran volumen que
procede de los correos, redes sociales, documentos, ficheros log, multimedia
etc.
“El auténtico genio consiste
en la capacidad de evaluar información incierta, aleatoria y contradictoria” –
Winston Churchill
¿Variedad de
los datos: múltiples orígenes?
En este artículo se presenta, a modo de tormenta de ideas,
diferentes formas en las que nutrimos sistemas informáticos de datos,
susceptibles de ser analizados y cuya información o conocimiento generado
podría ser muy valiosa para diferentes fines. No se centra en los importantes
aspectos de privacidad, protección de
datos personales, seguridad de la información,
o en las diferentes finalidades como
pudieran ser el marketing digital, prevención de delitos, estadísticas de
comportamientos, toma de decisiones u otros fines que podrían ser en algunos
casos no lícitos. Básicamente se expresan
formas de generación de datos que de forma cotidiana, consciente, o menos consciente, nutren a diferentes bases de datos y que pudieran ser analizados por un sistema de
Big Data.
Mecanismos tradicionales
La forma tradicional de obtención de datos es cuando
aportamos información bien por obligación legal, relación comercial, promoción
etc. y que por lo general es una información
estructurada habitualmente a través de
formularios en línea, papel o telefónica. Por ejemplo cuando nos damos de
alta en algún servicio e informamos ciertos datos personales como pudiera ser
nuestro nombre, dirección, correo electrónico, datos de facturación etc.
Estos datos se suelen almacenar en los sistemas tradicionales
de gestión en las empresas, por ejemplo, los departamentos de atención a
usuarios, fuerza de ventas etc. suelen estar gestionados por herramientas de
CRM (Customer Relationship Management) donde se registran estos datos así como
las interacciones con los clientes o usuarios.
Estas herramientas en muchos casos están en la nube y se usan en modo
SaaS (Software as a Service) y además son multicanal aceptando interacciones
telefónicas, WEB, correo etc. Por ejemplo en ciertas ocasiones nuestras
llamadas son grabadas aportando también datos no estructurados no textuales susceptibles
de ser analizados.
Movimientos
bancarios
Los movimientos bancarios ya mencionados anteriormente
proporcionan información muy relevante acerca de hábitos y costumbres de la
personas. Con el pago de una tarjeta bancaria se puede obtener gran información
acerca de consumo así como las localizaciones habituales de los usuarios en
función de cajeros o donde se efectúen pagos.
Hace unas décadas posiblemente fueran los bancos los que más podían saber
acerca de la vida privada de las personas y obtener estadísticas generales de
pautas de consumo disociando los datos personales. Actualmente debemos de considerar
también las plataformas de pago por internet tipo Paypal.
Historiales
de navegación, visitas y búsquedas
Los historiales no solo se guardan en local en nuestro
navegador. Los operadores de telecomunicaciones gestionan los datos de accesos
con la IP origen asociada a los datos del contrato, los proxies de las
organizaciones y los buscadores como Google guardan esta
información (es recomendable desactivar estas opciones de guardado en sus servidores). Por ejemplo visitando Google Trends se pueden buscar tendencias de búsquedas en la WEB conforme las búsquedas que realizamos todos los usuarios.
Un uso muy común de estos datos es que durante la navegación se muestren banners
publicitarios relacionados con nuestras visitas y búsquedas.
Mensajería, correos
electrónicos etc.
Los mecanismos de mensajería y correos electrónicos son datos
no estructurados textuales y contienen gran información a analizar. Estos datos
pueden ser analizados en diferentes sitios ya que residen en el sistema origen,
destino y en los servidores intermedios. Hoy en día es común su análisis por los péritos judiciales e incluso pueden servir de prueba judicial.
Suelen tener información también de las operaciones de
comercio electrónico, pago, relaciones con la administración etc. ya que a
menudo se avisa o confirma mediante estos canales.
Movilidad y
localización
Los datos de ubicación (coordenadas GPS) de nuestros dispositivos móviles, a menudo
activados por defecto, dan una ubicación bastante exacta de donde estamos en
cada momento. Incluso desactivando las opciones de ubicación se podrá obtener
nuestra localización aproximada por la celda móvil a la cual esté conectado nuestro dispositivo.
Los sistemas de copia de seguridad en la nube son una
herramienta muy útil en caso de pérdida, robo o cambio de móvil, sin embargo,
debemos de ser conscientes que toda nuestra información está duplicada en un
servidor en la nube del proveedor. Recordar las fotos comprometidas de famosas
que fueron obtenidas de forma ilegal de la nube de Apple procedentes de copias
de seguridad de algunos iPhone.
Cuidado con las app en estos dispositivos y los permisos
solicitados sobre nuestro terminal ya que muchas veces son de dudosa aplicación
y desconfía especialmente si no son obtenidas desde los “app markets”
oficiales.
Con respecto a los mecanismos de autenticación biométricos
como pudieran ser la huella digital, reconocimiento facial u otros a priori
aportan mayor seguridad en la autenticación, sin embargo, estos patrones son información que nos
identifican como persona. ¿Estamos seguros que no se suben estos datos a alguna
aplicación en la nube? (Recordemos el caso de la copia de seguridad de los
iphone).
Redes
Sociales y foros
Cuando interactuamos en redes sociales con un “me gusta”, “tweets”,
comentando etc. estamos expresando opinión y en muchos casos relacionada con
información sensible como pudiera ser política, sexo o religión. También se
comparte muchísima información en los archivos multimedia y además se facilita
con funciones como el etiquetado o metadatos de estos archivos.
Todos hemos oído casos de detección de fraude en compañías de
seguros cuando se daba un parte con contrario cuando el contrario casualmente
era un amigo en Facebook, y además curiosamente no tenía su coche a todo riesgo,
o casos de bajas laborales de salud de personas que en el periodo subían fotos
a Facebook mostrando una actividad deportiva intensa.
Es importante gestionar las opciones de privacidad y decidir
que se quiere compartir de forma pública o en foros más reducidos.
Plataformas
de contenidos, gaming online etc.
En las suscripciones en canales de televisión on line, “pay per view” etc. elegimos contenidos de
muchos tipos en base a nuestras preferencias, los valoramos, accedemos a determinadas horas,
compramos online, los añadimos a nuestra carpeta de favoritos etc. Esta fuente
de información es de las mejores y de gran aplicación en el marketing digital. ¿Has
oído hablar del big data de Netflix?
Los juegos online son un ejemplo muy similar al anterior y en
muchas ocasiones con información y preferencias de personas que son menores de
edad. En los medios se han publicado casos donde se han producido robo de datos personales en estas plataformas.
Internet of Everything (IoE), Internet of Things (IoT), IIoT (Industrial
Internet of Things)
Estos dispositivos suelen tener dos características
principales: Conectados y sensores.
En el fondo se trata de sensores más o menos sofisticados que
envían información de forma regular a la nube con precisión, cantidad y normalmente
de forma estructurada.
Podemos imaginar que aplica en multitud de sectores como
pudiera ser el deporte, salud, domótica, automoción etc. y además está en pleno
crecimiento. Datos de ubicación, velocidad de conducción, calorías, pulsaciones, horas
de sueño, temperatura hogar, alarma activada etc.
Otro aspecto a considerar es la IIoT aplicada a la industria
con información muy sensible que pudiera ser relevante en el espionaje
industrial o entre estados.
Podemos observar que existen muchas formas de “alimentar al
Big Data” siendo la venta de datos personales
un negocio al alza. Estos datos pueden ser obtenidos de forma de forma
lícita o ilícita, analizados con mayor o menor complejidad y ser usados para
multitud de finalidades. Por todo lo anterior la normativa acerca de la
privacidad, datos personales, derecho al olvido y las cuestiones relativas a la
ciberseguridad adquieren gran importancia.
“Si puedes
controlar la información, puedes controlar a la gente” – Tom Clancy
What
is big data? - YouTube
Big
Data, Big Impact: New Possibilities for International Development
A
global economy powered by data
Why
Data Is The New Oil
Data
Is the New Oil of the Digital Economy
How
secure is your data?
Big
Data Lessons From Netflix
Qué nos enseñan los datos: información no estructurada y
datos estructurados
15 frases interesantes sobre información - Josep
Cobarsí-Morales
¿Alimentando al BIG DATA?
Reviewed by Bloginnova
on
diciembre 15, 2016
Rating:
