Mucha data

Mucha data

A partir de la evolución de la tecnología, las sociedades producen cada vez mayor cantidad de datos e información. La capacidad para procesarla permite no sólo la predicción de comportamientos sino también la implementación de campañas de todo tipo a medida. Se hace evidente entonces la necesidad de regulación para garantizar la privacidad de las personas.

| Por Esteban Magnani |

Basado en un fragmento del libro: Magnani, Esteban. Tensión en la red: libertad y control en la era digital – 1ª ed. – CABA: Autoria Sherpa, 2014. ISBN 978-987-45920-1-9.

¿Podemos prever el resultado que arrojará un dado al lanzarlo sobre una mesa? La respuesta es, obviamente, que no, que es imposible. Las estadísticas indican que un dado tiende a equilibrar la cantidad de veces que saldrá cada número. Es decir que se podrá prever un promedio en muestras amplias, pero no se podrá prever en ningún caso el próximo número que saldrá. Esto último depende del azar. Pero, ¿qué es el azar? En el caso de los dados podríamos decir que llamamos azar a la imposibilidad de determinar el resultado de la interacción de las innumerables variables involucradas en que determinada cara quede en la parte superior del cubo luego de lanzarlo. Pero, supongamos que podemos conocer el efecto que tendrá en el dado la posición inicial de la mano del lanzador, la intensidad del movimiento, el movimiento de la muñeca, la flexibilidad y rebote del material con el que está hecho, las rugosidad o irregularidad de la superficie sobre la que se lo lanza, etcétera. Si alguien pudiera medir todas esas variables que afectan al resultado final, podría determinarlo antes de que ocurra, de la misma manera que podemos determinar el tiempo de caída de un cuerpo en el vacío gracias a la Ley de Gravedad Universal. Pero en esta última intervienen pocas variables: la fuerza de gravedad, la masa de los cuerpos y la distancia entre ellos. En cambio, en el ejemplo del dado son innumerables, por lo que decimos que es imposible conocerlas a todas y que depende del azar. Pero, ¿qué pasaría si pudiéramos medirlas y procesarlas? Podríamos prever el resultado de una manera muy precisa.

La cantidad de acciones individuales que lleva adelante una persona cotidianamente resultan difíciles, si no imposibles, de explicar. Parecen producto del azar, es decir, de tantas variables que no se pueden conocer y combinar. Pero cuando esos mismos comportamientos se analizan a escala, se pueden encontrar patrones que les dan cierta previsibilidad. Esto ha comenzado a ser posible gracias a la cantidad de acciones individuales que se digitalizan y suman a bases de datos de forma simple. Son cada vez más los rastros de nuestra vida digital que dejamos en el camino: posts en las redes sociales, compras por Internet, compras con tarjeta que indican nuestros gustos, celulares con geolocalización, fotos de otros en las que estamos “tagueados”, etcétera.

Las variables medidas pueden no tener relaciones causales entre sí, pero la ley de los grandes números permite establecer predicciones entre ellas. El vicepresidente de IBM, Dave Turek, calculó que la humanidad produjo cinco exabytes (cada exabyte representa mil millones de gigabytes, un número que ya no dice nada, sólo da un poco de vértigo, pero que es realmente mucho) de información desde los comienzos de la humanidad hasta el año 2003, y que en 2011 la humanidad, a través de la digitalización constante de su vida producía esa misma cantidad… cada dos días. La llegada de los celulares inteligentes, entre otras cosas le permitió calcular que para el 2013 la humanidad produciría cinco exabytes cada diez minutos. Hace dos mil años un puñado de filósofos era capaz de generar trabajosamente textos que hoy se pueden almacenar en unos pocos kilobytes. En la actualidad cualquier persona común y corriente que saca una foto produce cientos de veces esa cantidad con un clic.

Es más: con solo andar por la calle con un teléfono inteligente encendido estamos generando información. Malte Spitz, un político del Partido Verde alemán, pidió a su empresa telefónica, Deutsche Telekom, todos los archivos que tuviera sobre su línea de teléfono. Tuvo que presentar varias demandas hasta que finalmente le entregaron un CD con la información. Al cruzar la base de datos con un mapa pudo ver todos los lugares en los que estuvo durante los últimos seis meses. Ni él mismo recordaba todo su itinerario.

Al procesar la información acumulada en bases de datos pueden obtenerse conclusiones sorprendentes. Por ejemplo, el científico informático Jon Kleinberg, de la Universidad de Cornell, y Lars Backstrom, ingeniero de FB, publicaron una investigación acerca de cómo la información que se sube a esta red social permite saber qué parejas están por separarse. Para llegar a esa conclusión buscaron usuarios con más de veinte años de edad, que tuvieran entre 50 y 2.000 amigos y que indicaran estar en pareja. Una vez que tuvieron la lista recortaron la muestra a “sólo” 1,3 millones de usuarios elegidos al azar. Luego cruzaron las conexiones sociales entre ellos, que sumaron cerca de 8.600 millones. La clave que encontraron fue que el número total de amigos de ambos miembros de la pareja es un pobre indicador de las relaciones sentimentales, mientras que sí lo es el nivel de dispersión de esos amigos, es decir, si los amigos de ambos están conectados entre sí o no. Una de las conclusiones fue que si los amigos de ambos estaban muy conectados, es decir que tenían una baja dispersión, la pareja tenía más probabilidades de romper su vínculo en los siguientes dos meses. Lo que no permiten determinar estas estadísticas es si hay una relación causal directa entre las variables, pero la fuerza bruta de una enorme cantidad de datos permite predecir cosas aunque no sepamos por qué ocurren. Evidentemente llegar a estos números por medio de encuestas confiables habría sido imposible.

Este es un ejemplo de “Big Data”, de lo que ocurre cuando hay mucha información disponible y está la capacidad de procesamiento para ordenarla, cruzarla y obtener nuevos datos de ella. El ejemplo clásico que se daba para comprender la dificultad para cruzar grandes cantidades de datos y conocer los resultados de sus interacciones es el pronóstico del tiempo. La cantidad de variables involucradas en el clima es tan grande y cambiante que resulta muy difícil determinar el peso de cada una de ellas y, por lo tanto, cuál va a ser el resultado de su interacción. Sin embargo, hace dos décadas se podían hacer pronósticos confiables con un máximo de anticipación de tres días. Gracias a la mejora en la capacidad de recolección y procesamiento de datos que brinda la informática, en la actualidad son posibles pronósticos confiables para los cinco días subsiguientes.

Las relaciones están ahí; luego hay que tener los datos, el poder informático y empezar a buscar. El espionaje masivo de los servicios de inteligencia de los Estados Unidos es sólo un ejemplo del poder de los datos que hace unos años habrían resultado inmanejables. El concepto “Big Data” se refiere, por un lado, a grandes cantidades de información, tan grandes que no pueden funcionar en una sola computadora sino que requiere “clusters”, es decir, redes de computadoras funcionando simultáneamente. Pero el tamaño no lo es todo. A esta característica hay que sumarle la velocidad, porque las redes sociales no descansan y es necesario recopilar, por ejemplo, los millones de tweets que se lanzan a cada segundo, además de interpretarlos para poder detectar una tendencia. Y por último hay que tener en cuenta la necesidad de estructurar esa información en bases de datos para darle sentido. Cantidad, velocidad y estructura, más capacidad tecnológica y el software adecuado, permiten encontrar la respuesta que se estaba buscando. La herramienta es muy poderosa y ya se usa en las áreas más disímiles no sólo para vender productos o detectar precozmente el hit del verano. Por ejemplo, quien sepa aprovecharla podrá inclinar la balanza a su favor para ser presidente del país más poderoso del mundo.

Obama, gripe y cine

El presidente de los Estados Unidos, Barack Obama, y su equipo de campaña aprovecharon fuertemente la potencia de los datos. En el gran país del norte no sólo es optativo votar sino que también es necesario empadronarse para hacerlo, lo que explica en parte los altos niveles de ausentismo en las elecciones de este país. Por eso la campaña, además de incentivar al voto por el partido propio, debe lograr que los votantes hagan los trámites para quedar habilitados. Este último aspecto es fundamental, por lo que durante las elecciones presidenciales de 2008 el equipo de Obama clasificó a los usuarios de las redes sociales de acuerdo con las posiciones políticas que revelaban sus amigos. Así los especialistas reconocieron a 3,5 millones de potenciales votantes de Obama no empadronados. Luego se dedicaron a conocer sus intereses específicos sistematizando las publicaciones que hacían en las redes sociales. Una vez determinado el perfil de los votantes-objetivo, por así llamarlos, se pudo dirigir hacia ellos sólo aquellas propuestas del candidato que podían persuadirlos: leyes de género para las feministas, propuestas verdes para los ecologistas, propuestas de salida de Afganistán para los pacifistas y así. El nivel de precisión de esta campaña resultó muy superior al de afiches con candidatos sonrientes que no pueden decir nada por el riesgo de espantar a quien piense distinto. En vez de un “catch all” (“toma todo”), como se llama a los candidatos que no quieren espantar a nadie, lo que hizo Obama fue más bien un “catch each” (“tomar a cada uno”). Finalmente, el equipo de Obama pudo determinar que al menos un millón de los individuos a los que apuntaron se registró para votar aunque es muy difícil medir el mérito que tuvo la campaña ni a quién votaron finalmente. Lo cierto es que Obama ganó por menos de cinco millones de votos en todo el país y en estados como Florida, clave para la victoria, gracias al particular sistema electoral estadounidense, la diferencia con su oponente fue de menos de setenta mil.

La misma lógica puede aplicarse para diseccionar otros campos y encontrar las variables que expliquen fenómenos complejos, siempre y cuando existan los datos. Lo que antes requería hordas de estudiantes munidos de encuestas trajinando las calles, ahora ocupa a un puñado de programadores desmontando la información que proveen las redes sociales a partir de una serie de criterios que les indican los clientes. FB es la plataforma ideal para testear, por ejemplo, un afiche entre miles de usuarios antes de decidirse cuál se utilizará.

Y hay más: el sitio google.org/flutrends/ predice el avance de la gripe sobre una determinada área. Las tendencias las calcula en base a la cantidad de búsqueda de palabras clave como “dolor de garganta”, “remedios para la gripe”, “estornudos”, etcétera, y los ubica espacialmente por geolocalización. Una vez reunidos los primeros datos se pudo afinar la relación estadística aprovechando la cantidad de casos efectivamente atendidos luego por los sistemas de salud. De esta manera se pudo llegar a un algoritmo (una fórmula matemática que relacionara a todas las variables) confiable. Gracias a esta información indirecta se puede detectar el inicio de una oleada de la enfermedad antes de que lo haga cualquier otro sistema, incluidos los equipos de prevención de los hospitales.

Otro ejemplo, también desarrollado por Google, permite prever los éxitos de taquilla. Según pudieron establecer estadísticamente, cada persona consulta la película que le interesa unas trece veces en Internet antes de ir a verla. O sea que si el buscador encuentra cierto número de visitas a trailers, críticas, horarios de cine y demás puede estimar la futura recaudación del film. Es como si tuviera una bola de cristal digital capaz de adivinar el futuro.

La información de este tipo puede ser muy útil para las empresas de numerosas maneras: prever demanda, construir una imagen, presentar sus productos al público potencial, saber qué piensan de ellos, etcétera. A eso se dedican empresas como Globant, nacida en la Argentina, pero actualmente devenida transnacional con filiales en Estados Unidos, Brasil, Uruguay, Colombia y Reino Unido. Su directora tecnológica, Sabina Schneider, quien empezó a trabajar allí en 2004, un año después del lanzamiento de la compañía, me explicaba durante una entrevista que le realicé en 2013: “Trabajamos con datos que se publican en Internet en tiempo real, en grandes cantidades y los tomamos en crudo, para poder encontrar algunas respuestas a las preguntas de nuestros clientes. Esto implica además un diseño de arquitectura complejo”. Entre sus clientes se cuenta una entidad bancaria española que les pasa información estadística sobre sus clientes para analizar el consumo en distintas ciudades y en distintos momentos del año y así planificar el turismo, ofertas o préstamos. La información puede cruzarse, por ejemplo, hasta con datos del clima para ver si este tiene alguna influencia sobre las conductas de los clientes.

Según Schneider, una vez que los datos están almacenados, se puede hasta prever el surgimiento de una estrella, aunque no inventarla: “Pensá en Justin Bieber y la cantidad de ‘likes’ que tuvo en YouTube cuando la mamá lo filmaba en su casa y cómo eso se empezó a viralizar. Ahí podés ir viendo tendencias que luego usás para prever lo que puede pasar con otros, cruzarlos con datos de las redes sociales y encontrar patrones que te permitan prever algunas tendencias”. A pesar de trabajar en este campo, Schneider cree que “tiene que haber regulaciones que aseguren que no se produzcan abusos. La tecnología va por delante de las leyes. Por ejemplo, con lo que se puede hacer en reconocimiento facial se podría aprovechar las cámaras de seguridad que están en Buenos Aires para registrar dónde estuvo una persona o comportamientos sospechosos. La legislación no lo prohíbe explícitamente”.

Autorxs


Esteban Magnani:

Periodista, escritor y docente en Cs. de la Comunicación, Facultad de Cs. Sociales de la Universidad Nacional de Buenos Aires (UBA).