La Entrevista
a Juan Antonio «Oso»Segura
El valor de los datos personales con Inteligencia Artificial
Minuto a minuto se genera una cantidad gigantesca de datos, un clic, un “me gusta”, al compartir una foto, negociando transacciones, consumiendo productos o servicios. En un minuto, los consumidores gastan 283 mil dólares en Amazon, 65 mil usuarios comparten fotos en Instagram, 167 millones de usuarios ven videos en Tiktok, por mencionar algunos ejemplos. La inteligencia artificial guarda relación con la protección de datos personales, puesto que estos últimos forman parte del insumo principal para el funcionamiento de algunos sistemas, como, por ejemplo: la capacidad para recabar datos, trazar perfiles y compartir información.
Por Juan Antonio “Oso” Oseguera
Nos complace poder entrevistar en esta ocasión a Juan Antonio “Oso” Oseguera, periodista y conductor del pódcast Estado Digital, quien nos platica en la entrevista de esta edición, como su título lo anuncia, cuál es el valor de los datos personales frente a una eminente y creciente Inteligencia Artificial.
Según una estimación, el volumen total de datos en todo el mundo ronda ya los 100 billones de gigabytes, el doble que hace tres años. A mediados de la década de 2000, los geeks de Silicon Valley empezaron a describir los datos como el nuevo petróleo de la economía digital. En los años siguientes, las empresas se apresuraron a recopilarlos y, de pronto, se ven anuncios muy bien segmentados que nos acompañan cotidianamente por la navegación de páginas web. Con el tiempo, las protestas por la privacidad cobraron fuerza. Facebook afirma que la privacidad de las personas es primordial y se presenta como una plataforma abierta y transparente. Sin embargo, crece la indignación por haber permitido la extracción de 50 millones de perfiles privados de sus usuarios.
Cuando se supo que los datos personales de millones de usuarios de Facebook fueron recopilados sin su consentimiento por la empresa Cambridge Analytica y utilizados para crear anuncios políticos, muchos lo consideraron un paso demasiado lejos. Además de las nuevas normativas sobre datos introducidas en Europa y otros lugares, empresas como Apple y Google empezaron a tomar medidas drásticas sobre cómo se recopilan y utilizan los datos, tanto en sus navegadores como en las aplicaciones instaladas en sus dispositivos.
Hay que tener presente que vivir en una situación de vigilancia intrusiva y permanente es un riesgo grave para las democracias, ya que entre más control tenga el Estado sobre los ciudadanos, y menos puedan estos ejercer sus derechos en libertad, sin temor a represalias, mayor es el riesgo de caer en sistemas autoritarios. “Por ello la privacidad es importante, porque da poder a la ciudadanía”, dice Carissa Véliz, en su libro Debate (2021), y ese es el fundamento de los sistemas democráticos.
Aunado a los riesgos que derivan de la implementación de tecnología en contextos particulares, se encuentran también aquellos intrínsecos a la tecnología, como los sesgos desde el diseño, que son consecuencia de factores como los valores y el trabajo realizado por los desarrolladores, ya que como dicen Tomás Balmaceda, Tobías Schleider y Karina Pedace en el artículo de la revista ArtefaCTos, enfocada en estudios de la ciencia y tecnología (2021): “Como en todas las aplicaciones de aprendizaje automático, un prejuicio inicial en los datos de entrenamiento genera predicciones inexorablemente sesgadas, que pueden exacerbar la discriminación de los sujetos y grupos más vulnerables”. Y en esto también puede haber errores en la identificación de individuos, que pueden concluir en falsos positivos y falsos negativos.
Muchos navegadores han dejado de utilizar cookies (archivos de texto con pequeños datos, como un nombre de usuario y contraseña, que se utilizan para identificar la computadora del usuario en la red). Google ha tomado medidas drásticas contra las cookies de terceros. Al navegar en internet, en el proceso de búsqueda y compra de esos artículos, los usuarios dejamos un pequeño rastro de quiénes somos en línea. Y eso es información potencialmente valiosa para alguien. Cuando se rellenan formularios de compra en línea, los usuarios dejan información personal valiosa y se les recuerda constantemente que están siendo rastreados por todos estos cuadros de consentimiento de cookies que aparecen cada vez que se visita una nueva página web.
Ken Cukier, autor de varios libros sobre datos e inteligencia artificial, como Big Data: A Revolution that Will Transform How We Work, Live and Think, define qué son los datos. “Son pruebas empíricas de la realidad que hemos decidido recopilar y registrar en un soporte fijo en estado alfanumérico. Pueden ser los latidos de nuestro corazón, el viento, la temperatura o nuestra ubicación. Siempre fue difícil recopilar datos, pero algo cambió cuando lo pusimos todo en una plataforma digital. Se hizo realmente fácil”.
Las cookies se crearon en torno a los años 90 para que el editor del sitio, ya fuera un comerciante electrónico o un periódico, supiera que la persona había estado allí antes, y era muy importante porque previamente toda interacción entre un sitio web y un individuo era anónima.
Existe una enorme infraestructura, quizá un ecosistema comercial de empresas, de intermediarios de datos, que toma los datos de un sitio y de otro, y los juntan. Podríamos imaginar un sitio de comida gourmet y otro de atención sanitaria que identificaran que alguien come muchos alimentos grasos y que necesita ir al gimnasio porque padece enfermedades y comorbilidades debidas a ello.
Hoy hay cookies de origen y cookies de terceros. Las cookies de origen son las que recopila el propietario del sitio web y están relacionadas con la persona que visita el sitio. Las cookies de terceros son rastreadores que están en el sitio web, pero que pertenecen a otra persona, no al propietario del sitio web, y que gestiona las cookies para sus propios problemas de rendimiento y para comprender los problemas de los clientes al navegar por internet.
Ahora bien, la persona que entra en el sitio web tiene una relación con esa página, por eso está allí. Pero la cookie de terceros está recogiendo esos datos y llevándoselos a alguien más. No está muy claro, y habría que preguntarse qué datos. Esto es lo que las ha hecho más controvertidas.
La Unión Europea se puso a la cabeza del mundo con su Reglamento General de Protección de Datos (GDPR, por sus siglas en inglés), que entró en vigor en mayo de 2018. Esa ley sacudió a los gigantes de internet y a las empresas de publicidad globales, que hasta entonces habían utilizado -y a veces abusado- de los datos de los consumidores sin apenas supervisión. El 11 de diciembre de 2019, el gobierno indio presentó un proyecto de ley que obliga a las empresas a manejar los datos solo con el consentimiento del consumidor y da a las autoridades un amplio acceso a ellos. Ese mismo día, Scott Morrison, Primer Ministro de Australia, prometió una revisión de las leyes de privacidad y afirmó que la autoridad de la competencia supervisará cómo se hace publicidad en las plataformas digitales. Pero la pieza legislativa más importante en estos momentos es la Ley de Privacidad del Consumidor de California (CCPA, por sus siglas en inglés), que entró en vigor el 1 de enero de 2023, y que “meterá en cintura” a las empresas en línea.
Los estadounidenses y asiáticos gestionan las leyes de privacidad de otra forma al estilo europeo, sin embargo, la buena noticia es que, al aplicar este tipo de normas, se exige al recopilador de datos, a la empresa que los recolecta y posteriormente los procesa, que sea más cuidadosa a la hora de conocer el inventario de lo que tiene y cómo lo almacena.
Así que ha habido una verdadera restricción en el uso de cookies, que se puede ver en todas partes. Cuando se descarga una aplicación de la tienda de Apple, la marca pregunta al usuario si acepta que esa aplicación lo rastree. El 80% de la gente dice que no. Del mismo modo, muchos navegadores han dejado de utilizar cookies. Google también ha tomado medidas drásticas contra las cookies de terceros. Todavía lo permiten de ciertas formas, y de igual forma Meta entiende que se acabó el concierto. Y así, el día dorado de las cookies, en el que iban a florecer por todas partes e iba a haber un ecosistema de pujas en tiempo real por anuncios a partir de datos que vienen de no se sabe dónde, está llegando a su cénit.
Las fuentes de datos son principalmente, ahora y en el futuro, las plataformas y la data de origen, es decir, la información de los clientes. Un ejemplo: la marca Louis Vuitton tiene una enorme cantidad de datos sobre compras de lujo. Sabe quién compra bolsas para su novia o su pareja o lo que sea en la tienda de Londres o Nueva York. Ahí están los datos de primera mano, esa es una fuente.
Apple ha insistido en la privacidad y la intimidad del consumidor y, por tanto, el paso de una base individual a una base de cohortes. Así que se obtiene un conjunto de datos de personas de orígenes y demografías similares, y el hilo conductor es la generación a la que pertenecen. Google, por su parte, ya tiene la política de deshacerse de las cookies de terceros. Pero esas dos cosas están llevando a los clientes a confiar casi totalmente en los datos de primera parte, asegurándose de que la información que tienen, los datos de los clientes estén integrados y funcionen bien juntos. Y este es un gran problema, es decir, conseguir que todas las plataformas de datos se comuniquen entre sí. La mayoría de las empresas, que han crecido por adquisición o incluso orgánicamente, tienen diferentes plataformas y no se comunican necesariamente entre sí.
En México, Luz María Mariscal, Comisionada Presidenta del Instituto Duranguense de Acceso a la Información Pública y Protección de Datos Personales, propone que tenemos que avanzar de manera estratégica y ordenada, en la construcción de una Política Nacional de Datos Abiertos en México y un Estado Abierto, en apego a los objetivos de la Agenda 20-30. Y añade que se debe generar un instrumento modelo que pueda ser implementado por los sujetos obligados de los tres órdenes de gobierno, de una manera integral, con apertura y total disposición, fuera de las máscaras oficiales y de las fotografías.
En México hay más de 84 millones de usuarios de Internet, según información del INEGI de 2021, y se puede inferir que las tecnologías de la información y la comunicación (TIC) forman parte de la vida cotidiana y que de estas dependen múltiples actividades; por lo que resulta difícil imaginarse la vida moderna sin la comodidad que estas ofrecen.
Sin embargo, esta integración tecnológica, donde compartir y generar información parece ser una nueva medida de valor social, conlleva un costo, el cual se puede traducir en una “desvalorización de la privacidad”.
Actualmente, existen algoritmos avanzados en las tecnologías que se usan de forma cotidiana, por mencionar algunos ejemplos, están las series y películas en Netflix, plataforma que utiliza un algoritmo patentado, el cual es usado para sugerir el orden de los títulos de películas o series tomando como base lo que las personas consumen, las actividades de búsquedas, número de pulgares arriba (like) que se otorgan a los títulos. Este tipo de algoritmo es muy interesante, pues cada vez que se regresa a la cuenta, aparecen títulos recomendados por esta plataforma, producciones que se acercan a los gustos del usuario y lo mantienen conectado durante varias horas.
En los viejos tiempos en que la recopilación de datos en línea era una especie de salvaje oeste de la vigilancia y la opacidad en los acuerdos puede estar llegando a su fin, en parte debido a la regulación, pero quizás más importante debido a las decisiones que están tomando los gigantes tecnológicos, en particular Apple y Google. Y si se piensa que se trata de un cínico juego de poder por parte de estas empresas, el resultado es que la industria de los datos, o al menos la parte de ella que se centra en la publicidad en línea, ha entrado en la fase de consolidación que se aprecia en casi todas las industrias a medida que maduran.
En los grandes modelos lingüísticos o en la inteligencia artificial (IA) en general, hay tres cosas que se necesitan para construir un modelo que funcione: algoritmos, computación y cantidades de datos cada vez mayores.
La IA se encuentra en estudios avanzados de identificación de información en grandes bases de datos. Por ejemplo, la tecnología de la transparencia más importante en México, la Plataforma Nacional de Transparencia (PNT), posee más de 8 mil sujetos obligados en todo el país, contiene más de 7 mil millones de registros en obligaciones de transparencia y más de 7 millones de solicitudes de información, al cierre del año 2019.
El estudio realizado por The London School of Economics and Political Science llamado Big Data y Acceso a la Información en México, muestra un análisis a las preguntas y respuestas de solicitudes de información que las personas habían realizado en el periodo del 2003 al 2019 en el sistema federal INFOMEX (antecesor de la Plataforma Nacional de Transparencia).
El estudio dio por resultado información sobre la evolución de la calidad de las preguntas por parte de las personas y las respuestas que ofrecen las unidades de transparencia de las instituciones públicas. Esto consolida a las herramientas informáticas como la PNT, así como tecnologías clave para las personas, para la elaboración de las preguntas y para las respuestas que deriven en el ejercicio del derecho a conocer sobre lo público.
Los datos no siempre tienen que ser altamente personalizados para ser valiosos, y los profesionales del marketing no son el único grupo interesado en ellos. De hecho, la demanda de conjuntos de datos masivos y agregados de palabras, imágenes, canciones y demás se está disparando, ya que las empresas de IA los utilizan para entrenar la última generación de sus modelos. Pero esto está generando sus propios problemas, ya que los creadores de esos datos intentan obtener su parte justa del valor.
Se viene, definitivamente, una nueva era de acaparamiento de información. Y tiene cosas buenas y malas. Lo bueno es que el recurso puede utilizarse mejor porque hay una propiedad clara y un incentivo para cultivarlo. Lo malo es que mucha gente que sentía que tenía derecho a utilizar un bien común ya no puede hacerlo porque ya no lo es. Ahora es propiedad de alguien y, por tanto, tiene que pagar por él. Lo interesante de todo esto es que todo el mundo cree que sus datos valen mucho, pero en realidad no es así. Los datos individuales valen muy poco, casi nada, de hecho.
Dennis Cinelli, director Financiero de Scale AI, empresa que ayuda a otras compañías a preparar sus conjuntos de datos para utilizarlos en el entrenamiento de modelos de IA lo explica muy bien: “Un ejemplo, sus datos de salud y los de su pareja no importan. Ahora bien, si sus datos de salud y los de su pareja los suma a los de otros 20 millones de personas en la última década, ahora sí hay claramente un valor para el gobierno o para un negocio”.
Los gobiernos, por ejemplo, han encontrado valor utilizando procesos de big data, logrando identificar patrones, tendencias o comportamientos con propósitos sociales. A través de este tipo de procesamiento, los datos agregados sirven de base para tomar decisiones y definir políticas públicas en una determinada región.
La IA guarda relación con la protección de datos personales, puesto que estos últimos forman parte del insumo principal para el funcionamiento de algunos sistemas, como, por ejemplo: la capacidad para recabar datos, trazar perfiles, compartir información a través de componentes como receptores de GPS para geolocalización, bocinas, cámaras para detección de rostro, micrófonos para la entrada y salida de audio, etc.
Es correcto, en sí, los datos personales son una categoría jurídica de información que se rige por reglas especiales que deben observarse también en la industria de la IA y que son esenciales para su tratamiento porque se han convertido en un insumo crucial para el funcionamiento de algunos sistemas, pues la IA involucra la recolección, almacenamiento, análisis, procesamiento o interpretación de enormes cantidades de información (big data) que es aplicada para la generación de diversos resultados, acciones o comportamientos por parte de las máquinas.
Así, cuando un software, producto o dispositivo con IA requiere, en alguna etapa de su desarrollo o funcionamiento, de datos personales, los fabricantes de esta tecnología, así como los proveedores de servicios que recurren a ella, deben respetar la normativa en la materia, incluyendo, desde luego, la observancia de los principios de protección de datos (licitud, lealtad, información, consentimiento, finalidad, proporcionalidad, calidad y responsabilidad) y de los deberes de seguridad y confidencialidad.
Muchas gracias “Oso Oseguera”, un verdadero placer.