Cómo Bots y Cyborgs difunden desinformación: Un científico de datos encuentra más de 5,000 Bots en más de 72,000,000 de Tweets relacionados con Trump, Rusia y la NFL

Por Steve Kramer, PhD . Originalmente publicado en OReilly.com .

Particularmente en los últimos años, los investigadores de un amplio espectro de disciplinas científicas han estudiado la dinámica de las redes sociales para comprender cómo se propaga la información a medida que las redes evolucionan. Las plataformas de redes sociales como Twitter y Facebook incluyen no solo usuarios humanos reales sino también bots o programas automatizados que pueden alterar significativamente la forma en que se propagan ciertos mensajes. Mientras que algunos bots de recolección de información son beneficiosos o al menos benignos, las elecciones presidenciales de 2016 y las elecciones de 2017 en Francia que dejaron en claro que las cuentas de títeres (es decir, numerosas cuentas sociales controladas por una sola persona) fueron efectivas dejaron en claro influir en los mensajes políticos y propagar la información errónea en Twitter y Facebook . Por lo tanto, es crucial identificar y clasificar bots sociales para combatir la propagación de desinformación y especialmente la propaganda de estados enemigos y grupos extremistas violentos. Este artículo es un breve resumen de mi reciente investigación de detección de bots. Describe las técnicas que apliqué y los resultados de identificar grupos de lucha de bots virales y ciborgs que buscan influir en las opiniones en línea.

Para esta investigación, he aplicado técnicas de la teoría de la complejidad, especialmente la entropía de la información, análisis de redes y algoritmos de detección comunitaria para identificar clusters de bots virales y cyborgs (usuarios humanos que usan software para automatizar y amplificar sus publicaciones sociales) que difieren de usuarios humanos típicos en Twitter y Facebook. A continuación, explico brevemente estos enfoques, por lo que no es necesario conocer a fondo estas áreas. Además de bots comerciales enfocados en promover el tráfico de clics, descubrí ejércitos rivales de bots y cyborgs políticos pro Trump y anti Trump. Durante agosto de 2017, descubrí que los bots anti-Trump tenían más éxito que los bots pro-Trump en la difusión de sus mensajes. En contraste, durante los debates de protesta de la NFL en septiembre de 2017, los bots y cyborgs anti-NFL (y pro-Trump) lograron mayores éxitos y viralidad que los bots pro-NFL.

Obteniendo datos fuente de Twitter

Los conjuntos de datos para mi investigación de detección de bot de Twitter consistieron en ~ 60 millones de tweets que mencionaban los términos "Trump", "Rusia", "FBI" o "Comey"; los tweets se recopilaron a través de la API pública gratuita de Twitter en períodos separados entre mayo de 2017 y septiembre de 2017. He hecho que los identificadores de tweet de origen y muchos de nuestros archivos de resultados de análisis estén disponibles en un proyecto de datos publicado en data.world. Los investigadores que deseen colaborar en este proyecto en data.world deben enviar un correo electrónico a datapartners@paragonscience.com .

Detectando bots usando entropía de información

La entropía de información se define como "la cantidad promedio de información producida por una fuente de datos estocástica probabilística". Como tal, es una manera efectiva de cuantificar la cantidad de aleatoriedad dentro de un conjunto de datos. Debido a que se puede conjeturar razonablemente que los humanos reales son más complicados que los programas automatizados, la entropía puede ser una señal útil cuando se intenta identificar bots, como lo han hecho varios investigadores anteriores . De la reciente investigación en detección de bots sociales, particularmente notable es el excelente trabajo de grupos de investigadores de la Universidad de California y la Universidad de Indiana . Su sistema "botornot" usa un modelo aleatorio de aprendizaje de máquinas forestales que incorpora 1.150 características derivadas de metadatos de cuentas de usuario, datos de amigos / seguidores, características de red, características temporales, características de contenido y lenguaje, y análisis de sentimientos.

Para nuestro trabajo actual, elegí adoptar un enfoque muy simplificado para la detección de bots sociales usando dos tipos de puntajes de entropía de información: uno basado en la distribución de retardos de tiempo entre publicaciones sucesivas y un segundo basado en el orden de palabras dentro de las publicaciones. Las cuentas que envían mensajes a intervalos de tiempo uniformes o con mensajes con un contexto de texto inusualmente estático o similar pueden ser bots o cyborgs.

Luego, calculé los puntajes Z de la entropía de tiempo y de la entropía de texto. En los resultados presentados aquí, establecí un umbral mínimo de 10 publicaciones sociales por un usuario para analizar las publicaciones de dicho usuario, y luego apliqué un umbral conservador de 2.5 para el Z-score (es decir, puntajes brutos ao por encima de 2.5 desviaciones estándar por encima de la media) para cualquier entropía métrica con el fin de marcar posibles bots. Al disminuir el umbral, por supuesto, detectaría más bots, pero a riesgo de falsos positivos que podrían señalar inadvertidamente a los usuarios humanos reales como robots. En el futuro, espero calcular la curva ROC para mi enfoque de doble entropía para caracterizar los intercambios entre falsos positivos y falsos negativos.

Midiendo la viralidad de los robots usando la descomposición del núcleo k

El k-core de un gráfico es un subgrafo máximo en el que cada vértice tiene al menos un grado k. El núcleo de un vértice es k si pertenece al k-core pero no al (k + 1) -core. La descomposición del núcleo k se realiza mediante la eliminación recursiva de todos los vértices (junto con sus respectivos bordes) que tienen grados menores que k. Investigaciones previas han sugerido que la descomposición del núcleo k de una red puede ser muy efectiva para identificar a los individuos dentro de una red que están mejor posicionados para diseminar o compartir información. Usé la descomposición de k-core en 2016 para analizar más de 120 millones de tweets relacionados con las elecciones presidenciales de los EE. UU. De 2016 para identificar a los usuarios más influyentes. Para esta investigación de detección de bots, realicé una descomposición de k-core de las redes heterogéneas de usuario / hashtag / URL de Twitter para cada día en el que recogí muestras entre mayo y septiembre de 2017.

Al combinar nuestras puntuaciones de entropía con los valores de coreness correspondientes, pude identificar qué bots o cyborgs (es decir, humanos que usan software especializado para automatizar sus publicaciones en redes sociales) fueron más exitosos en incitar a otros usuarios (algunos de los cuales también eran bots). ) para compartir o reaccionar a sus publicaciones, logrando posiciones más cercanas al centro de las redes diarias de Twitter. (Este enfoque de descomposición de k-núcleo fue utilizado de manera similar por Bessi y Ferrara para medir el arraigo de bots sociales).

La gráfica de dispersión 3-D de la Figura 1 muestra claramente que la gran mayoría de los bots sociales identificados no tienen éxito, permaneciendo en los reinos exteriores de las redes con valores de coreness bajos porque ninguno o pocos usuarios más interactúan con ellos. Los bots exitosos lograron valores de coreness más altos porque otros usuarios retwittearon o respondieron sus publicaciones. Los usuarios humanos normales (no se muestran) estarían cerca del origen, y es fácil discernir que cuanto mayor sea el puntaje Z de cualquier métrica de entropía, menos éxito tendrán los bots. Esto probablemente se debe al hecho de que los usuarios humanos pueden reconocer fácilmente las publicaciones anormales de los bots y, por lo tanto, no tienden a compartir las publicaciones de esos bots. En resumen, mientras más humano sea el comportamiento del robot, más probable es que los usuarios reales compartan las publicaciones de ese bot.

Figura 1. Diagrama de dispersión tridimensional que muestra que la mayoría de los bots sociales identificados no tienen éxito. Cortesía de Steve Kramer.

Bots sin éxito

El valor más extremo del Z-score de entropía de texto (fuera de los límites de la trama) es 143 (con una entropía de texto sin formato de 1.0) para el usuario de Twitter @says_k_to_trump. Algunos tweets de muestra se muestran a continuación. Tenga en cuenta que cada tweet es la letra única "k" enviada en respuesta a cada uno de los tweets de @realDonaldTrump. Esa entropía Z-score refleja el hecho de que los contenidos de los tweets de este usuario son completamente deterministas sin incertidumbre. Es comprensible que ningún otro usuario haya interactuado con @says_k_to_trump, por lo que bot ha permanecido en el borde más externo de la red con un núcleo de 1.

Figura 2. Captura de pantalla cortesía de Steve Kramer.

El valor más extremo del Z-score de entropía de tiempo es 122.7 para el usuario de Twitter @trade_debate. Tenga en cuenta el patrón de tiempo muy uniforme de los tweets de ese usuario en la Tabla 1. Comenzando con el segundo tweet, ese usuario twitteó en un intervalo constante de dos segundos.

Tabla 1: ejemplos de entropía de tiempo más extremos

Bots exitosos

Por el contrario, uno de los bots más exitosos es @Bhola021, que alcanzó un valor de coreness de 96 en 2017-08-12. Varios tweets de muestra se muestran a continuación en la Tabla 2. Esto es principalmente un bot de marketing digital en lugar de un bot político o de propaganda. Tenga en cuenta, en particular, el comportamiento de retweeting otras cuentas de usuario con nombres similares y texto de tweet muy similar.

Tabla 2: Tweets de un bot de marketing exitoso

Con el enfoque descrito anteriormente, uno puede identificar bots potenciales y medir su grado de éxito, o incorporación, dentro de las redes sociales en evolución. Como veremos a continuación, estos resultados pueden mejorarse significativamente con algoritmos de detección de comunidades.

Identificar comunidades de bots virales y cyborgs

Para entender más claramente cómo funcionan los bots y cyborgs virales más exitosos dentro de la red de Twitter, creé una subred basada en los tweets enviados por esos bots, extrayendo menciones de usuarios y URLs de respuestas y retweets. En este ejemplo, generé una red utilizando los 16.057 tweets enviados por las 20 cuentas bot más importantes del 7 al 19 de agosto de 2017. La red generada consta de 73,569 enlaces entre 2,949 nodos. Una descomposición de núcleo k de esta red resultó en un núcleo máximo de 20. Luego apliqué el algoritmo de detección de la comunidad de Louvain para identificar los grupos relevantes dentro del centro de la red para todos los nodos con núcleo ? 10. En la red interactiva de Polinode mostrada en Figura 3, cada color representa una comunidad diferente dentro de la red. Entre los primeros 20 bots, hay una red de bots altamente interconectada con nombres similares (porantext, porantexts_, lovedemand101, lovecommand102, etc.) que retwittean y comparten las publicaciones de los demás. Estas botnets son evidentemente bots comerciales que intentan atraer tráfico de clics a páginas web con títulos provocativos como "Donald Trump pateó una dirección fuera de su hotel y aquí está el por qué" y "devastaremos implacablemente a las tropas estadounidenses". Corea del Norte advierte a Donald Trump sobre el sol Day "como los dos mejores títulos de artículos.

Figura 3. Red de top bots y cyborgs virales de Trump en agosto de 2017. Cortesía de Steve Kramer.

Debido a que estoy particularmente interesado en los efectos de los robots sociales en la difusión de información y la opinión pública en política, filtré los tweets de origen para incluir solo aquellos que incluyen la palabra "Rusia" en el texto del tweet. Cuando realicé la descomposición del núcleo k y los cálculos de entropía en la red de Twitter relacionada con Rusia, surgió un conjunto diferente de bots y cyborgs influyentes durante el período del 7 al 19 de agosto de 2017.

La red Polinode que se muestra a continuación en la Figura 4 muestra 17 subgrupos diferentes en la red creada por los 20 bots y cyborgs más importantes relacionados con Rusia.

Figura 4. Red de top bots y cyborgs virales relacionados con Rusia en agosto de 2017. Cortesía de Steve Kramer.

La Comunidad 1 es un grupo pro-Trump centrado en la cuenta del bot llamada MyPlace4U (ver Figura 5).

Figura 5. Comunidad 1 (bots pro Trump). Cortesía de Steve Kramer

Por el contrario, Community 10 es un grupo anti-Trump centrado en la cuenta de Twitter llamado RealMuckmaker (ver Figura 6), que en realidad fue el ciborg más exitoso en este conjunto de datos.

Figura 6. Comunidad 10 (bots anti-Trump). Cortesía de Steve Kramer

La Tabla 3 a continuación enumera los 20 bots y cyborgs virales más importantes de la red Trump / Rusia Twitter del 7 al 19 de agosto de 2017. Tenga en cuenta que solo seis de los 20 bots y cyborgs virales más importantes actúan para apoyar a Donald Trump. Los usuarios que admiten Trump se resaltan en rojo. Elegí el texto del tweet de muestra de cada usuario calculando la similitud media del texto de cada tweet con el resto de los tweets de ese usuario y seleccionando el tweet con la similitud media más alta usando la distancia de Levenshtein y el módulo de Python fuzzywuzzy .

Tabla 3: Top 20 robots y cyborgs de Twitter relacionados con Rusia en agosto de 2017

Seguimiento de las batallas entre grupos de bots y cyborgs relacionados con Rusia

Para discernir cuán exitosos eran los diferentes grupos de bots y cyborgs relacionados con Rusia para difundir sus mensajes en Twitter, calculé los valores medios y máximos de coreness diarios alcanzados por los seis usuarios pro-Trump en la Tabla 3 frente a los 14 anti-Trump restantes ( o neutral) usuarios en la Tabla 3. La Figura 7 (versión interactiva aquí ) muestra que, en general, el grupo anti-Trump tuvo más éxito en la difusión de sus mensajes durante el período del 7 al 19 de agosto de 2017, con el mayor pico el 11 de agosto liderado por @RealMucker, que promovió un enlace a un artículo de CNN Politics en particular sobre el asalto del FBI a la casa del ex gerente de campaña de Trump, Paul Manafort.

Figura 7. Valores máximos de coreness de grupos de bots / cyborgs de Twitter relacionados con Rusia. Cortesía de Steve Kramer.

Descubriendo bots prominentes y cyborgs en la NFL protestas controversia

Apliqué el mismo enfoque de detección de bots basado en entropía y análisis de redes a más de 1M tweets que incluyeron los términos "Trump" y "NFL" del 14 al 25 de septiembre de 2017. La red Polinode que se muestra debajo en la Figura 8 muestra 16 subgrupos diferentes en la red creada por los mejores 20 bots y cyborgs relacionados con la NFL. Nueve de los grupos se oponen a las protestas de la NFL, mientras que siete están a favor de los jugadores de la NFL que tomaron una rodilla en señal de protesta.

Figura 8. Red de top bots y cyborgs virales relacionados con Trump / NFL en septiembre de 2017. Cortesía de Steve Kramer.

Al igual que en el ejemplo relacionado con Rusia, calculé el valor de coreness máximo diario para los grupos pro-NFL y anti-NFL dentro de los 20 mejores bots relacionados con la NFL viral. La Figura 9 muestra que los bots y cyborgs anti-NFL (y pro-Trump) tuvieron más éxito en la difusión de su contenido social que el grupo pro-NFL. Consulte mi proyecto de datos data.world para obtener más detalles.

Figura 9. Valores máximos de Coreness de grupos de Twitter Bots / Cyborgs relacionados con la NFL. Cortesía de Steve Kramer.

Descubriendo Facebook bots y cyborgs durante y después de las elecciones presidenciales de 2016 en los Estados Unidos.

Dado el creciente número de informes de participación de Rusia en las elecciones del año pasado en múltiples plataformas sociales, quería aplicar el método de detección de bot basado en entropía a los datos de Facebook relacionados con las elecciones. Nuestro amigo y colega de investigación Jonathon Morgan, CEO de New Knowledge y cofundador de Data for Democracy , proporcionó amablemente un conjunto de datos de comentarios públicos de 10,5 millones de Facebook de la página de Donald Trump en Facebook recopilados entre julio de 2016 y abril de 2017.

Desafortunadamente, debido a que solo tengo el contenido de texto y las marcas de tiempo de los comentarios de Facebook de los usuarios, no tengo la estructura de red social completa disponible como lo hice en los ejemplos de Twitter anteriores. En consecuencia, no es posible realizar el mismo tipo de descomposición de núcleo k. Descubrí que el número de "me gusta" no es un predictor particularmente fuerte o confiable del grado de éxito de un bot o cyborg. Los 20 usuarios de Facebook con los puntajes Z más extremos de entropía de texto se enumeran en la Tabla 4 a continuación. El usuario principal, Nadya Noor, tenía una puntuación de entropía de texto de más de 253 desviaciones estándar por encima del puntaje promedio para el resto de los usuarios.

Tabla 4: Top 20 bots de texto y cyborgs más extremos de los comentarios de Trump en Facebook

El usuario más extremo basado en entropía de texto, Nadya Noor, publicó textos muy similares en árabe durante febrero de 2017 (ver Tabla 5).

La figura 10 muestra una traducción de Google de uno de los comentarios típicos y fuertemente antiamericanos de ese usuario.

Figura 10. Traducción de Google de un comentario de muestra de Nadya Noor. Captura de pantalla cortesía de Steve Kramer.

En el futuro, planeo aplicar algoritmos de detección de la comunidad al contenido de texto y las URL integradas en las publicaciones de estos bots de Facebook para determinar sus principales temas de discusión y tendencias políticas.

Conclusiones

En este artículo, he demostrado cómo es posible identificar bots sociales y cyborgs tanto en Twitter como en Facebook usando entropía de información y luego encontrar grupos de bots exitosos usando el análisis de redes y la detección de comunidades. Dado el riesgo extremo de desinformación y propaganda propagada a través de las redes sociales, esperamos que este enfoque, junto con el trabajo de otros investigadores, permita una mayor transparencia y ayude a proteger la democracia y la autenticidad del discurso en línea. Invito a los investigadores que deseen colaborar en los estudios de estos conjuntos de datos a solicitar acceso para convertirse en colaboradores en nuestro proyecto de datos alojado en data.world .

Por Steve Kramer, PhD . Originalmente publicado en OReilly.com .