Cuyas clasificaciones deberías confiar? ¿IMDB, tomates podridos, metacríticos o fandango?

Un científico de datos investiga

¿Deberías ver una película? Bueno, hay muchos factores a considerar, como el director, los actores y el presupuesto de la película. La mayoría de nosotros basamos nuestra decisión en una revisión, un pequeño avance o simplemente al verificar la calificación de la película.

Hay algunas buenas razones por las que querría evitar leer reseñas o ver un avance, aunque traen mucha más información que una calificación.

En primer lugar, es posible que desee evitar por completo los spoilers, sin importar cuán pequeños sean. ¡Entiendo que!

En segundo lugar, es posible que desee una experiencia sin influencias de ver esa película. Esto generalmente se aplica solo a las reseñas, que están salpicadas de fotogramas, como "esta es una película sobre la complejidad del universo" o "esta película no trata realmente sobre el amor". Una vez que estos cuadros se codifican en su memoria a corto plazo, es muy difícil evitar que interfieran con su propia experiencia cinematográfica.

Otra buena razón es que si estás cansado o apurado, es posible que no quieras leer una reseña, y mucho menos ver un avance de 2 minutos.

Por lo tanto, una calificación de película numérica parece ser una buena solución en bastantes situaciones, para algunas personas.

Este artículo tiene como objetivo recomendar un solo sitio web para obtener rápidamente una calificación de película precisa, y ofrece una argumentación sólida basada en datos para ello.

Criterios para "lo mejor"

Hacer tal recomendación es muy parecido a decir "este es el mejor lugar para buscar una calificación de película", que es una afirmación evaluativa, basada en algunos criterios utilizados para determinar qué es mejor, qué es peor o peor, y qué es mejor. , en este caso. Para mi recomendación, usaré un único criterio: una distribución normal.

El mejor lugar para buscar una calificación de película es ver qué clasificaciones se distribuyen en un patrón que se parece más o es idéntico al patrón de una distribución normal, que es el siguiente: dado un conjunto de valores que se encuentran en un intervalo determinado , la mayoría de ellos están en el medio, y los pocos en los extremos de ese intervalo. En general, así es como se ve una distribución normal (también llamada gaussiana):

Una distribución normal (o gaussiana) de las clasificaciones de películas significa que hay algunas clasificaciones bajas, muchas promedio y algunas altas. Una distribución normal ideal significa lo mejor en este contexto.

¿Cuál es la razón de ser de este criterio? Bueno, por mi propia experiencia que consta de varios cientos de películas, puedo decir que he visto:

  • algunos destacados que he visto varias veces
  • una pareja realmente espantosa, y me hizo arrepentirme del tiempo que pasé viéndolos
  • y un montón de gente promedio, para la mayoría de los cuales ni siquiera puedo recordar la trama.

Creo que la mayoría de las personas, ya sean críticos, cinéfilos o simplemente cinéfilos habituales, han tenido una experiencia similar.

Si las clasificaciones de películas realmente expresan la calidad de la película, entonces deberíamos ver el mismo patrón para ambas.

Dado que la mayoría de nosotros consideramos que el grueso de las películas tiene una calidad promedio, deberíamos observar el mismo patrón cuando analizamos las clasificaciones de las películas. Una lógica similar se aplica a las películas malas y buenas.

Se considera que cada barra corresponde a una clasificación (también puede corresponder a un intervalo de calificación). Mientras más alta sea la barra, mayor será el número de películas con esa calificación.

Si aún no está persuadido de que debería haber tal correspondencia entre los patrones, piense en la distribución de calificaciones para una sola película. Como muchas personas califican la película, no es un acto de fe suponer que la mayoría de las veces habrá muchas con preferencias similares. En general, estarán de acuerdo en que la película es mala, promedio o buena (voy a cuantificar más adelante estos valores cualitativos). Además, habrá algunos otros que evaluarán la película con uno de los otros dos valores cualitativos.

Si visualizáramos la distribución de todas las calificaciones para una película individual, lo más probable es que veamos que se forma un solo conglomerado en una de las áreas correspondientes a una clasificación baja, media o alta.

Siempre que la mayoría de las películas se consideren promedio, el grupo alrededor del área promedio tiene la mayor probabilidad de ocurrir, y los otros dos tienen una probabilidad menor (pero aún significativa). (Tenga en cuenta que todas estas probabilidades se pueden cuantificar en principio, pero esto requeriría una gran cantidad de datos y tendría el potencial de convertir este artículo en un libro).

Lo menos probable sería una distribución uniforme en la que no hay grupos, y las preferencias de las personas se dividen casi por igual en los tres valores cualitativos.

Dadas estas probabilidades, la distribución de calificaciones para una muestra de películas lo suficientemente grande debería ser una con un grupo cerrado en el área promedio, bordeada por barras de altura decreciente (frecuencia), asemejándose, por lo tanto, a una distribución normal.

Si ha encontrado todo esto difícil de entender, considere esta ilustración:

Tenga en cuenta la distinción entre "probable" y "muy probable".

¿IMDB, Rotten Tomatoes, Fandango o Metacritic?

Ahora que tenemos un criterio para trabajar, profundicemos en los datos.

Hay muchos sitios web que ofrecen sus propias clasificaciones de películas. Elegí solo cuatro, principalmente en función de su popularidad, para poder obtener calificaciones de películas con una cantidad aceptable de votos. Los felices ganadores son IMDB , Fandango , Rotten Tomatoes y Metacritic .

Para los dos últimos, me he centrado solo en sus tipos de clasificación icónicos: el tomatómetro y el metascore . ? principalmente porque son más visibles para el usuario en cada uno de los sitios web (lo que significa que es más rápido encontrarlos). Estos también se comparten en los otros dos sitios web (el metascore se comparte en IMDB y el tomatómetro en Fandango). Además de estas clasificaciones icónicas, ambos sitios web también tienen un tipo de calificación con menos funciones donde solo los usuarios pueden contribuir.

He recopilado calificaciones para algunas de las películas más votadas y votadas en 2016 y 2017. El conjunto de datos limpio tiene calificaciones para 214 películas y puede descargarse de este repositorio de Github .

No he recopilado calificaciones para películas lanzadas antes de 2016, simplemente porque ha ocurrido un ligero cambio en el sistema de clasificación de Fandango poco después del análisis de Walt Hickey , al que me referiré más adelante en este artículo.

Soy consciente de que trabajar con una muestra pequeña es arriesgado, pero al menos esto se compensa obteniendo la instantánea más reciente de las distribuciones de las calificaciones.

Antes de trazar e interpretar las distribuciones, permítanme cuantificar los valores cualitativos que utilicé anteriormente: en una escala de 0 a 10, una mala película está entre 0 y 3, una media entre 3 y 7, y una buena entre 7 y 10 .

Por favor, tome nota de la distinción entre calidad y cantidad. Para mantenerlo discernible en lo que sigue, me referiré a las clasificaciones (cantidad) como bajas, promedio o altas. Como antes, la calidad de la película se expresa como mala, promedio o buena. Si te preocupa que el término "promedio" sea el mismo, no lo hagas, porque me ocuparé de evitar cualquier ambigüedad.

Ahora echemos un vistazo a las distribuciones:

Cada calificación tiene sus peculiaridades. Para IMDB y Fandango, cada barra corresponde a un rango de 0.5, y para las otras dos, el rango de una barra tiene un valor de 5.

A simple vista, se puede notar que el histograma del metascore (así se llama este tipo de gráfico) se asemeja más a una distribución normal. Tiene un grupo grueso en el área promedio compuesta de barras de alturas irregulares, lo que hace que la parte superior no sea roma ni afilada.

Sin embargo, son más numerosos y más altos que las barras en cada una de las otras dos áreas, que disminuyen en altura hacia los extremos, más o menos gradualmente. Todo esto indica claramente que la mayoría de las metascoras tienen un valor promedio, que es más o menos lo que estamos buscando.

En el caso de IMDB, la mayor parte de la distribución también se encuentra en el área promedio, pero hay un obvio sesgo hacia los valores promedio más altos. El área de altas calificaciones se ve similar a lo que se esperaría que se viera para una distribución normal en esa parte del histograma. Sin embargo, la característica más llamativa es que el área que representa bajas clasificaciones de películas está completamente vacía, lo que genera un gran signo de interrogación.

Inicialmente, eché la culpa a la pequeña muestra, pensando que una más grande le haría más justicia a IMDB. Afortunadamente, pude encontrar un conjunto de datos listo para usar en Kaggle que contenía clasificaciones de IMDB para 4.917 películas diferentes. Para mi gran sorpresa, la distribución se veía así:

Esta similitud aumenta la confianza con respecto a la representatividad de la muestra más pequeña.

La forma de la distribución se ve casi igual a la de la muestra con 214 películas, excepto en el área de bajas calificaciones, que en este caso está poco poblada con 46 películas (de 4917). La mayor parte de los valores se encuentra todavía en el área promedio, lo que hace que la calificación IMDB valga la pena considerar más para una recomendación, aunque es claramente difícil rivalizar con el metascore, con ese sesgo.

De todos modos, lo realmente bueno de este resultado es que puede usarse como un argumento sólido para respaldar la tesis de que la muestra de 214 películas es bastante representativa para toda la población. En otras palabras, hay una mayor confianza ahora que los resultados de este análisis serían los mismos, o al menos similares, a los resultados alcanzados si se analizaran absolutamente todas las calificaciones de las películas de los cuatro sitios web.

Con esta mayor confianza, pasemos a examinar la distribución de las calificaciones de Fandango, que no parece haber cambiado mucho desde el análisis de Hickey. La inclinación sigue siendo visible hacia la parte más alta del espectro de clasificación de la película, donde residen la mayoría de las clasificaciones. El área para la mitad inferior de las calificaciones promedio está completamente vacía, al igual que la de calificaciones bajas. Se puede concluir fácilmente que la distribución está bastante lejos de ajustarse a mi criterio. En consecuencia, no lo consideraré más para una posible recomendación.

(Prometo que el tormento de desplazarse hacia arriba terminará pronto. Es mucho más fácil comparar las distribuciones si se colocan una cerca de la otra, en lugar de tenerlas diseminadas por el artículo).

Por último, la distribución del tomatómetro es inesperadamente uniforme, y se vería aún más plana bajo una estrategia de agrupamiento diferente (una estrategia de agrupamiento se define por el número total de barras y sus rangos; puede jugar con estos dos parámetros cuando está generando un histograma) .

Esta distribución no es fácil de interpretar en contexto, porque el tomatómetro no es una calificación clásica, sino que representa el porcentaje de críticos que dieron una crítica positiva a una película. Esto lo hace inadecuado para el marco cualitativo malo-promedio-bueno, porque hace que las películas sean buenas o malas. De todos modos, creo que todavía debería reducirse a la misma distribución normal, con la mayoría de las películas teniendo una diferencia moderada entre el número de críticas positivas y negativas (que ofrecen muchas calificaciones de 30% – 70% de críticas positivas), y una algunas películas tienen una diferencia significativamente mayor, de una forma u otra.

Dada la última consideración y la forma de la distribución, el tomatómetro no cumple mi criterio. Podría ser que una muestra más grande lo hiciera más justicia, pero aun así, si tuviera que recomendarlo, lo haría con algunas reservas debido al vago sistema de calificación positiva o negativa.

En este punto del análisis, podría decir que al observar las distribuciones, mi recomendación es el metascore.

Sin embargo, la distribución de IMDB también parece valer la pena, especialmente si modificas un poco los intervalos de calificación para las tres categorías cualitativas (intervalos que yo misma definí, más o menos arbitrariamente). Desde esta perspectiva, no es suficiente recomendar el metascore haciendo un examen visual en su mayoría.

Entonces, intentaré delimitar entre estos dos usando un método cuantitativo .

La idea es usar la variable Fandango como referencia negativa, y luego determinar qué variable, desde la calificación IMDB y el metascore, está menos correlacionada con ella (llamo a estas variables porque pueden tomar diferentes valores, por ejemplo, el metascore es una variable porque toma diferentes valores, dependiendo de la película).

Simplemente calcularé algunos coeficientes de correlación, y la variable con el valor más pequeño será mi recomendación (explicaré cómo funcionan estos coeficientes de correlación). Pero antes de eso, permítanme justificar brevemente la elección de la variable Fandango como una referencia negativa.

A los usuarios de Fandango les encantan las películas demasiado

Una de las razones de esta elección es que la distribución de las clasificaciones de la película de Fandango es la más alejada de la de una normal, teniendo esa inclinación obvia hacia la parte más alta del espectro de calificaciones de la película.

La otra razón es la nube de sospecha alrededor de Fandango que dejó el análisis de Walt Hickey . En octubre de 2015, también quedó perplejo por una distribución similar, y descubrió que en el sitio web de Fandango las clasificaciones numéricas siempre se redondeaban a la siguiente media estrella más alta, no a la más cercana (por ejemplo, una calificación promedio de 4.1 para una película se han redondeado a 4.5 estrellas, en lugar de 4.0).

El equipo de Fandango arregló el sistema de calificación parcial y le dijo a Hickey que la lógica de calificación era más bien un "error de software" en su sitio web, apuntando hacia un sistema imparcial en su aplicación móvil. (Más sobre esto en el artículo de Hickey .) El ajuste sí modificó algunos parámetros estadísticos para mejor, pero no lo suficiente como para convencerme de no trabajar con la variable Fandango como referencia negativa.

Así es como se ve el cambio:

He normalizado todos los demás tipos de clasificación para que coincidan con los de Fandango. Los convertí a un sistema de clasificación de 0-5 y luego redondeé los valores convertidos al 0.5 más cercano. El acrónimo "FTE" significa FiveThirtyEight, la publicación en línea para la que Hickey escribe.

Ahora, hagamos zoom en Fandango:

Las barras azules representan el año 2017 y las rojas 2015.

Entre el metascore y la calificación IMDB, ¿cuál es la menor correlación con la clasificación de Fandango?

La menor correlación con la calificación de Fandango es el metascore. Tiene un valor r de Pearson de 0.38 con respecto a Fandango, mientras que la clasificación IMDB tiene un valor de 0.63.

Ahora déjame explicarte todo esto.

A medida que cambian dos variables, tomando diferentes valores, se correlacionan si hay un patrón correspondiente a ambos cambios. Medir la correlación simplemente significa medir en qué medida existe tal patrón.

Una de las formas de realizar esta medida es calcular la r de Pearson. Si el valor es +1.0, significa que hay una correlación positiva perfecta, y si es -1.0, significa que hay una correlación negativa perfecta.

El grado en que las variables se correlacionan disminuye a medida que el r de Pearson se acerca a 0, tanto del lado negativo como del lado positivo.

Mejor visualicemos esto:

Las clasificaciones se pueden trazar en un gráfico. Cada uno de los puntos pequeños que conforman las formas anteriores podría describir las clasificaciones de dos variables (por ejemplo, Fandango e IMDB) para una película específica. Crédito de la imagen: Denis Boigelot (fuente: Wikipedia ).

Ahora, para poner la abstracción anterior en contexto, si comparamos cómo cambian los valores para dos tipos de calificación, digamos Fandango e IMDB, podemos determinar el grado en que hay un patrón correspondiente a ambos cambios.

Dados los coeficientes de correlación que acabamos de mencionar, existe un patrón entre Fandango e IMDB en mayor medida que para Fandango y el metascore. Ambos coeficientes son positivos y, como tal, se dice que la correlación es positiva, lo que significa que a medida que aumentan las calificaciones de Fandango, las calificaciones de IMDB tienden a subir también, más que las metascore.

Dicho de otra manera, para cualquier clasificación de película dada en Fandango, es más probable que el metascore sea más diferente de él que la calificación de IMDB.

El veredicto: use el metacore de Metacritic

Con todo, recomiendo consultar el metascore cada vez que esté buscando una calificación de película. Así es como funciona, y sus desventajas.

En pocas palabras, el metascore es un promedio ponderado de muchas críticas provenientes de críticos de renombre. El equipo de Metacritic lee las revisiones y asigna a cada una una puntuación de 0-100, que luego recibe un peso, principalmente en función de la calidad y la fuente de la revisión. Puede encontrar más sobre su sistema de clasificación aquí .

Ahora, solo quiero señalar algunas desventajas del metascore:

  • Los coeficientes de ponderación son confidenciales, por lo que no podrá ver en qué medida cada revisión contó en el metascore.
  • Tendrá dificultades para encontrar metascoras para películas menos conocidas que aparecieron antes de 1999, el año en que se creó Metacritic.
  • Algunas películas recientes cuyo idioma principal no es el inglés ni siquiera aparecen en Metacritic. Por ejemplo, las películas rumanas Two Lottery Tickets (2016) y Eastern Business (2016) no figuran en Metacritic, mientras que están en IMDB, con calificaciones.

Pocas palabras

Para resumir, en este artículo hice una sola recomendación de dónde buscar una clasificación de película. Recomendé el metascore, basado en dos argumentos: su distribución se asemeja más a la normal, y es la menos correlacionada con la clasificación de Fandango.

Todos los elementos cuantitativos y visuales del artículo son reproducibles en Python, como se muestra aquí .

¡Gracias por leer! ¡Y feliz película!

Texto original en inglés.