TripAdvisor Monumentos
Presentamos TripAdvisor Monumentos (TripM), tres nuevos conjuntos de opiniones de TripAdvisor relativas a tres de los monumentos más populares de España.
Parte I. Descripción de los conjuntos de datos.
El conjunto de datos de la Alhambra está formado por un total de 7.217 opiniones, de las cuales 6.781 están etiquetadas como positivas, 143 como negativas y 293 como neutras. El conjunto de datos de la Mezquita de Córdoba está formado por un total de 3525 opiniones, de las cuales 3453 están etiquetadas como positivas, 17 como negativas y 55 como neutras. El conjunto de datos de la Sagrada Familia está formado por un total de 43.540 opiniones, de las cuales 41.163 están etiquetadas como positivas, 554 como negativas y 1.818 como neutras.
Con respecto a los monumentos italianos, el conjunto de datos de Grand Canal está formado por un total de 14.484 opiniones, de las cuales 13.832 están etiquetadas como positivas, 104 como negativas y 548 como neutras. El conjunto de datos de Trevi Fountain está formado por un total de 25.391 opiniones, de las cuales 19.515 están etiquetadas como positivas, 2.513 como negativas y 3.363 como neutras. El conjunto de datos de Pantheon está formado por un total de 24.829 opiniones, de las cuales 23.635 están etiquetadas como positivas, 107 como negativas y 1.087 como neutras.
Para cada opinión en el conjunto de datos de los monumentos españoles, se describen los siguientes atributos:
- Nombre de usuario: El nombre del usuario en TripAdvisor.
- Ubicación del usuario: La ubicación del usuario.
- Información del usuario: El número total de opiniones, opiniones de interés y votos útiles del usuario.
- Título de la opinión: Un título principal del texto.
- Clasificación de la puntuación TripAdvisor: La calificación general del escritor de la opinión. Se expresa en una escala de puntuación de 1 a 5 (de Terrible a Excelente).
- Fecha de la opinión: La fecha en la que fue escrita la opinión.
- Opinión: El texto de la opinión.
Para el caso de los monumentos italianos, los atributos que se describen para cada opinión son:
- Opinión: El texto de la opinión.
- Clasificación de la puntuación TripAdvisor: La calificación general del escritor de la opinión. Se expresa en una escala de puntuación de 1 a 5 (de Terrible a Excelente).
La siguiente tabla muestra las características principales de los conjuntos de datos.
Reviews | Pos. reviews | Neg. reviews | Neu. Reviews | Words | Sentences | Study | |
Alhambra | 7217 | 6781 | 143 | 293 | 676398 | 35867 | (1), (2), (3) |
Grand canal | 14484 | 13832 | 104 | 548 | 539465 | 47943 | (1) |
Mezquita de Córdoba | 3525 | 3453 | 17 | 55 | 217640 | 13083 | (1), (3) |
Pantheon | 24829 | 23635 | 107 | 1087 | 774765 | 76720 | (1) |
Sagrada Familia | 43540 | 41163 | 554 | 1818 | 2220719 | 136181 | (1), (2) |
Trevi Fountain | 25391 | 19515 | 2513 | 3363 | 764998 | 70407 | (1) |
Además, estos conjuntos de datos han sido utilizados como fuente de datos para muchos estudios de análisis de sentimiento en el dominio de los monumentos culturales. En nuestro caso, estos conjuntos de datos se han utilizado para los siguientes estudios, entre otros:
(1) Estudiar la viabilidad de TripAdvisor como una fuente de opiniones para monumentos culturales, así como solucionar el problema de las inconsistencias.
Debido al alto coste que tiene desarrollar un Método de Análisis de Opiniones (MAO), se propone aplicar diferentes métodos ya desarrollados en TripM. Se descubrió que las inconsistencias entre la polaridad extraida por las MAO y la valoración del usuario eran muy elevadas. Una de las causas de estas inconsistencias es el problema de adaptación al dominio que muestran la mayoría de los MAO. No obstante, se detectó otra causa y es la variabilidad de polaridades en un documento, es decir, cuando alguien escribe una reseña y la evalúa con una escala del 1-5 (como en TripAdvisor), no utiliza el mismo sentimiento para todas las frases del mismo documento. Por ejemplo, si la experiencia está valorada con un 5 (Excelente), podemos encontrar frases con connotación negativa, y viceversa. Puede consultarse más información en la publicación relacionada:
Valdivia, Ana & Hrabova, Emiliya & Chaturvedi, Iti & Luzon, Maria & Troiano, Luigi & Cambria, Erik & Herrera, Francisco. (2019). Inconsistencies on TripAdvisor Reviews: a Unified Index between Users and Sentiment Analysis Methods. Neurocomputing. 10.1016/j.neucom.2018.09.096.
(2) Mejorar el rendimiento de los métodos de clasificación de polaridades.
Para ello, se propuso detectar la neutralidad de las opiniones y tratarla como el concepto de ruído en clasificación clásica. De esta manera, se obtinen métodos más precisos a la hora de detectar polaridades positivas y negativas. Puede consultarse más información en la publicación relacionada:
Valdivia, Ana & Luzon, Maria & Cambria, Erik & Herrera, Francisco. (2018). Consensus Vote Models for Detecting and Filtering Neutrality in Sentiment Analysis. Information Fusion. 44. 10.1016/j.inffus.2018.03.007.
(3) Síntesis de opiniones.
Además de mejorar los resultados de métodos de clasificación de polaridades, y extraer información detallada de estas, creemos que es de total relevancia crear métodos que sean capaces de resumir automáticamente el contenido substancial de las opiniones. Estos métodos pueden ayudar a los procesos de toma de decisiones de estas organizaciones, detectando de una manera clara aquellos aspectos a mejorar. Puede consultarse más información en la publicación relacionada:
Valdivia, Ana & Martínez-Cámara, Eugenio & Chaturvedi, Iti & Luzon, Maria & Cambria, Erik & Ong, Yew & Herrera, Francisco. (2018). What do people think about this monument? Understanding negative reviews via deep learning, clustering and descriptive rules. Journal of Ambient Intelligence and Humanized Computing. 10.1007/s12652-018-1150-3.
Descarga
La descarga del conjunto de datos se puede realizar desde el repositorio https://github.com/ari-dasci/OD-TripM
Fecha de publicación
Octubre de 2020