TripR-2020Large

Base de datos anotada manualmente que contiene reseñas de restaurantes evaluados a través de la plataforma TripAdvisor

Tripadvisor Restaurant 2020 Large (TripR-2020Large) es una base de datos anotada manualmente que contiene reseñas de restaurantes evaluados a través de la plataforma TripAdvisor por múltiples usuarios. Es adecuada para evaluar tareas de análisis de opiniones así como para evaluar modelos de toma de decisiones que incorporan análisis de opiniones, tarea para la que ha sido creada.

El conjunto de datos Trip-2020Large proporciona las opiniones de 132 usuarios que evalúan 4 restaurantes situados en la ciudad de Londres. No todos los expertos evalúan todos los restaurantes. El conjunto de datos recoge 474 reseñas. En concreto, cada reseña dispone de la siguiente información:

  • Relativa al restaurante: nombre del restaurante, identificador del restaurante, nombre de la ubicación o zona del restaurante, identificador de la ubicación.
  • Relativa al usuario: nombre de usuario, identificador de usuario, nombre de la ubicación o zona del usuario.
  • Relativa a la reseña: título, cuerpo, fecha, calificación numérica general, calificación numérica sobre la comida, calificación numérica sobre el servicio y calificación numérica sobre el precio.

Mostramos las características principales del conjunto de datos TripR-2020Large:

UsuariosRestaurantesReseñasFrases
13244742.522

Consideramos el conjunto de datos TripR-2020Large para evaluar el modelo Crowd Decision Making guided by Sentiment Analysis (CDM-SA), que es un modelo de toma de decisiones a gran escala con representación dispersa capaz de procesar evaluaciones de redes sociales para aprovechar la sabiduría de la multitud. Si se desea, el conjunto de datos TripR-2020Large puede utilizarse para tareas de análisis de opiniones sin necesidad de incorporar procesos de toma de decisiones.

Anotación

Anotamos el conjunto de datos TripR-2020Large a nivel de aspecto al descomponer las 474 reseñas en 2.522 frases. El conjunto de datos ha sido anotado manualmente por tres investigadores experimentados siguiendo las directrices de anotación de TripR-2020Large, que siguen la guía oficial de anotación del conjunto de datos SemEval-2016. Existe una concordancia sustancial de 0,66 entre los tres anotadores según la métrica del coeficiente de Fleiss. Mostramos las principales características de la anotación:

CaracterísticaValor
Num. Frases2.522
Num. Opiniones2.586
Num. Opiniones Pos.2.107
Num. Opiniones Neg.397
Categorías de aspectoRestaurant, Food, Service, Drinks, Ambience y Location
Valores de polaridadpositive, negative y neutral

Las 474 reseñas del conjunto de datos se dividen en 2.522 frases. Se han etiquetado 2.586 opiniones, de las cuales 2.107 son positivas, 397 son negativas y el resto expresan opiniones neutras.

Ejemplo

Mostramos un ejemplo de la anotación de una reseña de la base de datos TripR-2020Large:

La reseña se descompone en frases y se identifican las opiniones que expresa cada una. La primera de ellas muestra dos opiniones mientras que la segunda presenta una sola opinión. Las opiniones se identifican mediante los conceptos: 1) «target», es decir, el término de aspecto sobre el que se opina, 2) «category», es decir, la categoría a la que pertenece el término de aspecto, 3) «polarity», es decir, el sentimiento expresado en la opinión, 4) «from», que indica el primer carácter de aparición del término de aspecto, y 5) «to», que indica el último carácter de aparición del término de aspecto.

Cómo citar

C. Zuheros, E. Martínez-Cámara, E. Herrera-Viedma and F. Herrera, «Crowd Decision Making: Sparse Representation Guided by Sentiment Analysis for Leveraging the Wisdom of the Crowd,» in IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2022, doi: 10.1109/TSMC.2022.3180938.

Descarga

La descarga del conjunto de datos accesible desde el repositorio:

https://github.com/ari-dasci/OD-TripR-2020Large

Fecha de publicación

Julio de 2022

Contacto

María Cristina Zuheros Montes