TripR-2020

Tripadvisor Restaurant 2020 (TripR-2020) es un conjunto de datos formado por opiniones publicadas en Tripadvisor en el dominio de restaurantes localizados en la ciudad de Londres.

La tarea de Análisis de Opiniones a nivel de aspecto se conoce como aspect-based sentiment analysis (ABSA), y permite obtener el sentimiento de la opinión para cada entidad y aspecto de aquellas entidades explíticamente o implícitamente mencionadas en una review. Mostramos un ejemplo de una opinión, la cuál expresa un sentimiento positivo sobre el ambiente y la comida de un restaurante, pero expresa un sentimiento negativo sobre el precio del restaurante:

TripR-2020 recopila las opiniones de 1.428 expertos que evalúan 78 restaurantes. No todos los expertos evalúan todos los restaurantes. El conjunto de datos recopila 8.306 opiniones. En concreto, cada documento de opinión dispone de los siguientes atributos:

  • Referentes al restaurante: nombre, código identificador, nombre de la localización, y código identificador de la localización.
  • Referentes al experto: nombre, código identificador, y nombre de la localización.
  • Referentes a la opinión: título, cuerpo, fecha, evaluación general, evaluación de la comida, evaluación del servicio, y evaluación del precio.

Conjunto de datos reducido

Una reducción del conjunto de datos TripR-2020 es analizada para la evaluación de la metodología Sentiment Analysis based Multi-person Multi-criteria Decision Making (SA-MpMcDM). Dicha metodología, la cuál está bajo revisión, incorpora análisis de opiniones para permitir a los modelos de toma de decisiones considerar las evaluaciones de los expertos en lenguaje natural. Su objetivo principal es superar las limitaciones de los modelos tradicionales de toma de decisiones, ya que éstos se encuentran limitados al considerar las evaluaciones de los expertos mediante valores numéricos o términos lingüísticos pre-definidos.

La reducción del conjunto de datos TripR-2020 está formada por 4 restaurantes, que son evaluados por 6 expertos. Los seis expertos evalúan los cuatro restaurantes proporcionando un total de 24 opiniones, evitando así la pérdida de información. Dicho conjunto de datos es anotado siguiendo el manual oficial de anotación de SemEval-2016. Las principales características del conjunto de datos son (se usa inglés para las anotaciones):

CaracterísticaValor
Núm. Oraciones168
Núm. Opiniones185
IdiomaInglés
Núm. Opiniones Pos.149
Núm. Opiniones Neg.26
Categorías de AspectosRestaurant, Food, Service, Drinks, Ambience and Location
Sentido opiniónpositive, negative and neutral

Las 24 opiniones del conjunto de datos están separadas en 168 oraciones. Anotamos 185 opiniones de las cuales 149 son positivas, 26 son negativas, y el resto exponen opiniones neutrales. Cada oración presenta al menos una categoría anotada (Restaurant, Food, Service, Drinks, Ambience y Location).

Ejemplo

Mostramos un ejemplo de la anotación de una opinión del conjunto de datos TripR-2020:

OraciónAspectoCategoríaSentido
Consistently good.ImplícitoRestaurantpositive
I have been coming for years.ImplícitoRestaurantpositive
Always good atmosphere and fun people watching.atmosphereAmbiencepositive
The food is always good and quick.foodFoodpositive

La opinión es separada en oraciones. La primera columna presenta el texto de la oración. La segunda columna hace referencia al aspecto sobre el que se opina en la oración. El aspecto es implícito (implicit) cuando dicho aspecto no es explícitamente mencionado en la oración. La tercera columna muestra la categoría en la que el aspecto es clasificado. La cuarta columna muestra el sentimiento de la opinión para cada categoría.

Aplicaciones

El conjunto de datos TripR-2020 puede usarse para la investigación en:

  • Extracción de aspectos implícitos y explícitos.
  • Clasificación de categorías de aspectos.
  • Clasificación de opinión a nivel aspecto.

Además, por su orientación a la evaluación de restaurantes, puede emplearse para trabajos relacionados con Ayuda a la Toma de Decisiones (Decision Making, DM por sus siglas en inglés).

TripR-2020 se ha usado para la evaluación de la metodología SA-MpMcDM, en la que se combinan técnicas de análisis de opiniones y deep learning para obtener la opinión de los evaluadores de cada criterio (categoría de aspecto) con un modelo de DM. El trabajo se encuentra en revisión.

Cómo citar

El artículo en el que se presenta TripR-2020 se encuentra en la siguiente referencia:

Cristina Zuheros, Eugenio Martínez-Cámara, Enrique Herrera-Viedma, Francisco Herrera, Sentiment Analysis based Multi-Person Multi-criteria Decision Making methodology using natural language processing and deep learning for smarter decision aid. Case study of restaurant choice using TripAdvisor reviews, Information Fusion, 68 (2021) 22-36 doi: 10.1016/j.inffus.2020.10.019.

Descarga

La descarga del conjunto de datos se puede realizar desde el repositorio:

https://github.com/ari-dasci/OD-TripR-2020

Fecha de publicación

Octubre de 2020

Contacto

Cristina Zuheros Montes

Scroll Up