One Restaurant Corpus

One Restaurant Corpus (ORCo) es un conjunto de datos formado por opiniones sobre una única entidad u objeto de opinión en el dominio de Restaurantes.

La tarea de síntesis de opiniones (Opinion Summarisation en inglés) consiste en la obtención de un resumen estructurado de forma automática que extrae conocimiento de un conjunto de opiniones con respecto a una entidad. Por lo tanto, con el fin de obtener un resumen significativo, la tarea de síntesis debe ser aplicada sobre un conjunto de opiniones sobre una única entidad. Hasta donde sabemos, no existen conjuntos de datos anotados que estén agrupados por entidad, lo que supone que el flujo de trabajo de la tarea de síntesis de opiniones enfocada como una tarea ABSA (Aspect Based Sentiment Analysis) no puede ser evaluada en su totalidad.

Proponemos One Restaurant Corpus, un nuevo conjunto de opiniones con respecto a una entidad en el dominio de Restaurantes obtenido de Tripadvisor. Contiene 50 opiniones divididas en 277 frases, siendo 25 de ellas evaluadas con 1 estrella y las otras 25 con 5 estrellas en Tripadvisor.

Cada frase de ORCo tiene al menos una categoría de aspecto etiquetada (Food,Desserts,Ambience,Staff,Location,General,Price,Drinks,Desserts y None) y una polaridad del sentimiento (-1,0,1) según tres anotadores. Hemos evaluado el acuerdo entre anotadores por medio del valor alpha de Kripendorff con un valor de 0.7311 para el etiquetado de categoría de aspectos y con el coeficiente multi-k con un valor de 0.9041 para el etiquetado de las polaridades.

El fichero consiste en 4 columnas. Review_id con el fin de agrupar frases según la la opinión a la que pertenecen, Phrase que contiene el texto de la frase, AspectCategory que contiene las categorías de aspecto de cada frase (si hay varias se separan con el caracter ‘/’), Polarity que indica el valor de la polaridad de sentimiento y TripadvisorReviewStarRating que contiene el número de estrellas dadas por el usuario que da la opinión en Tripadvisor. A continuación se muestra un ejemplo de instancia.

Este conjunto de datos ha sido empleado para la evaluación de una metodología de síntesis de opiniones que se encuentra en estado de revisión.

Descarga:
La descarga del conjunto de datos se puede realizar desde el repositorio https://github.com/ari-dasci/OD-One-Restaurant-Corpus

Fecha de publicación:
Julio de 2020

Contacto: Mª Victoria Luzón