TINA: Time-series Industrial Anomaly dataset

Presentamos el conjunto de datos de detección de anomalías Time-series Industrial Anomaly dataset (TiNA), un nuevo conjunto de datos de series temporales para detección de anomalías dentro de un contexto industrial. El conjunto de datos contiene información de sensórica de una máquina de minería perteneciente a la compañía ArcelorMittal.

El conjunto de datos TiNA está provisto de más de 38 millones de instancias con 108 variables en total. La frecuencia de muestreo del mismo es de 2 segundos, dando por tanto un rango total de 468 días desde el 6 de septiembre de 2017 hasta el 25 de diciembre de 2018.

Dataframe head

Para la correcta publicación de este conjunto de datos el mismo ha sido convenientemente anonimizado. De forma más concreta lo que se ha hecho ha sido normalizar todas las columnas numéricas del mismo. Las columnas con datos categóricos han sido modificadas también, cambiando la categoría a otra con diferente nombre con la intención de preservar el anonimato de los datos originales. Las columnas categóricas de este conjunto de datos son las siguientes: «FEATURE76», «FEATURE87», «m_id», «m_subid» y «alarms». La variable «m_id» representa cuando hay o no hay un mantenimiento en dicho paso temporal, identificando los tipos de mantenimiento mediante un código. La variable «m_subid» identifica los subtipos de mantenimientos si es que ha ocurrido alguno y la columna «alarms» identifica los eventos de alarma. Un mantenimiento es una operación que necesita que la máquina se detenga por completo, por lo tanto la normalidad no se alcanza justo después de que el mantenimiento termine debido al propio tiempo de recuperación de la máquina. Las alarmas son eventos observados por los operarios que pueden o no derivar en un mantenimiento. El resto de las columnas son numéricas. Si el fallo es detectado y solucionado sobre la marcha, la máquina debe seguir funcionando. Los nombres de las columnas se han cambiado y barajado para no dar información acerca del tipo de máquina.

m_idm_subidalarms
Number of values157155

Hay 15 códigos distintos de mantenimiento, 7 subtipos de mantenimientos y 155 tipos distintos de alarmas (contando en todos los casos el valor nulo como uno de ellos).

  • Códigos de mantenimiento: «none», «M1», «M2», «M3», «M4», «M5», «M6», «M7», «M8», «M9», «M10», «M11», «M12», «M13», «M14»
  • Subid de mantenimiento: «none», «MS1», «MS2», «MS3», «MS4», «MS5», «MS6»
  • Códigos de alarma: «A1», «A2», «A3», «A4», «A5», «A6», «A7», «A8», «A9», «A10», «A11», «A12», «A13», «A14», «A15», «A16», «A17», «A18», «A19», «A20», «A21», «A22», «A23», «A24», «A25», «A26», «A27», «A28», «A29», «A30», «A31», «A32», «A33», «A34», «A35», «A36», «A37», «A38», «A39», «A40», «A41», «A42», «A43», «A44», «A45», «A46», «A47», «A48», «A49», «A50», «A51», «A52», «A53», «A54», «A55», «A56», «A57», «A58», «A59», «A60», «A61», «A62», «A63», «A64», «A65», «A66», «A67», «A68», «A69», «A70», «A71», «A72», «A73», «A74», «A75», «A76», «A77», «A78», «A79», «A80», «A81», «A82», «A83», «A84», «A85», «A86», «A87», «A88», «A89», «A90», «A91», «A92», «A93», «A94», «A95», «A96», «A97», «A98», «A99», «A100», «A101», «A102», «A103», «A104», «A105», «A106», «A107», «A108», «A109», «A110», «A111», «A112», «A113», «A114», «A115», «A116», «A117», «A118», «A119», «A120», «A121», «A122», «A123», «A124», «A125», «A126», «A127», «A128», «A129», «A130», «A131», «A132», «A133», «A134», «A135», «A136», «A137», «A138», «A139», «A140», «A141», «A142», «A143», «A144», «A145», «A146», «A147», «A148», «A149», «A150», «A151», «A152», «A153», «A154», «none»
MaintenancesAlarms
Number of events191,241587,398

El número total de mantenimientos en el conjunto de datos es de 191,241 y el total de alarmas es de 587,398.

Se puede observar una muestra de varias variables graficadas en la siguiente figura:

Sample plot

Cómo citar

@misc{tina_dasci_arcelor
  title={Time-series Industrial Anomaly dataset},
  authors={Ignacio Aguilera-Martos and David López and Marta García-Barzana and Julián Luengo and Francisco Herrera},
  year={2022},
  URL={https://github.com/ari-dasci/OD-TINA}
}

Descarga

La descarga del conjunto de datos está disponible en el repositorio de GitHub:

https://github.com/ari-dasci/OD-TINA

Fecha de publicación

Julio de 2022

Contacto