Preprocesamiento y calidad de datos
En los últimos años, se ha producido un inmenso crecimiento de los datos, lo que ha dado lugar al Big Data. Esto requiere una gran infraestructura informática con capacidades de procesamiento de alto rendimiento. Conseguir que los grandes datos estén listos para el análisis y la extracción de conocimiento es una tarea difícil y requiere que los datos sean pre-procesados para mejorar la calidad de los datos brutos. La representación y la calidad de los datos es una de las facetas más importantes en el proceso de la ciencia de datos.
El pre-procesamiento de datos es una práctica preliminar en la ciencia de datos en la que los datos brutos se transforman en un formato adecuado para el análisis y los algoritmos de modelización. Mejora la calidad de los datos limpiando, normalizando, transformando, reduciendo y extrayendo características relevantes de los datos brutos. El pre-procesamiento de datos mejora significativamente el rendimiento de los algoritmos de aprendizaje automático, lo que a su vez se traduce en una extracción precisa del modelo. Descubrir el conocimiento a partir de datos ruidosos, irrelevantes y redundantes es una tarea difícil, por lo que identificar con precisión los valores atípicos, suplir los valores perdidos y reducir el volumen de datos útiles plantea problemas desafiantes en la ciencia de datos.
Los retos en el pre-procesamiento de datos se centran en la automatización y la toma de decisiones precisas en su uso encadenado; el ajuste para abordar la estructura compleja de los datos y la adaptación de las técnicas para aumentar la fiabilidad, la equidad y la transparencia de los modelos obtenidos posteriormente por los algoritmos de la ciencia de datos y el pre-procesamiento de datos para las canalizaciones de datos biomédicos de múltiples fuentes y los métodos de obtención de imágenes.
Contacto: Salvador García López