BigDapTOOLS
BigDapTOOLS es un paquete de herramientas que nace con el objetivo de proporcionar y unificar los desarrollos de software relacionados con el preprocesamiento de datos y Big Data. Este proyecto se inició con financiación de la Fundación BBVA. Hasta la fecha, hemos llevado a cabo varios desarrollos en tres conocidas plataformas de Data Science, aunque el paquete seguirá creciendo en los próximos años. Los desarrollos más notables son:
- Software en R. Estos algoritmos abordan problemas como la reducción de datos con autocodificadores, el preprocesamiento de datos para conjuntos de datos desequilibrados, datos ordinales y ruidosos, así como una biblioteca de propósito general para el preprocesamiento de datos llamada’smartdata’, que recoge los algoritmos de última generación para el preprocesamiento de datos en R, siendo un contenedor de algoritmos que proporciona una interfaz uniforme a otros paquetes. (https://sci2s.ugr.es/BigDaPR)
- Software en Spark. Apache Spark es un motor de código abierto desarrollado específicamente para manejar el procesamiento y análisis de datos a gran escala. El software desarrollado está disponible en Spark Packages y contiene un conjunto de algoritmos de preprocesamiento de datos para la selección de características, discretización, filtrado de ruido e imputación de valores perdidos. (https://sci2s.ugr.es/BigDaPSpark)
- Software en Flink. Apache Flink es un marco de trabajo reciente y novedoso de Big Data que utiliza el paradigma MapReduce, centrado en el procesamiento distribuido de datos en flujo y en lotes. Esta biblioteca contiene seis de los algoritmos de preprocesamiento de datos más populares para flujos de datos, tres para la discretización y el resto para la selección de funciones. El trabajo relacionado esta en (https://arxiv.org/abs/1810.06021)
Contacto: Salvador García