Eliminación de ruido y limpieza.



Limpieza de Datos
La limpieza de datos consiste en detectar los datos erróneos o irrelevantes y descartarlos. Una de las actividades dentro de la limpieza de datos es el tratamiento de datos ausentes. Esto sucede cuanto falta el valor de un atributo. Para rellenar este valor se pueden tomar diversas estrategias, algunas de las cuales son: utilizar la media o la moda de los valores del entorno, generar un valor aleatorio basándose en una distribución gausiana, algún tipo de interpolación, etc. Un problema más difícil es la eliminación de los datos ruidosos. Estos casos corresponden con ejemplos que son significativamente diferentes o son inconsistentes con el conjunto de datos. El tratamiento de los datos ruidosos es una de las tareas más difíciles del conjunto de actividades que engloba la minería de datos. Para detectar qué es un dato ruidoso y qué no, pueden utilizarse diversas estrategias, basándose algunas de ellas en umbrales de probabilidad de determinadas distribuciones de probabilidad. Muchos algoritmos de minería de datos tratan de minimizar el impacto de los datos ruidosos en el modelo final, o incluso eliminarlo. Los datos ruidosos pueden provenir de errores en los aparatos de medidas, de medidas reales y correctas pero altamente improbables, o de casos excepcionales. Por lo tanto, el rechazo de este tipo de datos debe realizarse con mucha precaución.



Comentarios

Entradas populares