Valores atípicos en los datos, ¿cómo identificarlos y manejarlos? / Outliers in data sets, how identify and handling them?

Leneidy Pérez Pelea

Resumen


RESUMEN
En el análisis de datos experimentales, es frecuente encontrar variables biológicas con distribución no normal, en las cuales no se cumplen también, otras de las premisas planteadas en los métodos estadísticos tradicionales. En ocasiones, la falta de normalidad puede atribuirse a la presencia de uno o más valores atípicos (outliers) en los datos, los cuales se desvían mucho del resto de los valores y caen fuera del patrón general de distribución de la variable. Varios autores han propuesto diferentes definiciones para estos valores y han desarrollado métodos muy variados para identificarlos y manejarlos. Los métodos más empleados están basados en análisis de distancia, agrupamientos, varianza, ángulos entre vectores y densidad en la vecindad de las observaciones. También varían en depencia de si los valores atípicos están presentes en experimentos que analizan una o múltiples variables. Existe una gran controversia en la literatura en relación con la eliminación de los valores atípicos. Se ha planteado que se debe conocer su causa y la influencia que pueden tener en los resultados de los experimentos, antes de tomar la decisión de eliminarlos o incluirlos en el análisis, porque cambian las inferencias que se obtienen y, en ocasiones, su eliminación puede conducir a la pérdida de una información importante. En el presente artículo se hace una revisión de las principales causas que pueden provocar la aparición de estos
valores atípicos, y algunos de los métodos que se han propuesto para identificarlos y manejarlos.

Palabras clave: valores extremos, pruebas de detección de anomalías, pruebas de discordancia

ABSTRACT
In experimental data analysis it is frequently found no normal biological variables, in which other assumptions of traditional statistics methods
are violated. Sometimes, no normally is due to the presence of one or more outlier values, which are far away the other values and fall out the
general patron of the variable distribution. Different definitions for this values were proposed by various authors, who also have developed a variety of methods to identify and handle outliers. The most employ methods are based on distance, clustering, variance, angle between vectors and density in the neighborhood of the observations. These methods are also different when there are one or more variables in the experiment. There are a great controversy on the literature related with the elimination of outliers. The cause of outlier and its influence on the results of experiments should be known before taking the decision of its elimination, because the outliers change the inferences of the experiment, and sometimes, its elimination can lead up to the loss of important information. In the present paper, it was made a revision about the main causes of outliers and some proposed methods to identify and handle them.

Keywords: outliers, anomalies detections tests, discordant tests

Recibido: mayo 2019 Aceptado: noviembre 2019

Publicado online 31 de diciembre de 2019. ISSN 2410-5546 RNPS 2372 (DIGITAL) - ISSN 0253-5696 RNPS 0060 (IMPRESA)


Palabras clave


valores extremos; pruebas de detección de anomalías; pruebas de discordancia


Estadísticas de Vistas/View Statistics: Resumen - 32 ; PDF - 19


Texto completo:

PDF

Enlaces refback

  • No hay ningún enlace refback.




Copyright (c) 2020 Leneidy Pérez Pelea

Licencia de Creative Commons
Este obra está bajo una licencia de Creative Commons Reconocimiento 4.0 Internacional.

ISSN 0253-5696 RNPS 0060 (IMPRESA)

ISSN 2410-5546 RNPS 2372 (DIGITAL)