Valores atípicos en los datos, ¿cómo identificarlos y manejarlos?

Leneidy Pérez Pelea

Resumen


En el análisis de datos experimentales, es frecuente encontrar variables biológicas con distribución no normal, en las cuales no se cumplen también, otras de las premisas planteadas en los métodos estadísticos tradicionales. En ocasiones, la falta de normalidad puede atribuirse a la presencia de uno o más valores atípicos (outliers) en los datos, los cuales se desvían mucho del resto de los valores y caen fuera del patrón general de distribución de la variable. Varios autores han propuesto diferentes definiciones para estos valores y han desarrollado métodos muy variados para identificarlos y manejarlos. Los métodos más empleados están basados en análisis de distancia, agrupamientos, varianza, ángulos entre vectores y densidad en la vecindad de las observaciones. También varían en depencia de si los valores atípicos están presentes en experimentos que analizan una o múltiples variables. Existe una gran controversia en la literatura en relación con la eliminación de los valores atípicos. Se ha planteado que se debe conocer su causa y la influencia que pueden tener en los resultados de los experimentos, antes de tomar la decisión de eliminarlos o incluirlos en el análisis, porque cambian las inferencias que se obtienen y, en ocasiones, su eliminación puede conducir a la pérdida de una información importante. En el presente artículo se hace una revisión de las principales causas que pueden provocar la aparición de estos valores atípicos, y algunos de los métodos que se han propuesto para identificarlos y manejarlos.

Recibido: mayo 2019

Aceptado: noviembre 2019


Palabras clave


valores extremos; pruebas de detección de anomalías; pruebas de discordancia


Estadísticas de Vistas/View Statistics: Resumen - 1473 ; PDF - 434


Texto completo:

PDF

Referencias


Aggarwal, C.C. 2013. Outlier Analysis. Springer, IBM T.J. Watson Research Center, Yorktown Heights. New York, USA.

Aguinis, H., Gottfredson, R.K. & Joo, H. 2013. Best-practice recommendations for defining, identifying and handling outliers. Organ. Res. Methods 16(2): 270-301.

Angiulli, F., Basta, S. & Pizzuti, C. 2006. Distance-based detection and prediction of outliers. IEEE T. Knowl. Data En. 18: 145-160.

Barnett, V. & Lewis, T. 1994. Outliers in Statistical Data. 3er Ed. John Wiley & Sons. New York, USA.

Breunig, M.M., Kriegel, H.P., Ng, R.T. & Sander, J. 2000. LOF: identifying density-based local outliers. SIGMOD Rec. 29(2): 93-104.

Cleophas, T.J. & Zwinderman, A.H. 2019. Outliers assessed as dependent adverse effects. En: Analysis of safety data of drug trials: An Update. Springer Nature Switzerland AG. Cham, Switzerland.

Dan, E. & Ijeoma, O.A. 2013. Statistical analysis/methods of detecting outliers in a univariate data in a regression analysis model. International Journal of Education and Research 1(5): 302-337.

De Armas, A.A. 2015. Detección de outliers en grandes bases de datos. Tesis de Maestría. Universidad Argentina de la Empresa, Argentina.

Evans, V.P. 1999. Strategies for detecting outliers in regression analysis: An introductory primer. En: Advances in Social Science Methodology. B. Thompson (Ed.). JAI Press, Stamford, Connecticut, USA.

Finch, W.H. 2012. Distribution of variables by method of outlier detection. Front. Psychology 3: 211.

Frumosu, F.F.& Kulahci, M. 2019. Outliers detection using an iterative strategy for semi-supervised learning. Qual Reliab Engng Int. 1-16.

García, Ch. 2017. How to Find Outliers in a Data Set. Academy Resources. www.http://blog.socialcops.com/academy/resources/ find-deal-outliers-data-set/. 10 de septiembre de 2019.

Garson, G.D. 2012. Testing Statistical Assumptions. G.D. Garson and Statistical Associates Publishing. Asheboro, North Carolina, USA.

Hawkins D.M. 1980. Identification of outliers. Champman & Hall. London, UK.

Herrera, M., Guerra, C.W., Sarduy, L., García, Y. & Martínez, C.E. 2012. Diferentes métodos estadísticos para el análiis de variables discretas. Una aplicación en las ciencias agrícolas y técnicas. Rev. Cie. Tec. Agr. 21(1): 58-62.

Iglewicz, B. & Hoaglin, D. 1993. How to detect and handle outliers. ASQC Quality Press. Milwaukee, Wisconsin, USA.

Johnson, R.A. & Wichern, D.W. 1992. Applied Multivariate Statistical Analysis. 3rd Ed. Prentice Hall, Englewood Cliffs. New Jersey, USA.

Judd, C.M., McClelland, C.H. & Ryan, C.S. 2009. Data analysis: a model-comparison approach. 2nd Ed. Routledge. New York, USA.

Knorr, E. M. & Ng, R.T. 1998. Algorithms for mining distance-based outliers in large datasets. Pp. 392-403. En: Proceedings of the 24th International Conference on Very Large Data Bases. New York, USA.

Kulich, C., Trojanowski, G., Ryan, M.K., Haslam, S.A. & Renneboog, L.D.R. 2011. Who gets the carrot and who gets the sick? Evidence of gender disparities in executive remuneration. Strategic Manage. J. 32: 301-321.

Kwak, S.K. & Kim, J.H. 2017. Statistical data preparation: management of missing values and outliers. Korean Journal of Anesthesiology 70(4): 407-411.

Muñoz, J.A. & Amón, I. 2013. Técnicas para detección de outliers multivariantes. Revista en Telecomunicaciones e Informática 3(5): 11-25.

Murphy, T. & Lau, A.T. 2008. Manejo de valores atípicos. ¿Cómo se evalúa un valor aberrante o inconsistente único? ASTM Standarization News.

Osborne, J.W. & Overbay, A. 2004. The power of outliers (and why researches should always check for them). Pract. Assess. Res. Eval. 9(6): 1-8.

Osborne, J.W. 2002. Notes on the use of data transformations. Pract. Assess. Res. Eval. 8(6): 1-9.

Osborne, J.W., Christiansen, W.R.I. & Gunter, J.S. 2001. Educational Psychology from a statistician’s perspective: A review of the quantitative quality of our field. En: Proceedings of the Annual Meeting of the American Educational Research Association. Seattle, Washington, USA.

Pamula, R., Deka, J.K. & Nandi, S. 2011. An Outlier Detection Method based on Clustering. Second International Conference on Emerging Applications of Information Technology. Pp. 253-256. IEEE Computer Socierty, Kolkata, India.

Parrinello, C.M., Grams, M.E., Sang, Y., Couper, D., Wruck, L.M., Li, D., Eckfeldt, J.H., Selvin, E. & Coresh, J. 2016. Iterative Outlier Removal: A Method for Identifying Outliers in Laboratory Recalibration Studies. Clin. Chem. 62(7): 966-972.

Pérez, L. 2018. ¿Cómo proceder ante el incumplimiento de las premisas de los métodos paramétricos? o ¿Cómo trabajar con variables biológicas no normales? Revista Jard. Bot. Nac. Univ. Habana 39: 1-12.

Ramaswamy, S., Rastogi, R. & Shim, K. 2000. Efficient algorithms for mining outliers form large data sets. Pp. 427-438. En: Proceedings of International Conference on Management of Data, Dallas, Texas, USA.

Rousseeuw, P.J. & Leroy, A.M. 2003. Robust Regression and Outlier Detection. John Wiley & Sons. New York, USA.

Rousseeuw, P.J. & van Driessen, K. 1999. A fast algorithm for the minimum covariance determinant estimator. Technometrics 41: 212-223.

Sandbhor, S. & Chaphalkar, N.B. 2019. Impact of outlier on neural networks based property value prediction. Advances in Intelligent systems and Computing 862: 481-495.

Seo, S. 2006. A review and comparison of methods for detecting outliers in univariate data sets. Tesis de Maestría. University of Pittsburg, USA.

Sykacek, P. 1997. Equivalent Error Bars for Neural Network Classifiers Trained By Bayesian Inference. Pp. 121-126. En: Proceedings of the European Symposium on Artificial Neural Networks. Bruges, Belgium.

Van der Loo, M.P.J. 2010. Distribution based outlier detection in univariate data. Statistics Netherlands. The Hague/Heerlen, Netherlands.

Whitlock, M.C. & Schluter, D. 2009. The Analysis of Biological Data. Roberts and Company Publishers. Grenndwood Village, Colorado, USA.

Wilcox, R.R. 2005. Introduction to Robust Estimation and Hypothesis Testing. Elsevier Academic Press. Burlington, Massachussets, USA.

Zar, J.H. 2010. Biostatistical Analysis. 5th Ed. Pearson Prentice Hall. New Jersey, USA.

Zhang, J. 2013. Advancements of Outlier Detection: A Survey. ICST Transactions on Scalable Information Systems 13(01-03): e2.

Zhang, K., Hutter, M. & Jin, H. 2009. A new local distance-based outlier detection approach for scattered real-world data. En: Proceedings of the 13th Pacific-Asia Conference on Knowledge Discovery and Data Mining, Bangkok, Thailand. 813-822.


Enlaces refback

  • No hay ningún enlace refback.


Copyright (c) 2019 Leneidy Pérez Pelea

Licencia de Creative Commons
Este obra está bajo una licencia de Creative Commons Reconocimiento 4.0 Internacional.

Para suscribirse a la revista o enviar un manuscrito para publicar utilice las direcciones:

revistajbn@jbn.uh.cu o revistajbn@gmail.com

ISSN 0253-5696 RNPS 0060 (IMPRESA)

ISSN 2410-5546 RNPS 2372 (DIGITAL)