Si una imagen vale más que mil palabras: ¿cuánto puede decir un gráfico de cajas?

Dennis Denis Ávila, Víctor Manuel Ramírez-Arrieta

Resumen


Las visualizaciones gráficas de datos son una parte fundamental del Análisis Exploratorio de Datos y preceden al análisis estadístico. Los gráficos de cajas son de los métodos gráficos más ampliamente utilizados para representar los estadísticos descriptivos de una muestra y visualizar comparaciones. Sin embargo, si estos no son aplicados correctamente, pueden distorsionar marcadamente las interpretaciones de los datos. Por esta razón, en el presente trabajo se describen los problemas asociados a estos gráficos y se mencionan varias maneras en que pueden ser mejorados, con el uso de la flexibilidad que ofrece el entorno R de programación. A través de la adición de dispersiones de puntos, histogramas y curvas de densidad de distribuciones se obtienen variantes gráficas que han sido descritas en la literatura reciente con nombres como gráficos de violín, de pirata, de nubes y lluvia, de vainas, sinaplots, entre otros. Se presenta, además, la aplicación Extended Boxplot Graphics que permite utilizar las potencialidades gráficas del entorno R, sin necesidad de dominar su programación, para producir de forma sencilla variantes mejoradas de los gráficos de cajas para la representación de datos científicos.

Citación: Denis, D. & Ramírez-Arrieta, V.M. 2020. Si una imagen vale más que mil palabras: ¿cuánto puede decir un gráfico de cajas? Revista Jard. Bot. Nac. Univ. Habana 41: 57-69.

Recibido: 3 de junio de 2020. Aceptado: 22 de junio de 2020. Publicado en línea: 26 de septiembre de 2020. Editor encargado: José Angel García-Beltrán.


Palabras clave


exploración de datos; figuras científicas; gráficos de cajas y bigotes; lenguaje R


Estadísticas de Vistas/View Statistics: Resumen - 8059 ; PDF - 136


Texto completo:

PDF

Referencias


Adler, D. 2005. vioplot: Violin Plot. R package version 0.2. http:// CRAN.R-project.org/package=vioplot.

Allen, M., Poggiali, D., Whitaker, K., Rhys, T. & Kievit, R. 2018. Raincloud lots: a multi-platform tool for robust data visualization. PeerJ Preprints, doi.org/10.7287/peerj.preprints.27137v1.

Benjamini, Y. 1988. Opening the Box of the Box Plot. Am. Stat. 42: 257-262.

Bobko, P. & Karren, R. 1979. The Perception of Pearson Product Moment Correlations from Bivariate Scatterplots. Pers. Psych. 32(2): 313-325.

Box, G.E.P., Hunter, W.G. & Hunter, J.S. 1978. Statistics for Experimenters: An Introduction to Design, Data Analysis, and Model Building. Wiley Series in Probability and Mathematical Statistics. John Wiley &

Sons. Hoboken, USA.

Buja, A., Cook, D. & Swayne, D.F. 1996. Interactive highdimensional data visualization. J. Comp. Graph. Stat. 5: 78-99.

Carr, D. 2002. Graphical displays. Pp. 933-960. En: El-Shaarawi, A.H. & Piegorsch, W.W. (eds.). Encyclopedia of Environmetrics, Volumen 2. John Wiley & Sons, Ltd. Chichester, UK.

Chambers, J.M., Cleveland, W.S., Kleiner, B. & Tukey, P.A. 1983. Graphical Methods for Data Analysis. Wadsworth. Belmont, CA, USA.

Cleveland, W.S. 1993. Visualizing Data. Hobart Press. Hobart, Australia.

Cumming, G. 2007. Inference by Eye: Pictures of Confidence Intervals and Thinking About Levels of Confidence. Teach. Stat. 29(3): 89-93.

Dai, W. & Genton, M. 2018. Multivariate functional data visualization and outlier detection. J. Comp. Graph. Stat. 27(4): 923-934.

Denis, D. 2020. Las crisis actuales de la ciencia. Revista Cub. Cienc. Biol. 8(1): 1-16.

DuToit, S.H.C., Steyn A.G.W. & Stumpf R.H. 1986. Graphical Exploratory Data Analysis. Springer-Verlag Inc. New York, USA.

Eklund, A. 2016. beeswarm: the bee swarm plot, an alternative to stripchart. R package version 0.2.3.

Frigge, M., Hoaglin, D.C. & Iglewicz, B. 1989. Some Implementations of the Box Plot. Am. Stat. 43: 50-54.

Hintze, J.L. & Nelson, R.D. 1998. ViolinPlots: A Box Plot - Density Trace Synergism. Am. Stat. 52(2): 181-184.

Ho, J., Tumkaya, T., Aryal, S., Choi, H. & Claridge-Chang, A. 2018. Moving beyond P values: Everyday data analysis with estimation plots. BioRxiv. https://doi.org/10.1101/377978.

Hoaglin, D.C., Mosteller, F. & Tukey J.W. (eds). 1983. Understanding Robust and Exploratory Data Analysis. Wiley. New York, USA.

Hoaglin, D.C., Mosteller F. & Tukey J.W. (eds). 1985. Exploring Data Tables, Trends, and Shapes. Wiley. New York, USA.

Hubbard, K.E. & Dunbar, S.D. 2017. Perceptions of scientific research literature and strategies for reading papers depend on academic career stage. PLOS ONE 12:e0189753.

Hussain, I. 2019. Outlier Detection using Graphical and Nongraphical Functional Methods in Hydrology. Int. J. Adv. Comp. Sci. App. 10(12): 438.

Kampstra, P. 2008. Beanplot: A Boxplot Alternative for Visual Comparison of Distributions. J. Stat. Soft. 28(1): 1-9.

Krzywinski, M. & Altman, N. 2014. Points of significance: Visualizing samples with box plots. Nat. Methods 11(2): 119-120.

McGill, R., Tukey, J.W. & Larsen, W.A. 1978. Variation of boxplots. Am. Stat. 32: 12-16.

Moore, M.V., Nawrocki, L.H. & Simutis, Z.M. 1979. The instructional effectiveness of three levels of graphics displays for computer-assisted instruction. Report No. ARI-TP-359. U.S. Army Research Institute for the Behavioral and Social Sciences. Alexandria, Virginia, USA.

Morgenthaler, S. 2009. Exploratory data analysis. WIREs Comp. Stat. 1: 33-44.

Parzen, E. 1979. Nonparametric Statistical Data Modeling. J. Am. Stat. Assoc. 7(4): 105-131.

Patil, I. 2018. ggstatsplot: “ggplot2” Based Plots with Statistical Details. CRAN package. http://CRAN.R-Project.Org/Package=Ggplot2. junio de 2020.

Pérez, L. 2018. ¿Cómo proceder ante el incumplimiento de las premisas de los métodos paramétricos? o ¿cómo trabajar con variables biológicas no normales? Revista Jard. Bot. Nac. Univ. Habana 39: 1-12.

Phillips, N.D. 2016. The pirate plot (2.0)—the RDI plotting choice of R pirates. http://nathanieldphillips.com/ 2016/04/pirateplot-2-0-therdi-plotting-choice-ofr-pirates/. junio de 2020.

Scott, D.W. 1992. Multivariate Density Estimation; Theory, Practice and Visualization. Wiley. New York, USA.

Sidiropoulos, N., Sohi, S.H., Pedersen, T.L., Porse, B.T., Winther, O., Rapin, N. & Bagger, F.O. 2018. SinaPlot: an enhanced chart for simple and truthful representation of single observations over multiple classes. J. Comp. Graph. Stat. 1-12.

Silverman, B.W. 1986. Density Estimation for Statistics and Data Analysis. Chapman and Hall. New York, USA.

Spear, M.E. 1952. Charting Statistics. Editorial McGraw-Hill. New York, USA.

Spence, M.L., Dux, P.E. & Arnold, D.H. 2016. Computations underlying confidence in visual perception. J. Exp. Psych.: Human Percep. Perf. 42(5): 671-682.

Spitzer, M., Wildenhain, J., Rappsilber, J. & Tyers, M. 2014. BoxPlotR: a web tool for generation of box plots. Correspondence. Nat. Methods 11(2): 121.

Streit, M. & Gehlenborg, N. 2014. Points of View: Bar charts and box plots. Nat. methods. 11(2): 117.

Tapia, R.A. & Thompson, J.R. 1978. Nonparametric probability density estimation. Johns Hopkins University Press. Baltimore, MD.

Tufte, E.R. 1983. The Visual Display of Quantitative Information. Graphics Press. Cheshire, UK.

Tukey, J.W. 1977. Exploratory Data Analysis. Readings, M.A. Addison-Wesley.

Tukey, J.W. 1986. Sunset salvo. Am. Stat. 40: 72-76.

Ultsch, A. 2005. Pareto density estimation: A density estimation for knowledge discovery. Pp. 91-100. En: Baier, D. & Werrnecke, K.D. (eds.). Innovations in classification, data science, and information systems. Vol. 27. Springer. Berlin, Germany.

Velleman, P.F. & Hoaglin, D.C. 1981. Applications, basis and computing of Exploratory Data Analysis. Duxbury Press, Boston, USA.

Wainer, H. 1984. How to display data badly. Am. Stat. 38(2): 137-147.

Wainer, H. 1990. Graphical visions from William Playfair to John Tukey. Stat. Sci. 1: 340-346.

Weissgerber, T.L., Milic, N.M., Winham, S.J. & Garovic, V.D. 2015. Beyond Bar and Line Graphs: Time for a New Data Presentation Paradigm. PLOS Biology 13(4): e1002128.

Wickham, H. & Chang, W. 2008. ggplot2: An implementation of the Grammar of Graphics. R Package Version 0.7. http://CRAN. R-Project. Org/Package=Ggplot2

Wickham, H. 2010. A layered grammar of graphics. J. Comp. Graph. Stat. 19(1): 3-28.

Zylberberg, A., Roelfsema, P. R. & Sigman, M. 2014. Variance misperception explains illusions of confidence in simple perceptual decisions.Consc. Cognition 27: 246-253.




DOI: http://dx.doi.org/10.5281/zenodo.4792263

Enlaces refback

  • No hay ningún enlace refback.


Copyright (c) 2020 Dennis Denis Ávila, Víctor Manuel Ramírez-Arrieta

Licencia de Creative Commons
Este obra está bajo una licencia de Creative Commons Reconocimiento 4.0 Internacional.

Para suscribirse a la revista o enviar un manuscrito para publicar utilice las direcciones:

revistajbn@jbn.uh.cu o revistajbn@gmail.com

ISSN 0253-5696 RNPS 0060 (IMPRESA)

ISSN 2410-5546 RNPS 2372 (DIGITAL)