HERRAMIENTAS COMPUTACIONALES. Lenguaje R.

Estándar

REPRESENTACIONES GRÁFICAS EN ESTADÍSTICA.

INTRODUCCIÓN.

Una foto dice más que mil palabras. Para las personas es más fácil procesar e interpretar información que se presenta de manera gráfica, ya sea con dibujos, gráficas, fotos. La presentación de datos mediante gráficas es algo que se realiza a diario y en forma casi natural por personas de las más diferentes profesiones.

Los gráficos nos permiten a “golpe de vista” hacer un análisis de datos aun los muy complejos e interpretarlos, determinar su comportamiento, analizarlos de manera más fácil, de igual manera facilitan el sacar conclusiones, implican un ahorro significativo de tiempo.

Los gráficos estadísticos nos permiten usar nuestra habilidad visual para procesar información, en base a ello podemos hacer juicios respecto la variabilidad, escala, patrones y tendencias de los datos. Igualmente es importante desarrollar habilidades para interpretar de manera correcta la información proporcionada por los gráficos, debemos ver a los gráficos como una poderosa herramienta de trabajo.

William Playfair es considerado el pionero de la estadística gráfica. Su trabajo en gráficas lo realizo durante más de 36 años, el actuaba en base a los siguientes principios:

1. El método gráfico es una forma de simplificar lo tedioso y lo complejo.

2. Los hombres ocupados necesitan alguna clase de ayuda visual.

3. Un gráfico es más accesible que una tabla.

4. El método gráfico es concordante con los ojos.

5. El método gráfico ayuda al cerebro, ya que permite entender y memorizar mejor.

Wainer (1990) señala que entre la gente es muy común pensar que si un gráfico es bueno, éste debería ser totalmente comprensible sin ninguna ayuda adicional. Este pensamiento es limitante. Los gráficos “buenos” los divide en dos categorías:

1. Un gráfico fuertemente bueno muestra todo lo que queremos conocer sólo con mirarlo.

2. Un gráfico débilmente bueno nos muestra lo que necesitamos conocer observándolo, una vez sepamos como mirarlo.

Actualmente debemos procesar grandes volúmenes de información, los gráficos nos facilitan esta labor. 

Propósito de una representación gráfica en estadística.

El propósito de una representación gráfica en estadística es presentar la información de manera clara, sencilla, retomando a Wainer,  debe mostrar todo lo que necesitamos conocer con solo observarlo.

  1. Elementos de una gráfica.

I.        Título principal.

II.        Título secundario (opcional)

III.        Descripción del gráfico.

IV.        Región de datos y símbolos (gráfico)

V.        Escalas en los ejes

VI.        Pie del gráfico.

  1. Errores y mejores prácticas al elaborar gráficas.

Mejores prácticas:

I.        Hacer que los datos sobresalgan.

II.        Evitar lo superfluo.

III.        Utilice un par de líneas para cada variable.

IV.        Utilice elementos prominentes para mostrar sus datos.

V.        Coloque marcas fuera de la región de datos

VI.        Resaltar la presentación de datos, que ocupe la mayor área posible.

I.        Ser redundante en la información.

II.        Sobreponer datos.

III.        Sobreponer gráficos.

IV.        Presentar muchos números en un espacio reducido.

V.        No poner título.

VI.        No indicar escalas. 

  1. Gráficas en R.

                      I.        Árbol de tallo y hoja – stem().

Este gráfico fue propuesto por Tukey (1977) y a pesar de no ser un gráfico para presentación definitiva se utiliza a la vez que el analista recoge la información ve la distribución de los mismos. Estos gráficos son fáciles de realizar a mano y se usan como una forma rápida y no pulida de mirar los datos.

Ejemplos:

7 67

7 11

6 8

6 00

5 5666677789999

5 000000011233344444

4 5555555666777788889999

4 00334

3 88

—-+—-+—-+—-+–

Datos de velocidades registradas con radar Fecha de observacion: Sept. 10, 1994

Edad de 20 personas

Supongamos la siguiente distribución de frecuencias:

36  25  37  24  39  20  36  45  31  31

39  24  29  23  41  40  33  24  34  40

que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas.
Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4.
A continuación efectuamos un recuento y vamos «añadiendo» cada hoja a su tallo:

tallo1

Por último reordenamos las hojas y hemos terminado el diagrama:

tallo2

Comparar dos distribuciones.

Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribución:

35  38  32  28  30  29  27  19  48  40

39  24  24  34  26  41  29  48  28  22

De ella podemos elaborar sus diagrama de Tallos y Hojas y compararla con la anterior.

tallo3

http://www.estadisticaparatodos.es/taller/graficas/tallos_hojas.html#trenes

II.        Boxplot o caja de Tukey – boxplot().

Es un gráfico simple, ya que se realiza básicamente con cinco números, pero poderoso. Se

observa de una forma clara la distribución de los datos y sus principales características. Permite comparar diversos conjuntos de datos simultáneamente. Como herramienta visual se puede utilizar para ilustrar los datos, para estudiar simetría, para estudiar las colas, y supuestos sobre la distribución, también se puede usar para comparar diferentes poblaciones.

Este gráfico contiene un rectángulo, usualmente orientado con el sistema de coordenadas tal que el eje vertical tiene la misma escala del conjunto de datos. La parte superior y la inferior del rectángulo coinciden con el tercer cuartil y el primer cuartil de los datos. Esta caja se divide con una línea horizontal a nivel de la mediana. Se define un “paso” como 1.5 veces el rango

intercuartil, y una línea vertical (un bigote) se extiende desde la mitad de la parte superior de la caja hasta la mayor observación de los datos si se encuentran dentro de un paso. Igual se hace en la parte inferior de la caja Las observaciones que caigan más allá de estas líneas son dibujadas individualmente.

boxplot

boxplot1

http://www.spssfree.com

III.        Histograma – hist().

El histograma es el gráfico estadístico por excelencia. El histograma de un conjunto de datos es un gráfico de barras que representan las frecuencias con que aparecen las mediciones agrupadas en ciertos rangos o intervalos.

Para construir un histograma se debe dividir la recta real en intervalos o clases (algunos recomiendan que sean de igual longitud) y luego contar cuántas observaciones caen en cada intervalo. Es tal vez el único gráfico que ha tenido un desarrollo teórico en un área que se conoce como estimación de densidades.

velocidades=c(10,20,30,35,40,50,60,70,80,90,100,5,15,25,35,36,37,42,43,45,46,89,47.5,51,53,55,58,57,28,59,61,63,66,75,74,76,82,81,91)

> hist(velocidades)

histograma1

histograma2

En el doble histograma de frecuencias, las barras del doble histograma se disponen en forma horizontal, es decir, sobre las líneas de las abscisas, y convencionalmente se indican los grupos de edad de la población masculina a la izquierda y los que representan la población femenina a la derecha. A su vez, en el eje de las ordenadas se disponen e identifican los grupos de edad.

Pirámide de población mundial estimada para 2050

pirámide

Datos de las Naciones Unidas, División de Población, Departamento de Asuntos Económicos y Sociales. http://www.popin.org/pop1998/9.htm

IV.        Gráfica de dispersión – plot().

Es tal vez el más antiguo de los gráficos multivariables. Está limitado a la presentación de dos variables, aunque se pueden realizar modificaciones de tal forma que nos permita incluir más.

En R obtenemos este gráfico mediante la función plot: plot(x, …).

> tiempo=c(0.5,1,1.5,2,2.5,3)

> distancia=c(20,60,90,120,160,200)

> plot(tiempo,distancia)

> plot(tiempo,distancia,type=”b”,xlab=”tiempo en horas”,ylab=”distancia en kilómetros”)

dispersión1

dispersión2

V.        Gráfica de puntos – dotchart(), stripchart().

En este tipo de gráfica se dibuja un punto por cada dato y son útiles cuando hay pocos datos que pueden ser clasificados según distintos factores

> x=c(1.0,1.0,1.5,2.2,2.5,2.5,2.5,2.5,2.5,2.5,2.8,2.9,3.0,3.1,3.5)

> stripchart(x,method=”overplot”)

gráfica de puntos

> x=c(1.0,1.0,1.5,2.2,2.5,2.5,2.5,2.5,2.5,2.5,2.8,2.9,3.0,3.1,3.5)

> dotchart(x,gdata=TRUE,bg=”yellow”,lcolor=”blue”,xlab=”tiempos”)

gráfica de puntos +1

VI.        Gráfica circular o pie chart – pie().

Este gráfico es una gran herramienta para datos porcentuales tomadas sobre individuos o elementos, por ejemplo un análisis químico sobre el porcentaje de componentes de muestras tomadas en diversas áreas. En este caso realmente este es un gráfico multivariable que puede utilizarse para comparar diferencias o similitudes y realizar agrupamientos.

gráfica circulargráfica circular1

> color=c(1,3,2,4,1,2,3,4,1,2,2,3,1,4,2,3,3,1,2,3,4)

> color.m=table(color)

> names(color.m)=c(“Ford”,”Honda”,”Vw”,”Kia”)

> pie(color.m,col=c(“blue”,”red”,”green”,”yellow”) )

VII.        Gráfica de barras – barplot().

Nos sirve para presentar datos y la frecuencia con que se presentan ya sea absoluta o relativa.

> marcas=c(1,2,3,4,5,6,2,2,3,3,4,4,5,5,6,1,2,3,4,5,6,3,4,5,6,1,2,3,1,1,2,3,4,5)

> table(marcas)

marcas

1 2 3 4 5 6

5 6 7 6 6 4

> barplot(marcas)

> barplot(table(marcas))

> barplot(table(marcas),main=”preferencias por marca”)

gráfica de barras

Si la presentamos con frecuencias relativas

> marcas=c(1,2,3,4,5,6,2,2,3,3,4,4,5,5,6,1,2,3,4,5,6,3,4,5,6,1,2,3,1,1,2,3,4,5)

> table(marcas)

marcas

1 2 3 4 5 6

5 6 7 6 6 4

> barplot(table(marcas))

> barplot(table(marcas)/length(marcas))

> marca.m=table(marcas)

> names(marca.m)=c(“Ford”,”Honda”,”Vw”,”Gmc”,”Ram”,”Jeep”)

> barplot(marca.m)

gráfica de barras+1

VIII.        Gráfica de columnas de matrices – matplot().

Gráfica las columnas de una matriz contra las columnas de otra.

> x=matrix(1:9,3,3)

> y=matrix(10:18,3,3)

> matplot(x,y)

gráfica de matrices+1

> x=matrix(1:4,2,2)

> y=matrix(8:11,2,2)

> matplot(x,y)

gráfica de matrices+1

IX.        Gráfica Quantil-Quantil – qqnorm(), qqplot().

Un gráfico Cuantil-Cuantil permite observar cuan cerca está la distribución de un conjunto de datos a alguna distribución ideal ó comparar la distribución de dos conjuntos de datos.

gráfica cuantil

gráfica cuantil1

X.        Adición de elementos a las gráficas – lines(), points(), abline()

<lines()

Esta función permite graficar segmentos de líneas rectas en un gráfico previo

> x=c(1:10)

> y=c(2*1:10)

> plot(x,y)

> lines(x,y)

gráfica cuantil +1

> x=c(-4,-3,-2,-1,0,1,2,3,4)

> y=c(4,5,3,2,0,5,3,4,6)

> plot(x,y)

> lines(x,y)

gráfica cuantil+2

   points()

Es una función para dibujar una secuencia de puntos en las coordenadas especificadas.

Los puntos agregados están en verde

     abline()

Permite agregar líneas a los gráficos

> x=c(-3,-2,-1,0,1,2,3)

> y=c(-2,0,2,4,6,8,10)

> plot(x,y)

gráfica cuantil+3

> abline(2,-2)

> abline(-2,2)

gráfica cuantil+4

CONCLUSIONES:

El objetivo de un gráfico en estadística, es mejorar la presentación del contenido científico, es hacer más fácil el análisis e interpretación de la información.

Es importante que la información pueda ser captada rápidamente, de un golpe de vista, debe ser sencilla y clara.

Fuentes de consulta:

http://www.rcim.sld.cu/revista_4/articulos_html/rene.htm

Correa, Juan C.; González, Nefti. Gráficos Estadísticos con R. Colombia, 2002.U. N. sede Medellín .posgrado en Estadística.

http://www.estadisticaparatodos.es/taller/graficas/tallos_hojas.html#trenes

http://www.ceibal.edu.uy/UserFiles/P0001/ODEA/ORIGINAL/110826_poblacion_mundial.elp/histograma.html

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s