headerphoto
domingo, 29 de agosto de 2010

Análisis de Datos


Bajo la denominación "análisis de datos" se engloba en estadística a un conjunto de métodos descriptivos multidimensionales. Para aplicar estos métodos, se necesita que la información esté organizada de la manera siguiente: "n" individuos estadísticos (entidades espaciales, parejas, firmas,...) descritos por "p" variables. Estos métodos permiten resumir la información contenida en las tablas de datos en dimensiones importantes (tabla de n líneas por p columnas). Se pueden distinguir dos "familias" de métodos:

- Los análisis factoriales: consisten en transformar la tabla de datos inicial en una nueva tabla que contiene la misma información, pero bajo forma jerarquizada. Está compuesta de ejes factoriales. El primer eje factorial corresponde a la combinación lineal de variables iniciales, que diferencia al máximo a los individuos entre ellos. Éste es de varianza máxima. Los ejes factoriales son independientes unos de otros y están clasificados en función de su varianza. En general, para extraer lo esencial de la información contenida en la tabla inicial, es suficiente un pequeño número de ejes factoriales (tres o cuatro). La interpretación de estos ejes factoriales permite poner en evidencia la forma de las interrelaciones entre las variables estudiadas, y las semejanzas y diferencias entre los individuos con respecto a esas variables. Los dos métodos más comúnmente utilizados son el análisis en componentes principales (adaptado para datos heterogéneos que combinan variables expresadas en escalas de medida diferentes, o incluso para variables expresadas en porcentajes), y el análisis de correspondencias (adaptado para tablas de contingencia o variables cualitativas).

- Las clasificaciones: permiten elaborar tipologías y agrupar individuos por clases en función de sus semejanzas con respecto al conjunto de las variables. Un criterio empleado a menudo desde el punto de vista técnico es el de buscar la clasificación que minimiza la varianza intraclase (variabilidad entre los individuos de una misma clase), y maximiza la varianza interclase (variabilidad entre las clases). Los métodos más clásicos son la clasificación jerárquica ascendente, y la clasificación por nubes dinámicas.

Metodología en el análisis de datos y posterior representación gráfica
La realización de estudios estadísticos implica emitir unos resultados cuantificables de dicho estudio o experimento. La claridad de dicha presentación es de vital importancia para la comprensión de los resultados y la interpretación de los mismos. A la hora de representar los resultados de un análisis estadístico de un modo adecuado se presentarán  los datos numéricos por medio de tablas, en ocasiones un diagrama o un gráfico pueden ayudarnos a representar de un modo más eficiente nuestros datos.

Análisis descriptivo.
Cuando se dispone de datos de una población, y antes de abordar análisis estadísticos más complejos, un primer paso consiste en presentar esa información de forma que ésta se pueda visualizar de una manera más sistemática y resumida. Los datos que nos interesan dependen, en cada caso, del tipo de variables que estemos manejando.
Para variables categóricas, se quiere conocer la frecuencia y el porcentaje del total de casos que "caen" en cada categoría. Una forma muy sencilla de representar gráficamente estos resultados es mediante diagramas de barras o diagramas de sectores. En los gráficos de sectores, también conocidos como diagramas de "tartas", se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa.

La información que se debe mostrar en cada sector hace referencia al número de casos dentro de cada categoría y al porcentaje del total que estos representan. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de tres categorías. En este caso se pueden apreciar con claridad dichos subgrupos.

Los diagramas de barras son similares a los gráficos de sectores. Se representan tantas barras como categorías tiene la variable, de modo que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase. Estos mismos gráficos pueden utilizarse también para describir variables numéricas discretas que toman pocos valores.

Para variables numéricas continuas, el tipo de gráfico más utilizado es el histograma. Para construir un gráfico de este tipo, se divide el rango de valores de la variable en intervalos de igual amplitud, representando sobre cada intervalo un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de los datos en cada intervalo y el área de los rectángulos. Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene una imagen que se llama polígono de frecuencias. Dicha figura pretende mostrar, de la forma más simple, en qué rangos se encuentra la mayor parte de los datos.

Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el concepto de percentiles, mediante diagramas de. Se suelen también representar aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan más apropiados para representar variables que presenten una gran desviación de la distribución normal. Resultan además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.

Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para posteriores análisis, comprobar la normalidad de alguna de las variables numéricas de las que se dispone. Un diagrama de cajas o un histograma son gráficos sencillos que permiten comprobar, de un modo puramente visual, la simetría y el "apuntamiento" de la distribución de una variable y, por lo tanto, valorar su desviación de la normalidad. Existen otros métodos gráficos específicos para este propósito, como son los gráficos P-P o Q-Q. En los primeros, se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Si la variable seleccionada coincide con la distribución de prueba, los puntos se concentran en torno a una línea recta. Los gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles de distribución de la variable respecto a los cuantiles de la distribución normal.

Comparación de dos o más grupos.
Cuando se quieren comparar las observaciones tomadas en dos o más grupos de individuos una vez más el método estadístico a utilizar, así como los gráficos apropiados para visualizar esa relación, dependen del tipo de variables que estemos manejando.

Cuando se trabaja con dos variables cualitativas podemos seguir empleando gráficos de barras o de sectores. Dos grupos de barras: uno para los sujetos A y otro para los B. En cada grupo, se dibujan dos barras representando el porcentaje. No se debe olvidar que cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso el gráfico podría resultar engañoso.

Por otro lado, la comparación de variables continuas en dos o más grupos se realiza habitualmente en términos de su valor medio, por medio del test t de Student, análisis de la varianza o métodos no paramétricos equivalentes, y así se ha de reflejar en el tipo de gráfico utilizado. En este caso resulta muy útil un diagrama de barras de error.  Para cada grupo, se representa su valor medio, junto con su 95% intervalo de confianza. Conviene recordar que el hecho de que dichos intervalos no se solapen, no implica necesariamente que la diferencia entre ambos grupos pueda ser estadísticamente significativa, pero sí nos puede servir para valorar la magnitud de la misma. Así mismo, para visualizar este tipo de asociaciones, pueden utilizarse dos diagramas de cajas, uno para cada grupo. Estos diagramas son especialmente útiles aquí: no sólo permiten ver si existe o no diferencia entre los grupos, sino que además nos permiten comprobar la normalidad y la variabilidad de cada una de las distribuciones. No olvidemos que las hipótesis de normalidad y homocedasticidad son condiciones necesarias para aplicar algunos de los procedimientos de análisis paramétricos.

Por último, señalar que también en esta situación pueden utilizarse los ya conocidos gráficos de barras, representando aquí como altura de cada barra el valor medio de la variable de interés. Los gráficos de líneas pueden resultar también especialmente interesantes, sobre todo cuando interesa estudiar tendencias a lo largo del tiempo.

No son más que una serie de puntos conectados entre sí mediante rectas, donde cada punto puede representar distintas cosas según lo que nos interese en cada momento (el valor medio de una variable, porcentaje de casos en una categoría, el valor máximo en cada grupo, etc).

Relación entre dos variables numéricas.
Cuando lo que interesa es estudiar la relación entre dos variables continuas, el método de análisis adecuado es el estudio de la correlación. Los coeficientes de correlación (Pearson, Spearman, etc.) valoran hasta qué punto el valor de una de las variables aumenta o disminuye cuando crece el valor de la otra. Cuando se dispone de todos los datos, un modo sencillo de comprobar, gráficamente, si existe una correlación alta, es mediante diagramas de dispersión, donde se confronta, en el eje horizontal, el valor de una variable y en el eje vertical el valor de la otra. Partiendo de una muestra arbitraria, podemos construir el diagrama de dispersión. En él puede observarse claramente como existe una relación directa entre ambas variables, y valorar hasta qué punto dicha relación puede modelizarse por la ecuación de una recta. Este tipo de gráficos son, por lo tanto, especialmente útiles en la etapa de selección de variables cuando se ajusta un modelo de regresión lineal.
Representamos los resultados mediante distintas herramientas estadísticas
Los gráficos ofrecen grandes posibilidades para la representación de datos y pueden ser utilizados en múltiples situaciones, incluso para representar los resultados obtenidos por métodos de análisis más complicados. Podemos utilizar, por ejemplo, dos diagramas de líneas superpuestos para visualizar los resultados de un análisis de la varianza con dos factores. Un diagrama de dispersión es el método adecuado para valorar el resultado de un modelo de regresión logística
la importancia y utilidad que las representaciones gráficas pueden alcanzar en el proceso de análisis de datos. No obstante, es difícil precisar cuándo es más apropiado utilizar un gráfico que una tabla. Más bien podremos considerarlos dos modos distintos pero complementarios de visualizar los mismos datos. La creciente utilización de distintos programas informáticos hace especialmente sencillo la obtención de las mismas.


SITUACIÓN DE APRENDIZAJE

Camila es una estudiante de grado Once. Está pensando seriamente sobre la universidad y la carrera que desea estudiar cuando se gradúe. Los últimos días ha estado buscando información sobre el tema.



PREGUNTA GENERADORA

            ¿Cómo puede Camila Analizar la información?
¿Cuáles métodos debe utilizar?

ACTIVIDADES CURRICULARES:
·           ACTIVIDAD 1:

En el aula de clase va a recolectar la siguiente información:

·         Estudiantes que van a estudiar en la universidad.
·         Carreras que los estudiantes preferirían estudiar.
·         Estudiantes que van a estudiar otras Instituciones.
·         Carreras que los estudiantes prefieren estudiar en otras Instituciones.
·         Estudiantes que no van a seguir estudiando.
·         Actividades a las que se van a dedicar.
·         Intereses personales.
·         Intereses familiares.
·         Precio máximo que puede pagar por semestre.
·         Ciudad donde piensa seguir estudiando.

Tarea 1:

                        Redactar en el cuaderno la parte teórica.

                        Tarea 2:

                                   Recolectar la información.
                                  
                        Tarea 3:

                                   Analizar la información recolectada utilizando Excel.

HERRAMIENTAS DE ANDAMIAJE

0 comentarios:

Publicar un comentario