Datos composicionales y su análisis mediante R

Análisis con el software R para estadística


Tesis, 2011
98 Páginas, Calificación: 7

Extracto

ÍNDICE

Introducción a los datos composicionales

CAPITULO I: Definiciones sobre los datos composicionales
1.1 El Simplex
1.1.2 Definición formal de diagrama ternario
1.1.3 Ejemplo
1.2 Operaciones en el simplex
1.2.1 Operador Clausura
1.2.2 Operador Perturbación
1.2.3 Operador Potenciación
1.2.4 Subcomposición
1.2.5 Ejemplo
1.3 Transformaciones
1.3.1 Transformación Log-Cociente aditiva
1.3.2 Transformación Log-Cociente centrada
1.4 Elementos básicos de estadística en el simplex
1.4.1 Media geométrica composicional (Centro)
1.4.2 Ejemplo
1.4.3 La variabilidad composicional
1.4.4 Matriz de variación
1.4.5 Ejemplo

CAPITULO II: Análisis de datos multidimensionales
2.1 Introducción a componentes principales
2.2 Definiciones para componentes principales
2.2.1 Vector aleatorio
2.2.2 Vector de promedios o medias muestrales
2.2.3 Vector de medias o de esperanzas
2.2.4 Matriz de varianzas-covarianzas
2.2.5 Matriz de correlaciones
2.2.6 Matriz de covarianzas
2.3 Componentes principales: Valores y Vectores propios de una matriz
2.3.1 Propiedades importantes
2.3.2 Cálculo de los valores y vectores propios
2.3.3 Cálculo de las componentes principales
2.3.4 Cálculo de la matriz de correlaciones para componentes principales
2.3.5 Criterio de selección de las componentes principales
2.4 Ejemplo númerico para el cálculo de componentes principales
2.5 Herramientas gráficas para el tratamiento de componentes principales
2.5.1 Biplot
2.5.2 Ejemplo Biplot
2.5.3 Loadings (Cargas)
2.5.4 Ejemplo Loadings

CAPITULO III: R como herramienta en el análisis de datos composicionales
3.1 El paquete "compositions" en R
3.1.1 El comando "acomp"
3.1.2 El comando "clo"
3.1.3 El comando "ellipses"
3.1.4 Ejemplo: ellipses
3.1.5 Ejemplo: vector en el simplex
3.1.1 El comando "clr"
3.1.2 El comando "alr"
3.1.3 El comando "princomp"
3.1.4 Ejemplo componentes principales: "Rocas Hawai"
3.1.5 Análisis de subcomposiciones "Rocas Hawai"
3.2 El paquete "klaR" en R
3.2.1 El comando "quadplot"
3.2.2 Una manera alternativa de graficar en 3 dimensiones
3.2.3 Ejemplo "plot3d" y "triplot"

CAPITULO IV: Aplicación a un problema real: “Análisis estadístico de 2 calderas (Topping), mediante la metodología de datos composicionales, utilizando el software R”
4.1 Objetivo General
4.2 Objetivos específicos
4.3 Instrumento de medida
4.3.1 Cromatografía
4.3.2 Ficha técnica del proceso cromatógrafo
4.3.3 Fase estacionaria
4.4 Población
4.5 Muestra
4.6 Metodología
4.7 Composiciones encontradas en cada Topping
4.8 Proceso de elaboración: gases y bencinas
4.8.1 Cracking catalítico
4.8.2 Hidrocracking
4.8.3 Coquización retardada (Coker)
4.9 Productos obtenidos del Topping
4.10 Análisis de los Topping
4.9.1 Análisis descriptivo de las composiciones para ambos Topping
4.9.2 Análisis de componentes principales para ambos Topping
4.9.3 Análisis de las matrices de variación y correlación para ambos Topping
4.9.4 Análisis de subcomposciones para ambos Topping

Conclusiones

Bibliografía

Apéndice A: Relacionado con Capítulo I 77

Apéndice B: Relacionado con Capítulo II 81

Apéndice C: Relacionado con Capítulo III 82

Apéndice D: Relacionado con Capítulo IV 87

INTRODUCCIÓN A LOS DATOS COMPOSICIONALES

Los datos composicionales se caracterizan por ser vectores aleatorios de componentes positivas y de suma constante (100, 1, un millón, etc.).

En Geología, Petrología, Química, Economía, etc., es habitual trabajar con vectores de datos cuyas componentes representan la contribución relativa de diferentes partes en relación a un total, dando lugar a muestras composicionales. Con frecuencia aparecen medidas de esta índole, por ejemplo1:

- Ciencias de la tierra (geoquímica, petrología, etc.): El estudio composicional de un cierto tipo de bencina (compuesto de Etano, Metano, etc.).
- Biología: El estudio composicional en una muestra de sangre (sustancias minerales como la glucosa, el colesterol, la urea, el calcio, el fósforo y el ácido úrico, entre otros).
- Ciencias ambientales: El análisis composicional de contaminación en una cierta ciudad (distintos tipo de variables que influyen en la contaminación).
- Economía: Análisis de Stock Per-Cápita en una muestra de países2.

Este tipo de problemas tienen una característica en común, que es poseer variables con una cierta escala (la medida no es necesariamente la misma), donde la suma total de todas las variables de cada observación, no precisamente suman un 100%, debiendo asignar un peso a cada variable para cada una de las observaciones. Esta situación provoca la inadecuación de los métodos estadísticos clásicos, así, el interés por disponer de herramientas adecuadas para éste tipo de análisis se hace fundamental.

El problema del análisis estadístico de datos composicionales ha sido y es una fuente de preocupación para muchos científicos desde que en 1897 Karl Pearson pusiera de manifiesto la inadecuación de los métodos estadísticos clásicos para el estudio de los mismos3.

1: Para una mayor variedad de problemas del tipo composicional, véase: “A concise guide to compositional data analysis", (J. Aitchison), páginas: 7-13.
2: Véase: Referencia Bibliográfica [17].
3: Véase: “Elproblema del análisis estadístico de datos composicionales", (G. Mateu-Figueras, J.A.Martín-Fernández,

V. Pawlowsky-Glahny C. Barceló-Vidal).

Muchos han sido los autores que han intentado afrontar los problemas del análisis estadístico de los datos composicionales. La solución no aparece hasta 1982 cuando Aitchison presenta, por primera vez, una forma de evitar la restricción de la suma constante. Aitchison argumenta que todas las dificultades de interpretación vienen motivadas por centrar nuestra atención en las magnitudes absolutas de las partes x1, x2, ,xD de una composición.

Por lo tanto diremos que un problema es composicional cuando reconozcamos que el valor en términos absolutos de las partes es irrelevante4.

La metodología de Aitchison se basa en la transformación de los datos composicionales al espacio real multivariante. El espacio muestral es IRD l.

Si tomamos los logaritmos de las partes relativas, el espacio final es todo IRD l y por lo tanto podemos aplicar cualquier técnica estadística clásica.

Tenemos diversas posibilidades de transformación de los datos, todas ellas basadas en los logaritmos entre las partes de un dato composicional.

En general se pretende mostrar por medio del análisis de datos composicionales, herramientas que logren satisfacer el estudio de datos en el espacio multivariado.

Hasta ahora, los más importantes grupos de investigación (V.Pawlowsky-Glahn, R.Tolosana-Delgado, J.A.Martin-Fernández, Juan José Egozcue, entre otros), han ido creando sus propias subrutinas y programas con softwares especializados para el tratamiento estadístico de los datos composicionales, como es el caso del software Coda, el cual presenta soluciones potentes para este tipo de problemas.

La poca variedad de herramientas computacionales para estos tipos de análisis y la importancia mundial del software R en Estadística, hacen que esta memoria de pre-grado sea de utilidad para introducir al lector en el tratamiento de éste tipo de datos.

Algunos resultados de este estudio ya han sido publicados, por ende se hará mención de la referencia cuando corresponda. Cabe destacar que esos resultados, tienen la finalidad de guiar al lector a modo de introducirse en el análisis real.

4: “Clasificación paramétrica de datos composicionales", (J.A Martín Fernández-J.Daunis-i-Estadella y G.Mateu Figueras), pagina 11, punto 3.2.

Debido a lo anteriormente expuesto, esta memoria tiene como objetivo general ABORDAR EL TEMA DE DATOS COMPOSICIONALES MEDIANTE EL SOFTWARE R, considerando los siguientes objetivos específicos:

- Lograr identificar qué tipo de datos son composicionales.
- Aplicar las herramientas encontradas de datos composicionales en forma correcta a un problema real.
- Analizar el problema real en el software R, obteniendo soluciones gráficas y estadísticas.
- Interpretar las salidas del software en el contexto de datos composicionales.

Se realizará una introducción a la teoría de los datos composicionales, presentando los conceptos básicos y los principales aspectos teóricos, así como la aplicación.

Se da importancia a lo práctico y analítico para utilizar la metodología bajo estudio, dando preferencia a la interpretación de los conceptos y desarrollo de la metodología aplicada.

La primera parte de la memoria se dedica a presentar los conceptos y definiciones básicas, además de la teoría necesaria para el análisis de datos composicionales.

La segunda parte presenta conceptos de análisis mutivariante, como definiciones de componentes principales, biplots y loadings entre otros, los cuales serán útiles para la mayor comprensión de ésta memoria.

La tercera parte, muestra el software R como una herramienta de trabajo en el análisis de datos composicionales, presentando ejemplos didácticos extraídos de artículos, los cuales se reprodujeron por medio de R, además de los comandos más importantes.

En la cuarta parte, se presenta un problema real de datos composicionales y su respectivo análisis.

EÌ capitulo I, presenta las definiciones de los datos composicionales, enfocándose principalmente en las operaciones y transformaciones más usuales y la metodología para trabajar este tipo de datos.

EÌ capitulo II, reúne aspectos teóricos de análisis multivariado, introduciendo al lector en componentes principales, método que se ocupará para analizar los datos de tipo composicional, en el contexto de reducción de variables.

EÌ capituÌo III, muestra el software R como herramienta en el análisis de datos composicionales, mostrando algunos comandos de importancia y algunos ejemplos.

EÌ capitulo IV, muestra la aplicación de las herramientas anteriormente mencionadas a un problema real, en este caso, el análisis de los gases de dos Topping utilizados en la Refinería de petróleo Con-Con, para la elaboración de bencinas, kerosenes y petróleo diesel.

Se intenta resaltar en ésta memoria los siguientes aspectos de los datos:

- Reducir la dimensión de las variables por medio de componentes principales.
- Introducir alguna transformación en los datos para su posterior análisis.
- Formas diagramas en 4 dimensiones.
- Formar diagramas ternarios en base a las nuevas variables escogidas.
- Interpretar los diagramas ternarios y los diagramas en 4 dimensiones
- Formar regiones de confianza en los diagramas ternarios.
- Obtener medidas representativas de los datos.
- Comparar los resultados de ambos Topping, en el contexto estadístico.

Se incorporarán apéndices con más detalles de algunos temas, destacando los que hacen referencia al paquete estadístico R y el de datos composicionales en R, ya que muestran los procedimientos y contrastes que se exponen en la memoria5.

Además se incorporaran las bases de datos de los ejemplos expuestos en esta memoria.

Por último, se presentan las referencias bibliográficas utilizadas a lo largo del estudio que permiten al lector profundizar más sobre el tema.

5: Véase: Capitulo III de ésta memoria.

CAPITULO I

DEFINICIONES SOBRE LOS DATOS COMPOSICIONALES

1.1 El Simplex

Suele definirse el simplex de n partes como el conjunto de vectores reales positivos cuya suma es constante. Aparece en contextos muy diversos, desde teoría de la probabilidad hasta problemas de optimización o ecuaciones diferenciales y sistemas dinámicos. El desarrollo y notación que se emplea aquí proviene del análisis estadístico de datos composicionales. Formalmente, el simplex de n partes se define como6:

Abbildung in dieser Leseprobe nicht enthalten

La condición x¡ > 0, se sustituyen a veces por x¡ > 0. En el presente desarrollo, los

elementos en que alguna componente es nula corresponden a los puntos del infinito, por lo que excluirlos de la definición facilita el desarrollo7.

Para el caso D = 3, el simplex S3 suele representarse mediante el diagrama ternario*-1·1·2, triangulo equilátero de altura k (véase Figura 1-a). Existe una correspondencia biunivoca entre los datos composiciones con 3 partes y los puntos del diagrama ternario. Un dato composicional x = (x1; x2; x3) se corresponde con el punto que dista x1; x2 y x3, respectivamente, de los lados opuestos a los vértices 1, 2 y 3.

En el caso que D = 4, el simplex se representa por el interior de un tetraedro de altura unidad, en este caso a la representación la denominamos diagrama cuaternario (véase Figura 1-b).

Abbildung in dieser Leseprobe nicht enthalten

6: Véase: “Espacios Euclídeos", Juan José Egozcue, Vera Pawlowsky-Glahny José Luis Díaz-Barrero 7: Véase: “Modelización y análisis de datos sobre proporciones ", Javier Palarea Albaladejo, Joseph Martin Fernández y Juan Gómez García, página 11.

1.1.2 Definición formal de diagrama ternario.

Los diagramas ternarios o triangulares son la representación gráfica de las posibles relaciones o combinaciones entre tres elementos. Indican la distribución de tres variables o componentes diferentes y consisten en la unión de tres diagramas binarios en los que las variables se repiten dos a dos. Permiten trabajar con dos tipos de condiciones entre las variables: condiciones de proporción y condiciones de relación. Esto repercute en el tipo de líneas que configuran el gráfico.

La Figura 2 muestra un diagrama ternario en el que cada vértice representa el 100% de la variable indicada y las bases opuestas el 0% de la misma. Cada uno de los lados, considerados individualmente, constituye un diagrama binario. Los puntos situados en las líneas que configuran los lados del triángulo indican que en la composición total sólo hay dos de los tres componentes; aquéllos que son los vértices del diagrama binario al que pertenezca el punto8.

Figura 2

Abbildung in dieser Leseprobe nicht enthalten

Los puntos interiores del triángulo indican la mezcla de los tres componentes: A, B, y C. Los puntos de la línea x indican un 0% de A, el 100% lo componen B+C.

Los puntos de la línea y indican un 0% de C, el 100% lo forman A+B.

Los puntos de la línea z indican un 0% de B. El 100% está compuesto por A+C.

8: Véase: “Mecánica de los diagramas ternarios: Aplicación en el diagrama de clasificación de las rocas ígneas de streckeisen ", Castaño S.

Para la reproducción de la Figura 2 en R, véase Apéndice A-1 de ésta memoria.

1.1.3 Ejemplo

Para ilustrar de mejor manera lo expuesto en la ecuación 1, se presenta un sencillo ejemplo hipotético.

Consideremos un científico A que analiza muestras de tierra divididas en partes iguales. Para cada una de las partes de la muestra (en este caso sólo 3 muestras), el científico A calcula un dato composicional de 4 partes (animal, vegetal, mineral, agua); x1, x2, x3 y x4 respectivamente.

Supongamos que se han obtenido los siguientes datos:

Científico A

Abbildung in dieser Leseprobe nicht enthalten

De aquí la definición de datos composicionales, donde la suma de las componentes resulta una constante (1, 100, etc.).

Sin embargo, también puede darse la siguiente situación:

Científico A

Abbildung in dieser Leseprobe nicht enthalten

( X1 , X2 , x3 , X4 )

1.2 Operaciones en el simplex

En el espacio real sumamos vectores, los multiplicamos por constantes, estudiamos su ortogonalidad, medimos distancias, todo esto es posible porque RD es espacio vectorial euclideo. Pero, la geometría euclidea de RD no es una geometría apropiada para fenómenos composicionales porque:

a) Los resultados pueden no estar en el simplex.
Por ejemplo: al sumar vectores composicionales, al multiplicarlos por una constante o calcular regiones de confianza.
b) Las diferencias euclídeas no siempre son medidas razonables9.

Por ejemplo: entre el 5% y el 10% hay un incremento relativo del 100%, entre el 50% y el 55% hay un incremento relativo del 10%, pero la distancia euclídea es la misma.

Antes de indicar la problemática específica que comporta el análisis estadístico de los datos composicionales introducimos cuatro definiciones de gran importancia.

A partir de un vector con componentes positivas siempre podemos obtener un dat sD

composicional de S . Basta con dividir cada una de sus componentes por la suma de todas ellas. Este hecho conduce a dar algunas definiciones, que se presentan en la página siguiente.

1.2.1 Operador clausura

Consiste en dividir las componentes de un vector positivo por la suma de todas ellas, para reducirlas a suma unitaria:

1.2.2 Operador perturbación

Abbildung in dieser Leseprobe nicht enthalten

La perturbación es una operación fundamental encargada de describir el cambio composicional en el simplex, es decir, el equivalente a la traslación o suma en espacios reales.

1.2.3 Operador potenciación

Abbildung in dieser Leseprobe nicht enthalten

Es la operación externa equivalente al producto por escalar y se define como:

10: La noción de espacio vectorial se obtiene al comparar una variedad de ejemplos (matrices, polinomios, funciones, etc.), en los cuales están definidas dos operaciones (suma y multiplicación) las que nos permiten operar en distintos ambientes de manera análoga, es decir, podemos agrupar estos conjuntos con una estructura muy similar. Para una mayor referencia, véase: “Algebra Lineal", Luisa Aburto y otros, página 61.

1.2.4 Subcomposición

Si S es un subconjunto cualquiera de las partes 1,2,3,...,D de un dato composicional xeSD y xS simboliza el subvector formado por las correspondientes partes de x,

entonces 5 - C(xS ) recibe el nombre de subcomposición de las S partes de x.

Si bien la formación de una subcomposición es en esencia una transformación de S a un simplex de dimensión inferior, obsérvese que tiene la propiedad de conservar la magnitud relativa entre las partes1,2,5

1.2.5 Ejemplo

Compositions of 25 specimens of hongite (Apéndice D, Página 354, “The Statistical Analysis of Compositional Data”, J.Aitchison, 1986; Subcomposición: Página 9 del mismo libro).

Abbildung in dieser Leseprobe nicht enthalten

Para generar una Subcomposición ABC para el espécimen H1, la forma de cálculo es:

Abbildung in dieser Leseprobe nicht enthalten

1.3 Transformaciones

Una vez que se ha puesto de relieve la necesidad de centrar la atención en las magnitudes relativas entre las partes, surge la pregunta sobre qué tipo de transformación utilizar. La piedra angular de la metodología propuesta por Aitchison (1986) es la transformación de una composición definida sobre S D en un vector que involucre las magnitudes relativas entre las partes y que esté definido sobre el espacio real. Si esa transformación es biyectiva se establece una correspondencia uno a uno entre las composiciones en el simplex y los correspondientes vectores transformados reales. De esta manera, cualquier problema que afecte a composiciones queda expresado en términos de tales vectores transformados, con lo que se tiene la posibilidad de resolverlo utilizando las técnicas multivariantes habituales en espacios reales. Aitchison (1986) propone fundamentalmente dos tipos de transformaciones:

Transformación Log-Cociente Aditiva. Transformación Log-Cociente Centrada.

1.3.1 Transformación Log-Cociente aditiva

La transformación logcociente aditiva (alr) de x e SD ey e IRD 1 se define como: y =

Abbildung in dieser Leseprobe nicht enthalten

Esta transformación es biyectiva pero no es simétrica en las partes de X ya que la parte del denominador adquiere un protagonismo especial respecto al resto. Este hecho condujo a Aitchison (1986) a introducir la transformación logcociente centrada.

1.3.2 Transformación Log-Cociente centrada

La transformación logcociente centrada (clr) de X e SD a z e IRD se define como:

Donde g(X) es la media geométrica de las D partes de x.

El hecho de tomar logaritmos de las partes relativas sólo responde a una conveniencia matemática. Los log-cocientes son más manejables y además permiten que se cumplan algunas propiedades sencillas.

Por esta razón Aitchison aplica una estrategia doble en sus trabajos11.

En las aplicaciones que exigen simetría en el tratamiento de sus componentes utiliza la trasformación clr.

Para la modelización de conjuntos de datos composicionales con distribuciones multivariantes, utiliza la transformación alr.

La geometría de Aitchison en el simplex y las coordenadas clr e alr permiten aplicar técnicas de análisis de datos e inferencia estadística a conjuntos de datos composicionales sin problemas12.

Por motivos de brevedad solo nos enfocaremos en éstas 2 transformaciones y ocuparemos la transformación clr para posteriores aplicaciones.

11: Véase: “Lectura Notes on Compositional Data Análisis", R.Tolosana, Pawlowsky-Glahn, J.J.Egozcue (2007) 12: Para una mejor comprensión de estas definiciones véase: Tesis Doctoral, J.A Martín Fernández, páginas 67-72.

I. 4 Elementos básicos de estadística en el simplex

El hecho de trabajar con la geometría de Aitchison obliga a redefinir una serie de conceptos estadísticos.

Es bien sabido que una medida típica de cualquier conjunto de datos es la media aritmética, sin embargo, J.A Martín-Fernández hace mención en su tesis doctoral, el aporte hecho por

J. Aitchison, el cual demuestra que ésta medida tan usualmente ocupada, no es compatible con el carácter composicional de los datos, definiendo como una medida representativa a la media geométrica, demostrando a su vez, que es compatible con el grupo de transformaciones definido en simplex.

A continuación se define lo anteriormente expuesto.

1.4.1 Media geométrica composicional (Centro)

Sea X = {x1,x2,x3, ,xn} un conjunto de datos composicionales de SD . Se define la

media geométrica composicional g(X) del conjunto X como13:

representa la media geométrica de la k-ésima componente de los

datos.

Una forma sencilla y alternativa de calcular ésta medida es la siguiente:

Si definimos como μ =[log(g1 / gD ) log(gD_1 / gD )] y luego aplicamos la inversa de la

Λ Λ

transformación alr a μ ^ alr _1(μ) = g(X) = Centro.

El ejemplo 1.4.2 de la página siguiente, muestra la idoneidad de g(X) respecto a E( X ) como medida de tendencia central para vectores definidos en el simplex, al mismo tiempo se mostrarán los resultados de éstas medidas.

13: Para mayor información véase: “A concise guide to compositional data analysis", (J. Aitchison), página 41; “Tesis Doctoral", J.A Martín Fernández, páginas: 100-101 y “Modelización y análisis de datos sobre proporciones", Javier Palarea Albaladejo, Joseph Martin Fernández y Juan Gómez García, página 9.

1.4.2 Ejemplo

Dado el conjunto de datos extraídos del libro "The Statistical Analysis of Compositional Data”, de J.Aitchison (1986), página 354, se realizó un diagrama ternario con 3 subcomposiciones: Albita, Blandita y Cornita. Éste diagrama ternario fue realizado por el mismo autor en su artículo "A Concise Guide to Compositional Data Analysis”, página 50, el cual calculó la media aritmética y su centro geométrico en el simplex.

La Figura 3 es la representación idéntica, al del artículo mencionado.

Abbildung in dieser Leseprobe nicht enthalten

La media aritmética E(X) de los datos (en verde), es claramente no representativa del centro de la muestra (en rojo). El estimador de máxima verosimilitud del centro muestral g(X) es la media geométrica del conjunto de datos composicionales.

Abbildung in dieser Leseprobe nicht enthalten

1.4.3 La variabilidad composicional

Una de las medidas de dispersión mas utilizada para conjuntos de datos en IRD es la traza de la matriz de covarianzas asociada al conjunto de datos.

Aitchison (1986), J.A Martín-Fernández (2000), Pawlowsky-Glahn y Egozcue (2002), entre otros, mencionan la falta de interpretabilidad de la matriz de covarianzas directas de un conjunto de datos composicionales, puesto que ésta medida no es compatible con la naturaleza composicional de los datos.

Aitchison define una medida de variabilidad tot var( X ) igual a la traza (traza(T)) ,de la matriz de de covarianzas del conjunto de datos clr-transformados, es decir15:

Abbildung in dieser Leseprobe nicht enthalten

Ésta es una medida de variabilidad adecuada y coherente con la métrica del simplex16.

1.4.4 Matriz de variación

El patrón de variabilidad de una composición x en SD queda completamente determinada por la matriz de variación formada por las varianzas de los logcocientes entre partes xi yXj, donde el elemento ij-ésimo de la matriz, viene dado por:

Abbildung in dieser Leseprobe nicht enthalten

Esta matriz es simétrica y tiene ceros en la diagonal principal. Aunque no puede expresarse como la matriz de covarianzas estándar de un vector, está relacionada con las matrices de covarianzas de los vectores alr y clr, mediante simples operaciones matriciales17. Además, tiene la ventaja de que la matriz de variación de cualquier subcomposición se obtiene simplemente extrayendo las varianzas log-cociente asociadas a las partes que forma la subcomposición.

Además, mide la variabilidad relativa de una componente xi respecto a otra Xj.

15: Véase: “The Statistical Analysis of Compositional Data", J.Aitchison (1986), Capitulo 4, Página 79.

16: Véase: “Medidas de diferencia y clasificación automática no paramétrica de datos composicionales", tesis doctoral, J.A Martín-Fernández (2000), páginas 105-107

17: En R + Sea a: datos previamente clausurados, entonces se define la siguiente igualdad. x < -alr(a) ^ y < -alr.inv(x) ^ z < - var iation(y) — var iation(clr(a)), véase ejemplo 1.4.5

Por otro lado, Aitchison afirma en su artículo “Guide to compositional Data Analysis”, página 55, que la matriz de correlación habitual se sustituye por la correlación de las variables transformadas por clr, donde los valores se encuentran entre [-1,1].

Así, la matriz de variación con la recién mencionada matriz de correlación, nos permite obtener conclusiones respecto a análisis posteriores, como por ejemplo, cuando se trabaje con subcomposiciones, utilizando herramientas de análisis multivariado19.

1.4.5 Ejemplo

Siguiendo con el conjunto de datos del ejemplo 1.4.2, se calculará la matriz de variación тт y cor (clr (x)). Los cálculos fueron hechos en el software R. (Véase Apéndice A-4).

Abbildung in dieser Leseprobe nicht enthalten

Se aprecia en la matriz de variación, que existe una relación proporcional entre daubite y albite (0.082), por otro lado, la relación entre cornite y albite (1.5328), nos indica una gran variabilidad, lo que concuerda con la correlación entre éstos de -0.9711.

Blandite y albite, muestran una correlación del mismo orden y al mismo tiempo una variación de 0.25 « 1, lo que nos indicaría que estas 2 composiciones siguen un comportamiento similar en su estructura y en su proporción.

18: Véase Página 52, “Guide to compositional Data Analysis”, J.Aitchison 19: Véase Capitulo IIde ésta memoria.

CAPITULO II

ANALISIS DE DATOS MULTIDIMENSIONALES

2.1 Introducción a componentes principales

Cuando se recoge la información de una muestra de datos, lo más frecuente es tomar el mayor número posible de variables. Sin embargo, si tomamos demasiadas variables sobre un conjunto de objetos, por ejemplo 20 variables, tendremos que considerar 180 posibles coeficientes de correlación. Evidentemente, en este caso es difícil visualizar relaciones entre las variables. Otro problema que se presenta, es la fuerte correlación que muchas veces se presenta entre las variables, es decir, si tomamos demasiadas variables (cosa que en general sucede cuando no se sabe demasiado sobre los datos o sólo se tiene ánimo exploratorio), lo normal es que estén relacionadas o que midan lo mismo bajo distintos puntos de vista. Se hace necesario, pues, reducir el número de variables, es importante resaltar el hecho de que el concepto de mayor información se relaciona con el de mayor variabilidad o varianza. Cuanto mayor sea la variabilidad de los datos se considera que existe mayor información. Así, el método de componentes principales tiene por objeto reducir la dimensionalidad de un problema de múltiples variables, aplicando una sucesión de transformaciones lineales a las variables, de modo que un subconjunto de ellas concentre la mayor parte de la variabilidad contenida en las variables originales20.

La técnica mas reciente de componentes principales es debida a Hotelling (1933), aunque sus orígenes se encuentran en los ajustes ortogonales por mínimos cuadrados introducidos por K. Pearson (1901). Su utilidad es doble:

- Permite representar óptimamente en un espacio de dimensión pequeña observaciones de un espacio general p-dimensional. En este sentido, componentes principales es el primer paso para identificar las posibles variables importantes, o no observadas que generan los datos.
- Permite transformar las variables originales, en general correladas, en nuevas variables incorreladas, facilitando la interpretación de los datos.

En este capítulo presentamos únicamente esta técnica como una herramienta exploratoria, para el análisis de datos composicionales.

20: Apuntes del profesor Dr. Jorge Galbiati, proporcionados en el ramo de Análisis Mutivariado dictado en el año 2008, para la carrera de Estadística de la P.U.C.V

2.2 Definiciones para componentes principales

2.2.1 Vector aleatorio

Un vector aleatorio es un vector cuyas coordenadas son variables aleatorias.

Supóngase que se toma una muestra de tamaño n de una población definida por el vector aleatorio p-dimensional (*).

Esta muestra consiste en n observaciones p-dimensionales, que se organizan en forma de una matriz denomina “Matriz de Datos”.

Ésta, es una matriz cuyas filas son observaciones de una población definida por un vector aleatorio, por lo tanto, cada columna de la matriz de datos corresponde a observaciones de una variable o característica y cada fila corresponde a observaciones o casos multivariante o multidimensionales.

Una matriz de datos es una muestra de una población multivariante.

Variables o características

Abbildung in dieser Leseprobe nicht enthalten

2.2.2 Vector de promedios o medias muestrales

Está formado por los promedios de los valores de las columnas, es decir, los promedios muestrales de cada variable de una matriz de datos.

Abbildung in dieser Leseprobe nicht enthalten

2.2.3 Vector de medias o de esperanzas

Sea X un vector aleatorio. Se define el vector esperado o vector de medias como el vector de los valores esperados de las coordenadas de X.

E( Xj) E( X 2)

μ =E ( X )

E( Xp )

Tiene la propiedad de lineali dad E(a + bX)=a + bE( X), en que a y b son escalares constantes.

2.2.4 Matriz de varianzas-covarianzas

Se define la matriz de varianzas-covarianzas Σ = Var(X)del vector aleatorio X como la matriz pxp simétrica que tiene en su i-ésimo elemento de la diagonal a la varianza de la coordenada xi y en la posición (i, j) a la covarianza entre las coordenadas x¡ yXj.

Abbildung in dieser Leseprobe nicht enthalten

2.2.5 Matriz de correlaciones

La matriz de correlaciones está formada por una diagonal de unos y por las correlaciones respectivas, fuera de la diagonal.

corr ( Xp , Xj)

2.2.6 Matriz de covarianzas

Sean XpXj eYqXj dos vectores aleatorios21.

Se define la matriz de covarianzas de X e Y como la matriz pXq que contiene todas las covarianzas entre pares de elementos de X y de Y.

Abbildung in dieser Leseprobe nicht enthalten

21: Para una mayor referencia de éstas definiciones, véase: “Algebra Lineal ", Luisa Aburto y otros, Capitulo 1.

2.3 Componentes principales: valores y vectores propios de una matriz

Sea Muna matriz cuadrada pxp. Un vector propio v de M, asociado al valor propio λ son tales que:

Abbildung in dieser Leseprobe nicht enthalten

Los valores propios pueden ser números complejos.

El número de valores propios es igual a la dimensión de la matriz, aunque pueden haber valores propios iguales. En tales casos se dice que el valor propio tiene multiplicidad 2,3, etc. Según el numero de veces que se repite el mismo valor. Hay un vector propio distinto asociado a cada valor propio. Si un valor propio tiene multiplicidad r mayor que uno, entonces hay r vectores propios distintos asociados a ese valor propio.

2.3.1 Propiedades importantes

- Sea M una matriz simétrica, entonces sus valores propios son reales y sus vectores propios son ortogonales.
- Descomposición Espectral: Sea M una matriz simétrica. Sea Г una matriz cuyas columnas son los vectores propios normalizados, y sea Λ= diag(λχ,λ2,,λρ ), los

Abbildung in dieser Leseprobe nicht enthalten

- El determinante de una matriz se puede expresar en términos de sus valores propios como:

Abbildung in dieser Leseprobe nicht enthalten

[...]

Final del extracto de 98 páginas

Detalles

Título
Datos composicionales y su análisis mediante R
Subtítulo
Análisis con el software R para estadística
Calificación
7
Autor
Año
2011
Páginas
98
No. de catálogo
V299337
ISBN (Ebook)
9783656960843
ISBN (Libro)
9783656960850
Tamaño de fichero
2229 KB
Idioma
Español
Etiqueta
estadística, datos composicionales, biplot composicional, varianza, diagrama ternario, boxplot, diego campos patiño
Citar trabajo
Estadístico Diego Campos (Autor), 2011, Datos composicionales y su análisis mediante R, Múnich, GRIN Verlag, https://www.grin.com/document/299337

Comentarios

  • No hay comentarios todavía.
Leer eBook
Título: Datos composicionales y su análisis mediante R


Cargar textos

Sus trabajos académicos / tesis:

- Publicación como eBook y libro impreso
- Honorarios altos para las ventas
- Totalmente gratuito y con ISBN
- Le llevará solo 5 minutos
- Cada trabajo encuentra lectores

Así es como funciona