Los datos composicionales se caracterizan por ser vectores aleatorios de componentes positivas y de suma constante (100, 1, un millón, etc.).
En Geología, Petrología, Química, Economía, etc., es habitual trabajar con vectores de datos cuyas componentes representan la contribución relativa de diferentes partes en relación a un total, dando lugar a muestras composicionales. Con frecuencia aparecen medidas de esta índole, por ejemplo:
- Ciencias de la tierra (geoquímica, petrología, etc.): El estudio composicional de un cierto tipo de bencina (compuesto de Etano, Metano, etc.).
- Biología: El estudio composicional en una muestra de sangre (sustancias minerales como la glucosa, el colesterol, la urea, el calcio, el fósforo y el ácido úrico, entre otros).
- Ciencias ambientales: El análisis composicional de contaminación en una cierta ciudad (distintos tipo de variables que influyen en la contaminación).
- Economía: Análisis de Stock Per-Cápita en una muestra de países.
Este tipo de problemas tienen una característica en común, que es poseer variables con una cierta escala (la medida no es necesariamente la misma), donde la suma total de todas las variables de cada observación, no precisamente suman un 100%, debiendo asignar un peso a cada variable para cada una de las observaciones. Esta situación provoca la inadecuación de los métodos estadísticos clásicos, así, el interés por disponer de herramientas adecuadas para éste tipo de análisis se hace fundamental.
El problema del análisis estadístico de datos composicionales ha sido y es una fuente de preocupación para muchos científicos desde que en 1897 Karl Pearson pusiera de manifiesto la inadecuación de los métodos estadísticos clásicos para el estudio de los mismos. [...]
Índice
Introducción a los datos composicionales
CAPITULO I: Definiciones sobre los datos composicionales
1.1 El Simplex
1.1.2 Definición formal de diagrama ternario.
1.1.3 Ejemplo
1.2 Operaciones en el simplex
1.2.1 Operador Clausura
1.2.2 Operador Perturbación
1.2.3 Operador Potenciación
1.2.4 Subcomposición
1.2.5 Ejemplo
1.3 Transformaciones
1.3.1 Transformación Log-Cociente aditiva
1.3.2 Transformación Log-Cociente centrada
1.4 Elementos básicos de estadística en el simplex
1.4.1 Media geométrica composicional (Centro)
1.4.2 Ejemplo
1.4.3 La variabilidad composicional
1.4.4 Matriz de variación
1.4.5 Ejemplo
CAPITULO II: Análisis de datos multidimensionales
2.1 Introducción a componentes principales
2.2 Definiciones para componentes principales
2.2.1 Vector aleatorio
2.2.2 Vector de promedios o medias muestrales
2.2.3 Vector de medias o de esperanzas
2.2.4 Matriz de varianzas-covarianzas
2.2.5 Matriz de correlaciones
2.2.6 Matriz de covarianzas
2.3 Componentes principales: Valores y Vectores propios de una matriz
2.3.1 Propiedades importantes
2.3.2 Cálculo de los valores y vectores propios
2.3.3 Cálculo de las componentes principales
2.3.4 Cálculo de la matriz de correlaciones para componentes principales
2.3.5 Criterio de selección de las componentes principales
2.4 Ejemplo númerico para el cálculo de componentes principales
2.5 Herramientas gráficas para el tratamiento de componentes principales
2.5.1 Biplot
2.5.2 Ejemplo Biplot
2.5.3 Loadings (Cargas)
2.5.4 Ejemplo Loadings
CAPITULO III: R como herramienta en el análisis de datos composicionales
3.1 El paquete "compositions" en R
3.1.1 El comando "acomp"
3.1.2 El comando "clo"
3.1.3 El comando "ellipses"
3.1.4 Ejemplo: ellipses
3.1.5 Ejemplo: vector en el simplex
3.1.1 El comando "clr"
3.1.2 El comando "alr"
3.1.3 El comando "princomp"
3.1.4 Ejemplo componentes principales: "Rocas Hawai"
3.1.5 Análisis de subcomposiciones "Rocas Hawai"
3.2 El paquete "klaR" en R
3.2.1 El comando "quadplot"
3.2.2 Una manera alternativa de graficar en 3 dimensiones
3.2.3 Ejemplo "plot3d" y "triplot"
CAPITULO IV: Aplicación a un problema real: “Análisis estadístico de 2 calderas (Topping), mediante la metodología de datos composicionales, utilizando el software R”
4.1 Objetivo General
4.2 Objetivos específicos
4.3 Instrumento de medida
4.3.1 Cromatografía
4.3.2 Ficha técnica del proceso cromatógrafo
4.3.3 Fase estacionaria
4.4 Población
4.5 Muestra
4.6 Metodología
4.7 Composiciones encontradas en cada Topping
4.8 Proceso de elaboración: gases y bencinas
4.8.1 Cracking catalítico
4.8.2 Hidrocracking
4.8.3 Coquización retardada (Coker)
4.9 Productos obtenidos del Topping
4.10 Análisis de los Topping
4.9.1 Análisis descriptivo de las composiciones para ambos Topping
4.9.2 Análisis de componentes principales para ambos Topping
4.9.3 Análisis de las matrices de variación y correlación para ambos Topping
4.9.4 Análisis de subcomposciones para ambos Topping
Objetivos y temas de la investigación
El objetivo principal de este trabajo es abordar el análisis de datos composicionales utilizando el software estadístico R, adaptando las metodologías tradicionales para superar las restricciones de suma constante propias de este tipo de variables.
- Análisis de la geometría y operaciones fundamentales en el simplex (Aitchison).
- Aplicación de técnicas multivariantes como el análisis de componentes principales (PCA) en datos composicionales.
- Uso del software R y sus paquetes especializados (compositions, klaR) para el modelado y visualización.
- Implementación de herramientas gráficas como diagramas ternarios, cuaternarios y biplots de variación relativa.
- Estudio de caso real aplicado a la composición química de gases en dos calderas industriales (Topping).
Auszug aus dem Buch
1.2 Operaciones en el simplex
En el espacio real sumamos vectores, los multiplicamos por constantes, estudiamos su ortogonalidad, medimos distancias, todo esto es posible porque R^D es espacio vectorial euclideo. Pero, la geometría euclídea de R^D no es una geometría apropiada para fenómenos composicionales porque:
a) Los resultados pueden no estar en el simplex.
Por ejemplo: al sumar vectores composicionales, al multiplicarlos por una constante o calcular regiones de confianza.
b) Las diferencias euclídeas no siempre son medidas razonables^9.
Por ejemplo: entre el 5% y el 10% hay un incremento relativo del 100%, entre el 50% y el 55% hay un incremento relativo del 10%, pero la distancia euclídea es la misma.
Antes de indicar la problemática específica que comporta el análisis estadístico de los datos composicionales introducimos cuatro definiciones de gran importancia.
A partir de un vector con componentes positivas siempre podemos obtener un dato composicional de S^D. Basta con dividir cada una de sus componentes por la suma de todas ellas. Este hecho conduce a dar algunas definiciones, que se presentan en la página siguiente.
Resumen de los capítulos
CAPITULO I: Definiciones sobre los datos composicionales: Introduce la naturaleza de los datos composicionales, las operaciones en el simplex y las transformaciones fundamentales propuestas por Aitchison.
CAPITULO II: Análisis de datos multidimensionales: Presenta los aspectos teóricos del análisis multivariado y el método de componentes principales aplicado a la reducción de variables.
CAPITULO III: R como herramienta en el análisis de datos composicionales: Muestra el funcionamiento del software R y los paquetes específicos necesarios para el tratamiento de datos composicionales y su representación gráfica.
CAPITULO IV: Aplicación a un problema real: “Análisis estadístico de 2 calderas (Topping), mediante la metodología de datos composicionales, utilizando el software R”: Aplica todas las metodologías desarrolladas anteriormente a un caso real de la industria del petróleo en Con-Con.
Palabras clave
Datos composicionales, Simplex, R, Aitchison, Componentes Principales, Diagramas ternarios, Biplot, Transformación CLR, Transformación ALR, Variabilidad, Análisis multivariado, Calderas, Topping, Cromatografía, Estadística.
Preguntas frecuentes
¿Cuál es el enfoque principal de este trabajo?
El trabajo se centra en resolver los problemas estadísticos que surgen al analizar datos cuyas variables suman una constante, utilizando la geometría de Aitchison y herramientas computacionales en R.
¿Qué campos de estudio suelen generar datos composicionales?
Estos datos aparecen comúnmente en disciplinas como la geología, la petrología, la química, la economía y la biología, donde las variables representan proporciones relativas de un total.
¿Por qué los métodos estadísticos clásicos no funcionan para estos datos?
Debido a que las variables tienen una suma constante, los métodos estadísticos tradicionales (como la correlación directa) pierden su interpretabilidad, lo cual es corregido mediante transformaciones log-cociente.
¿Qué metodología científica se emplea para el análisis?
Se utiliza la metodología de Aitchison para transformar los datos del simplex al espacio real, permitiendo aplicar análisis multivariados como los componentes principales y representaciones biplot.
¿Qué se analiza en la parte práctica del estudio?
Se realiza un análisis estadístico de los gases producidos por dos calderas industriales (Topping) de una refinería de petróleo, utilizando el software R para su descripción, reducción de dimensiones y comparación.
¿Qué características definen a estos datos?
Se definen principalmente por ser vectores aleatorios de componentes positivas cuya suma es una constante definida, haciendo irrelevante su magnitud absoluta.
¿Cómo se realiza el cálculo de componentes principales en el contexto de esta obra?
Se parte de la transformación CLR (Log-Cociente centrada) de los datos clausurados, utilizando la matriz de covarianzas para extraer los valores y vectores propios en el espacio transformado.
¿Qué ventaja ofrece el comando "clo" en R?
El comando "clo" (clausura) permite normalizar cualquier conjunto de datos positivos a una suma unitaria (o constante), convirtiéndolos formalmente en datos composicionales listos para el análisis.
- Quote paper
- Estadístico Diego Campos (Author), 2011, Datos composicionales y su análisis mediante R, Munich, GRIN Verlag, https://www.grin.com/document/299337