En otra oportunidad publicaré como quedaría la serie con la corrección por la inhomogeneidad.
Un test de la homogeneización de series temporales de temperaturas o precipitaciones, es aplicado a la serie de temperaturas mínimas medias mensuales de la estación Coronel Suárez Aero. Este test es el standard normal homogeneity test (SNHT) desarrollado por Alexandersson en la década de 1980. Alexandersson, Moberg y Bergström publicaron una trilogía en la década de 1990. En el primer paper, se ofrece una explicación del test. En el segundo, se aplica el test sobre 6 grillas que abarcan el territorio sueco, las cuales forman un subconjunto de un registro global de temperaturas desarrollado por Jones (1986), y luego de la homogeneización se comparan ambos sets (spoiler: los datos de Jones dejan muchísimo que desear). Finalmente, la trilogía cierra con un paper en el que se homogeniza un registro de temperaturas medias de las ciudades de Estocolmo y Uppsala, que parten desde el siglo XVIII. Acá hay una publicación de acceso libre donde se aplica el test en Finlandia.
1.Breve explicación del SNHT para el caso de saltos singulares en series temporales de temperatura.2.Datos.Spoiler
Dada una serie temporal de una estación candidata, en este caso 12 series de mínimas medias mensuales, y dada series temporales de varias estaciones de referencia que abarquen el mismo período, se construye una serie de referencia. Esta serie consiste en valores de referencia para cada año i, los cuales se obtienen haciendo una media ponderada de la temperatura que habría tenido la estación candidata si su anomalía de temperatura hubiese sido la de la estación de referencia. Las ponderaciones se realizan teniendo en cuenta la correlación que existe entre la serie de la estación de referencia y la serie de la estación candidata.
Si a la serie temporal de la estación candidata (los datos crudos) se le resta la serie de referencia, entonces se obtiene la denominada Serie Q. A esta serie se la estandariza usando medias y desvíos estándares ponderados, y se obtiene la Serie Z. Sobre esta Serie Z se realiza el test de hipótesis. La hipótesis nula enuncia que la Serie Z sigue una distribución normal con media 0 y desviación estándar 1. Por su parte, la hipótesis alternativa sostiene que en algún momento de la Serie Z cambia el valor de la media. El estadístico de prueba t para cada año i constituye la Serie T. Si el valor máximo de la Serie T supera un umbral establecido de acuerdo a la cantidad de datos n, entonces se rechaza la hipótesis nula en favor de la alternativa con su correspondiente nivel de confianza.
Algunas cuestiones que deben ser mencionadas:
(a)Es altamente deseable que se cuente con metadata detallada de la estación candidata (relocalizaciones, cambios en el instrumental, en fórmulas o formas de medición, etc).
(b)Los datos de las estaciones de referencia deberían estar bien correlacionados con la estación candidata, estar ubicadas en una misma zona climática y en lo posible no contar con inhomogeneidades. La cantidad de estaciones de referencia no debería ser muy baja (¿por lo menos se debería contar con 4?).
(c)Algunos autores, por ejemplo Peterson y Easterling (1994), aconsejan no usar los datos crudos para el tema de las correlaciones. En su lugar, usan las correlaciones de las diferencias primeras sucesivas, esto es: dada la serie temporal que va desde el año a hasta el año n, construir una serie cuyo primer valor sea la diferencia entre el valor del año a+1 y a, el segundo elemento se obtiene de la diferencia entre el valor del año a+2 y a+1, y así sucesivamente. Estas correlaciones son más altas, y también permiten dismunuir la influencia de las inhomogeneidades que puedan presentarse en las estaciones de referencia. En particular, Peterson y Easterling directamente trabajan con la serie de diferencias sucesivas en lugar de usar los datos crudos, pero Alexandersson en la segunda parte de la trilogía sólo utiliza los coeficientes de correlación.
(d)Así como existe el test para los saltos singulares, también hay una versión del test para tendencias lineales presentes en la Serie Q. Además, el test para saltos singulares puede usarse en series con más de un salto, o se pueden usar ambas versiones del test sobre la misma serie, aunque el proceso es más complicado y pueden plantearse algunas dificultades (el test puede no reconocer algunos saltos si la serie presenta muchos de éstos, si se encuentran muy cerca del inicio o del final, y también hay que sumarle que no es posible distinguir entre una tendencia y saltos sucesivos).
En particular, el test para tendencias lineales es mucho más trabajoso, no solamente porque el estadístico de prueba exige más cálculos, también porque se debe calcular el estadístico para todos los intervalos de tiempo (con una extensión mínima de 5 años) posibles. Con esta versión del test se puede trabajar con series afectadas por la isla de calor urbana.
Con una inspección visual de la serie T (con el test para saltos abruptos), es posible juzgar si hay un salto abrupto o una tendencia. Los primeros suelen presentar un pico pronunciado en el gráfico de la serie T, en tanto que las tendencias suelen presentar formas que se asemejan a un domo. En una serie con un salto y tendencia, por lo general se visualiza un máximo curvado, otro máximo secundario, y un mínimo local entre estos dos puntos (en este mínimo suele localizarse el salto abrupto).
(e)Si se sabe con certeza que la serie tiene un solo salto, se puede obviar la estandarización y directamente trabajar con la prueba t de Student (en el paper aparece como calcular el estadístico de prueba para este caso).
(f)Para el caso de un estudio de precipitaciones (fue como lo usó originalmente Alexandersson), en la determinación de la Serie Q se usan cocientes y no diferencias.
Los niveles críticos para rechazar la hipótesis nula son los mismos tanto para el test de saltos singulares como para el de tendencia, y en el paper se proporciona una tabla con los valores de estos umbrales para distinto valores de n (cantidad de datos de la serie) y para 3 niveles de confianza (90, 95 y 97.5%).
Si se rechaza la hipótesis nula, se determina que la Serie Q presenta dos niveles, uno q1 y otro q2, separados por un salto en el año a (este sería el último año del nivel q1). Análogamente la Serie Z presenta dos niveles z1 y z2. Para corregir la inhomogeneidad, se aplica q2-q1=sigmaQ*(z2-z1) a los datos de la serie de la estación candidata ubicados en el nivel q1. Si sólo se presenta un salto, se obtiene una serie homogénea.
a.General
El análisis comprende el período 1965-2020, y se estudiarán las temperaturas mínimas medias de todos los meses del año. Se usó el período 1971-2020 para la determinación de los valores normales, y por lo tanto de las anomalías.
Las temperaturas medias fueron calculadas realizando la media aritmética de los datos diarios. Se toleraron a lo sumo 5 datos faltantes por mes, excepto febrero, en el cual se exigió no más de 4 datos faltantes.
b.Estación candidata.
La estación candidata es Coronel Suárez Aero, ubicada a 37°27’12’’S y 61°53’26’’O, 233 msnm. Según cuenta un ex encargado de la estación, ésta se encontraba dentro de la ciudad, hasta que fue relocalizada el 8 de diciembre de 1980. Se la trasladó al aeroclub local, ubicado fuera de la ciudad, hacia el este. Hay que mencionar que en las antiguas publicaciones que el SMN elaboraba con estadísticas de la década precedente, la estación Coronel Suárez aparecía con coordenadas 37°30’S 61°57’O, lo que no la ubica en la ciudad sino bastante alejada de ella, unos 5 km al sudoeste. Estas coordenadas son mencionadas en las publicaciones a partir de la década de 1940 (la estación fue inaugurada en 1936) hasta la década de 1970. En las estadísticas de la década de 1980 y 1990, aparecen las coordenadas 37°26’S y 61°53’O, lo que concuerda con la ubicación del aeroclub. La última información oficial disponible sitúa la estación en 37°27’S y 61°53’O, quizás producto de una pequeña relocalización dentro del predio del aeroclub, o la determinación de una coordenada más precisa. En definitiva, en diciembre de 1980 hubo un cambio importante de ubicación, y en este documento se analizará si constituye una inhomogeneidad con repercusiones significativas en el registro de temperaturas.
La serie de Coronel Suárez presenta un bache importante de datos entre noviembre de 1967 y septiembre de 1971, dentro del cual hay 5 meses sin faltante de datos. Entre 2007 y 2011 también se presentan algunos meses con un número alto de datos faltantes.
c.Estaciones de referencia.
Se escogieron 6 estaciones de referencia, cercanas, ubicadas mas o menos en una misma zona climática, y sobre todo que cuentan con una buena correlación: Tres Arroyos, Pigüé Aero, Bolívar Aero, Bahía Blanca Aero, Tandil Aero y Azul Aero (es lo que hay).
Lamentablemente, las series de las estaciones de referencia no son homogéneas. Pigüé Aero cuenta con un cambio de ubicación en 1983, Azul Aero en 1994 (supuso un nuevo número indivativo OMM), Bolívar Aero en 1988, la serie de Tres Arroyos quizás se encuentre afectada por el efecto de isla de calor urbana. Además, las series cuentan con los siguientes baches de datos, los cuales no permitieron calcular medias mensuales:
Bahía Blanca: 2 casos en 1983, y entre diciembre del 2010 y septiembre del 2011.
Bolívar: Casos en los años 1966, 1970, 1971, 1989, 1990, 1991, 2008 y 2009.
Pigüé: Sin datos en abril de 1968 y algunos casos entre la segunda mitad de la década de 1980 y la primera mitad de la década de 1990.
Tandil: Presenta algunos períodos con baches entre 1964 y 1970, y en diciembre de 1985, el resto de la serie prácticamente no cuenta con datos perdidos.
Tres Arroyos: Cuenta con algunos casos en sus primeros años de vida (datos desde 1964), y baches en el verano 1990/1991 y fines del 2012/ comienzos del 2013.
Azul cuenta con una excelente serie completa.
En primera instancia, se decidió usar los datos tal cual se presentan, sin relleno de datos faltantes o correcciones de inhomogeneidades. Por esto, se empleó el método de las primeras diferencias sucesivas para el cálculo de los coeficientes. En términos generales, los coeficientes son más altos en los meses de invierno que en los del verano, y a escala mensual son más elevados que a escala estacional. El valor promedio de los 12 meses del año varía entre 0.81 (Bahía Blanca) y 0.91 (Pigüé). El único valor mensual por debajo de 0.7 es Bolívar en noviembre (0.54).
3.Aplicación del test y resultados.
Se adoptará un nivel de confianza del 95%. Para este nivel, Alexandersson calculó que el valor crítico para rechazar la hipótesis nula es 8.45 para n=50 y 8.65 para n=60. Por otra parte, Khaliq y Ouarda (2007), ofrecen una tabla de valores críticos mucho más amplia, tanto en lo que es el tamaño de la muestra como para distintos niveles de confianza. Se ha decidido usar los datos de este último trabajo y, en nuestro caso, como n=56, basta un estadístico de prueba máximo superior a 8.566 para rechazar la hipótesis nula.
Como ya mencionó más atras, en primer lugar se aplica el test a los datos tal cual se presentan:
Más alla de las particularidades de cada gráfico mensual, en todos los meses el máximo estadístico de prueba es superior a 8.566, y en términos generales se presenta en forma de pico puntiagudo, si uno realiza una inspección visual de las series T. Este pico se observa en torno al año 1980 (sería el último año bajo el nivel q1), lo que se respalda con el metadato de relocalización de la estación Coronel Suárez en diciembre de 1980.
En segundo lugar, se procede a primeramente rellenar los datos faltantes de la estación candidata, y luego aplicar el test. Como se comentó en la sección 2.b, Coronel Suárez cuenta con 2 períodos con faltante de datos: el primero comprendido entre 1967 y 1971, y el segundo entre 2007 y 2011. Pero estos dos períodos exhiben características distintas: mientras que el primero no cuenta con ningún dato de temperatura mínima (salvo 5 meses), en el segundo hay datos pero la cantidad de faltantes es lo suficientemente alta como para no calcular el valor medio, en los términos adoptados en la sección 2.a.
Se utilizaron los datos diarios de temperatura mínima de Pigüé, la estación más cercana, completa y con mayor correlación, y se diseñó una regresión lineal simple. Para el primer período, se usaron los datos del período 1960 a 1979, se calcularon los valores diarios correspondientes a Coronel Suárez, y luego se calcularon las medias mensuales. Los R2 de la regresión lineal oscilan entre 0.77 y 0.88. Por otra parte, para el segundo período, se usaron datos de los años 2001 a 2020, pero solo se calcularon los valores diarios para Coronel Suárez en aquellos días específicos en los que no cuenta con datos, el resto de los registros diarios permanecieron inalterados. Los R2 de la regresión lineal, para este caso, oscilan entre 0.78 y 0.84.
Luego de aplicar el test, se observan los mismos picos en torno al año 1980, y nuevamente todos los estadísticos de prueba máximos superan el umbral crítico.
Un test para la detección y corrección de inhomogeneidades aplicado a Coronel Suárez.
-
- Mensajes: 15031
- Registrado: Lun Ene 23, 2012 4:18 pm
- Ubicación: Ramos Mejia
Un test para la detección y corrección de inhomogeneidades aplicado a Coronel Suárez.
Hola, quería compartir un trabajito que hice en el último tiempo.