Me preguntaron esto en Twitter. Como ando dedicado a estudiar probabilidad y estadística entonces aproveché la pregunta para practicar. Repito el problema acá por si acaso:

Sea $\{y_t\}_{t=1}^T$ una sucesión de variables aleatorias independientes e idénticamente distribuidas $N(0, \sigma^2)$ y sea $$S_T = \frac{1}{T}\sum_{t=1}^T y_t^2.$$ Muestre que $$\sqrt{T}(S_T – \sigma^2) \to N(0,2\sigma^4)$$ cuando $T$ tiende a infinito.

Este es el tipo de enunciado que clama al cielo por una aplicación del teorema central del límite. El teorema central del límite es uno de esos resultados cuasi-filosóficos que esencialmente justifica un montón de metodologías y obsesiones que los estadísticos tienen y que giran en torno al uso de la distribución normal. Lo que dice el teorema central del límite, siendo vago, es que si uno tiene unas variables independientes entonces el promedio de estas variables tiende a distribuirse normalmente cuando el número de variables que se consideran tiende a infinito. Filosóficamente lo que implica es que como casi cualquier medida de cualquier cosa es en el fondo un promediado de un montón de otras variables distintas de cosas que no podemos realmente medir, entonces es común que esas medidas finales (las que nosotros hacemos) se comporten normalmente (o sea, que se distribuyan como una curva de Bell.) Por supuesto esta es más una declaración de fe que otra cosa, pero en términos prácticos funciona lo suficiente (en ciertos contextos) como para asumirlo como dogma.

Ahora escribo un enunciado formal del teorema central del límite más básico para que vean lo cerca que está del problema propuesto:

Sean $\{X_i\}_{i<\infty}$ una sucesión de variables aleatorias independientes e idénticamente distribuidas con $E[X_i]=\mu$ y $Var[X_i]=\sigma^2<\infty$. Entonces cuando $n$ tiende a infinito, $$\sqrt{n}\left(\left(\frac{1}{n}\sum_{i=1}^n X_i \right) - \mu\right) \to N(0,\sigma^2).$$ Como aspiramos a usar el teorema central del límite en el problema, entonces el ejercicio se reduce a traducir: en el problema tenemos una sucesión de variables independientes e idénticamente distribuidas pero queremos calcular la distribución del límite de los promedios de sus cuadrados, entonces la media y varianza que necesitamos son las de $y^2$ donde $y$ se distribuye $N(0,\sigma^2)$:

  • Calculemos $E[y^2]$: $$E[y^2] = E\left[\sigma^2 \frac{y^2}{\sigma^2}\right] = \sigma^2 E\left[\frac{y^2}{\sigma^2}\right] = \sigma^2$$ porque $$E[X^{2n}] = \sigma^{2n} (2n – 1)!!$$ si $X$ se tiene distribución normal con varianza $\sigma^2$ y $!!$ es el doble factorial. En este caso $y/\sigma$ se distribuye $N(0,1)$ y $1!! = 1$.
  • Ahora calculemos $Var[y^2]$: $$Var[y^2] = E[y^4] – (E[y^2])^2 = \sigma^4\left(E\left[\frac{y^4}{\sigma^4}\right] – \left(E\left[\frac{y^2}{\sigma^2}\right]\right)^2\right).$$ Pero $$E\left[\frac{y^4}{\sigma^4}\right] = 3!! = 3$$ y $$\left(E\left[\frac{y^2}{\sigma^2}\right]\right)^2 = 1^2 = 1.$$ De donde $Var[y^2] = 2\sigma^4$.

Por tanto tenemos unas variables aleatorias independientes e idénticamente distribuidas (las $y_t^2$) con $E[y_t^2]=\sigma^2$ y $Var[y_t^2]$. El teorema central del límite nos dice que: $$\sqrt{T}\left(\left(\frac{1}{T}\sum_{t=1}^T y_t^2 \right) – \sigma^2\right) \to N(0,2\sigma^4)$$ cuando $T$ tiende a infinito. Esto es precisamente lo que queríamos demostrar.