martes, 3 de mayo de 2022

(761) - Mínimos cuadrados en machine learning. Least trimmed squares (LTS)

En el día de hoy veamos cómo se utiliza la regresión lineal en machine learning. Recapitulemos un poco cómo funcionan los mínimos cuadrados ordinarios, ordinary least squares u OLS por sus siglas en inglés, el caso más simple: Dadas dos sucesiones de valores, una predictora $\{x_i\}_{i=1}^n$ (abscisas), y otra respuesta $\{y_i\}_{i=1}^n$ (ordenadas), se buscan los argumentos (parámetros) que minimicen la siguiente restricción $Z_{OLS}$ (del alemán Zwang - obligación): $$ Z_{OLS} = \sum_{i=1}^n \big(y_i-(\beta_0+\beta_1x_i)\big)^2 \qquad \hat{\beta}_0,\hat{\beta}_1 = \operatorname{arg\,min} Z_{OLS}$$ Nótese que esta restricción siempre es no-negativa, $Z_{OLS}\geqslant 0$ , y la igualdad (que sería lo deseable) solo se da si el ajuste es perfecto y no hay ninguna desviación.

Dado que queremos hallar la recta que mejor se ajuste a $\{y_i\}_{i=1}^n$ en la expresión aparece $\beta_0+\beta_1x_i$ , sino, si supiésemos o si intuyésemos que los $\{y_i\}_{i=1}^n$ siguen una función $f(x)$ genérica (polinómica, sinusoidal, exponencial,...), entonces se buscaría qué parámetros de $f(x)$ minimizan $\displaystyle Z_{OLS} = \sum_{i=1}^n \big(y_i-f(x_i)\big)^2$ . Se suele denotar por $\hat{y}_i=f(x_i)$ a los valores predichos. El método de mínimos cuadrados busca los argumentos, i.e. parámetros, $\hat{\beta}_0,\hat{\beta}_1,\cdots$ que minimizan la suma total de los cuadrados de todas las $n$ diferencias entre los valores reales $y_i$ , y los valores predichos $\hat{y}_i$ , $Z_{OLS}$ , (esta diferencia es el residual $r_i\overset{\text{def}}{=}y_i-\hat{y}_i$, por eso realmente se suele poner como hallar los argumentos que minimizan $\displaystyle Z_{OLS}=\sum_{i=1}^n {r_i}^2$ ). En nuestro caso para la regresión de una recta si denotamos como $\hat{\beta}_0,\hat{\beta}_1$ a la ordenada en el origen y pendiente predichas según el modelo respetivamente, se tiene que $\hat{y}_i = \hat{\beta}_0+\hat{\beta}_1x_i$ .

Sin embargo, en machine learning no se utiliza esto, al menos no así. Se hace lo que se conoce como mínimos cuadrados recortados, least trimmed squares o LTS por sus siglas en inglés: Primero se preselecciona un número $k$ de puntos que se tendrán en cuenta (y los $(n-k)$ restantes para un estudio posterior), donde $k$ suele estar entre el $75\%-80\%$ del total $n$ de puntos. Empero dichos $k$ puntos que se toman no son al azar, sino que se escogen de una manera muy particular: de entre todos los $n$ puntos $\big\{(x_i,y_i)\big\}_{i=1}^n$ , se busca entre todas las $\displaystyle \binom{n}{k}$ posibles combinaciones (de $k$ elementos tomados de un supraconjunto de $n$ elementos) aquella cuya restricción $Z$ de $k$ sumandos sea la mínima de todas las posibles, es decir, en cualquier otro subconjunto de tamaño $k$ sobre el supraconjunto $n$ se ajustan peor entre sí a mínimos cuadrados (su restricción $Z$ es mayor).

Sea $\mathcal{Z}$ el conjunto de las $\displaystyle |\mathcal{Z}|=\binom{n}{k}$ posibles mínimas sumas parciales de los cuadrados de $k$ residuales, $\displaystyle \mathcal{Z} \overset{\text{def}}{=} \bigg\{ \min\!\sum_{i=1}^k {r_{\sigma(i)}}^2 \;|\; k\leqslant n\, ,\,\sigma\in S_n\bigg\}$ con $k$ fijo , donde $\sigma(\cdot)$ indica una permutación de los $n$ puntos. Buscamos qué argumentos minimizan $Z_{LTS}\overset{\text{def}}{=}\min\{\mathcal{Z}\}\geqslant 0$ . Por esta definición el coeficiente de correlación $R^2$ de $Z_{LTS}$ es el máximo de los del conjunto $\mathcal{Z}$ , es decir, $R^2(Z_{LTS})\triangleq\max\big\{R^2(\mathcal{Z})\big\}$ .

Es más, si denotamos por $\big\{{r_{(i)}}^2\big\}_{i=1}^n$ la sucesión de los cuadrados de los residuales ordenados de menor a mayor, es decir, ${r_{(i)}}^2\leqslant {r_{(i+1)}}^2$ , buscamos qué parámetros minimizan la suma parcial $\displaystyle Z_{LTS}=\sum_{i=1}^k {r_{(i)}}^2$ , que es menor o igual que la suma total $\displaystyle \sum_{i=1}^n {r_{(i)}}^2=\sum_{i=1}^n {r_i}^2 = Z_{OLS}$ . Esta última restricción es como ya hemos dicho, la que se busca minimizar en OLS. La suma parcial será igual a la suma total si y solo si $r_{(i)}=0 \quad i = 1,\cdots, n$, es decir, si todos, los $n$ puntos, están perfectamente alineados.

Para comparar ambos resultados, ya hemos visto que $0\leqslant Z_{LTS}\leqslant Z_{OLS}$ , pero estaría bien comparar sendos errores cuadráticos medios, es decir, $\displaystyle \frac{1}{k} Z_{LTS}$ frente a $\displaystyle \frac{1}{n} Z_{OLS}$ , o también $\displaystyle \frac{1}{k-p} Z_{LTS}$ frente a $\displaystyle \frac{1}{n-p} Z_{OLS}$ (que se pueden entender como estimadores de las varianzas de sendos residuales) donde $p$ es el número de parámetros que se estiman (en una recta por ejemplo son dos: la ordenada en el origen y la pendiente), siendo $(k-p)$ y $(n-p)$ sendos grados de libertad.

A este conjunto de $k$ elementos que minimizan la suma parcial de los $k$ cuadrados de los residuales entre todas las posibles se lo conoce como conjunto de entrenamiento (training data set en inglés), mientras que el conjunto restante de $(n-k)$ elementos se lo conoce como conjunto de validación (test data set en inglés). El porqué de separar estos dos es debido a que el conjunto con los $(n-k)$ elementos restantes puede estar corrupto, contaminado, o ser defectuoso (son los outliers). Por eso este método es robusto: considera el conjunto de $k$ elementos que mejor se ajustan entre sí, mientras que el conjunto de $(n-k)$ elementos se utiliza para comprobar cómo de bueno es nuestro modelo, si las hipótesis son las correctas, y si hay que replantearse algo. Sin embargo, el conjunto de $(n-k)$ elementos no influyen en hallar los argumentos que minimizan la restricción $Z_{LTS}$ .

Cabe resaltar que $\displaystyle \frac{n^k}{k!}\geqslant \binom{n}{k} \geqslant \frac{(n-k+1)^k}{k!}$ siendo equivalentes cuando $n\to\infty$, es decir, que aumentando $n$ (al aumentar también $k$ ) implica que las posibles elecciones tienen un crecimiento exponencial-potencial, por lo que hallar qué conjunto de $k$ elementos es el adecuado puede ser muy costoso computacionalmente, en especial con $n$ medianos o con algoritmos no-óptimos. Por otro lado intentar estimar el conjunto de los $k$ con una simulación tipo Monte Carlo no parece ser muy fructífera, ya que la probabilidad de acertar aleatoriamente es $\displaystyle \frac{1}{\binom{n}{k}}$ .

Como último comentario, también existe un método que generaliza OLS conocido como mínimos cuadrados ponderados, weighted least squares o WLS por sus siglas en inglés, donde en vez de minimizar $\displaystyle Z_{OLS}=\sum_{i=1}^n {r_i}^2$ , se busca minimizar $\displaystyle Z_{WLS}=\sum_{i=1}^n \omega_i\,{r_i}^2$ donde $\{\omega_i\}_{i=1}^n$ es una sucesión de pesos no-negativos con cada $\omega_i$ asociado a su respectivo $r_i$ (realmente a $x_i$ , pero es equivalente) y normalmente normalizados, $\displaystyle \sum_{i=1}^n \omega_i=1$ . Nuestro modelo de LTS es en realidad un caso muy particular de WLS donde $\displaystyle\omega_{\sigma(i)}=\begin{cases} \displaystyle \frac{1}{k} & i\in\{1,\cdots,k\} \\ 0 & i\in\{k+1,\cdots,n\} \end{cases}$ . Es más, se podría generalizar esto aún más a un modelo de mínimos cuadrados ponderados y recortados, weighted least trimmed squares o WLTS por sus siglas en inglés donde se buscan: $$\operatorname{arg\,\min} \sum_{i=1}^k \omega_{(i)}\,{r_{(i)}}^2 $$
Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

martes, 29 de marzo de 2022

(751) - Racionales en trigonometría de racionales. Teorema de Niven-Hadwiger

La pregunta de hoy es bien simple: ¿Qué ángulos que son un número racional de vueltas tienen como seno, coseno o tangente también un número racional?Este resultado se concoce como Teorema de Niven ($1915-1999$) de $1956$, pero el matemático Hadwiger ($1908-1981$) ya hizo una demostración en $1948$.
Una primera idea descartable es argumentando como las funciones trigonométricas se pueden expresar como series, pero la serie de racionales no es necesariamente racional ( el ejemplo más claro $\displaystyle \frac{1}{n!}\in\mathbb{Q}$ pero $\displaystyle e=\sum_{n=0}^\infty \frac{1}{n!} \not\in\mathbb{Q}$ ).

Otra idea sería considerar los polinomios de Chebyshov de I especie [Чебышёв - Čebyšëv], polinomios de coeficientes enteros, $T_N(x)\in\big(\mathbb{Z}[x]\big)_N $ , que satisfacen la relación: $T_N\big(\cos(\theta)\big)=\cos(N\theta)$ . Sin embargo, este método solo nos dice que $\cos(2\pi\theta)\in\mathbb{Q} \implies \cos(2\pi N\theta)\in\mathbb{Q}$ , es decir, si el coseno es racional, el coseno de múltiplos de ángulo también lo es. No podemos decir lo mismo de los de II especie $U_N(x)\in\big(\mathbb{Z}[x]\big)_N $ , que satisfacen la relación: $\sin(\theta)U_{N-1}\big(\cos(\theta)\big)=\sin(N\theta)$ .

La idea es buscar los conjuntos maximales $\varnothing\subset Q_{0,r},Q_{1,r}\subset\mathbb{Q}$ donde $Q_{1,r}\overset{\text{def}}{=}\operatorname{r}(2\pi Q_{0,r})$ para alguna razón trigonométrica $\operatorname{r}$ , es decir, hallar los ángulos racionales, $\varphi\in\mathbb{Q}$ , tales que alguna razón trigonométrica es racional, $\operatorname{r}(2\pi\varphi)\in\mathbb{Q}$ .
Si $\varphi\in Q_{0,r}\subsetneq\mathbb{Q} \implies \operatorname{r}(2\pi\varphi)\in\mathbb{Q}$ , es decir que si el ángulo $\varphi$ es "racional de Niven", su razón trigonométrica también es racional.
Si $\varphi\in(\mathbb{Q}\setminus Q_{0,r})\subsetneq\mathbb{Q} \implies \operatorname{r}(2\pi\varphi)\in(\mathbb{R}\setminus\mathbb{Q})$, es decir que si el ángulo $\varphi$ es racional pero no "[racional] de Niven", su razón trigonométrica es estrictamente irracional.
Si $\varphi\in (\mathbb{R}\setminus\mathbb{Q})\subsetneq\mathbb{R} \implies \operatorname{r}(2\pi\varphi)\in \big((\mathbb{R}\setminus\mathbb{Q})\bigcup \hspace{ -7pt }\raise-.5ex{\scriptsize | } \hspace{3pt} (\mathbb{Q}\setminus Q_{1,r})\big) \triangleq (\mathbb{R}\setminus Q_{1,r}) $ , es decir que si el ángulo $\varphi$ es irracional, su razón trigonométrica también es o bien irracional o bien racional.

Si para algún ángulo el seno o coseno es $\displaystyle \frac{p}{q}$ donde $0\leqslant |p| \leqslant |q| $ y $p,q\in\mathbb{Z}$ , entonces el otro es $\displaystyle \pm\frac{\sqrt{q^2-p^2\;}}{q}$ . La pregunta es entonces $\sqrt{q^2-p^2\;}\overset{\text{?}}{\in}\mathbb{N}$ . Esta pregunta es equivalente a preguntar si existe una terna pitagórica con hipotenusa $|q|$ y un cateto $|p|$ . Al final resulta ser que los únicos que seno y coseno son racionales son las soluciones triviales.

Veamos los pocos valores que satisfacen la relación en $\displaystyle 0\leqslant \theta\leqslant \frac{\pi}{2}$ (en otros cuadrantes solo hay que tener en cuenta las relaciones de los demás cuadrantes con el primero):
Para el seno se tiene $\displaystyle 0,\frac{\pi}{6},\frac{\pi}{2}$ que valen respectivamente $\displaystyle  0,\frac{1}{2},1$ .
Para el coseno se tiene $\displaystyle 0,\frac{\pi}{3},\frac{\pi}{2}$ que valen respectivamente $\displaystyle  0,\frac{1}{2},1$ .
Para la tangente se tiene $\displaystyle 0,\frac{\pi}{4}$ que valen respectivamente $\displaystyle  0,1$ .


Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

lunes, 28 de marzo de 2022

(743) - Resolver ecuaciones diferenciales numéricamente en Excel

A finales de septiembre estaba ayudando a un novato de física con un ejercicio de tiro parabólico, pero con amortiguamiento por la fricción con el aire. Como él no sabía programar nada, le hice una pequeña simulación en Excel (sí Excel, ¿qué pasa?) para poder cambiar los parámetros al instante. Quiero exponer aquí cómo lo hice. Aviso que este método no es muy bueno numéricamente, en particular porque Excel no está pensado para resolver ecuaciones diferenciales. Esto es rápido, para tener una idea preliminar, no para tener exactitud. Para ver cómo funciona, hay que repasar algunos conceptos:
Recordemos la definición de derivada [analítica]: $$ f^{(1)}(x) \overset{\text{def}}{=} \lim_{h\to0} \frac{f(x+h)-f(x)}{h}$$ Si en vez de tomar el límite, se toma un $h$ suficientemente pequeño, podemos calcular lo que se llama en computación derivada numérica (una aproximación numérica de la derivada analítica). Esto nos permite aproximar la función $f$ en un punto $x+h$ si sabemos $f(x)$ y $f^{(1)}(x)$ : $$ f^{(1)}(x) \approx \frac{f(x+h)-f(x)}{h} \implies f(x+h) \approx f(x) + f^{(1)}(x)\cdot h$$ Es decir, podemos aproximar (casi) cualquier función $f(t)$ por una recta tangente en $t=a$ , $T_1\big(f,a\big)(t)$ , con el error que decrece hasta hacerse nulo en $t=a$ . $$ f(t) = T_1\big(f,a\big)(t)+{\scriptstyle \mathcal{ O } }\big( (t-a)^1\big) \qquad T_1\big(f,a\big)(t) = f(a)+ f^{(1)}(a)\cdot (t-a)$$ En la resolución numérica se suele discretizar la función (aunque no sea discreta) en intervalos de longitud pequeña, $[x_{n-1},x_n]$ . Vamos a tomar la longitud de cada uno de estos intervalo igual (nodos equiespaciados) de longitud $h$ . Cuanto más cercano a $0$ sea $h$ , mejor la aproximación, pero más cálculos son necesarios. Llamemos $y_n$ a la función $f(x)$ evaluada en el $n-$ésimo nodo $x_n$ , $f(x_n)$ , y denotemos por ${y_n}^{(k)}$ a la $k-$ésima derivada de la función $f(x)$ evaluada en el $n-$ésimo nodo $x_n$ , $f^{(k)}(x_n)$ . Es decir: $$ \begin{matrix} h & = & x_n-x_{n-1} & = & \Delta x_n \\ y_n & = & f(x_n) \\ {y_n}^{(k)} & = & f^{(k)}(x_n) & & k\in\mathbb{N} \end{matrix} $$ Es decir, cuando solo se tiene la primera derivada: $$ y_{n+1} = y_n + {y_n}^{(1)} h $$ Si tenemos una función que conocemos ambas derivadas (como por ejemplo la posición $r$ con su velocidad inicial $v_0$ y su aceleración $a$ que $\displaystyle r = r_0 + v_0t+\frac{a}{2}t^2 $ ) se tiene que: $$y_{n+1} = y_n +{y_n}^{(1)} h + \frac{{y_n}^{(2)}}{2}h^2 = y_n + h\left( {y_n}^{(1)} + \frac{{y_n}^{(2)}}{2}h\right) $$ Al final lo que estamos haciendo es aproximar las sucesivas derivadas $\displaystyle \frac{\text{d}^{(n)}y}{\text{d}x^{(n)}}$ como diferencia finitas $\displaystyle \frac{\Delta^{[n]} y}{\Delta x^n}$ , hacer una expansión de Taylor localmente en cada punto, $\displaystyle \sum_{n=0}^\infty \frac{1}{n!}\frac{\text{d}^{(n)}y}{\text{d}x^{(n)}}\Delta x^n$ , y parar tras $(N+1)$ sumandos cuando consideramos que nuestro error $\varepsilon_N$ es suficientemente pequeño (disminuye cuanto menor sea $\Delta x = h$ ): $$ \frac{\text{d}y}{\text{d}x} \bumpeq \frac{\Delta y}{\Delta x} \implies \frac{\text{d}^{(n)}y}{\text{d}x^{(n)}} \bumpeq \frac{\Delta^{[n]} y}{\Delta x^n} \implies \frac{1}{n!}\Delta^{[n]} y \bumpeq \frac{1}{n!}\frac{\text{d}^{(n)}y}{\text{d}x^{(n)}}\Delta x^n \\ \sum_{n=0}^\infty \frac{1}{n!}\Delta^{[n]}y = \sum_{k=0}^N \frac{1}{k!}\Delta^{[k]}y +\varepsilon_N$$ Por ejemplo para resolver el péndulo simple, de ecuación $\ddot{\theta} + {\omega_0}^2 \sin(\theta)=0 \implies \ddot{\theta} =-{\omega_0}^2 \sin(\theta) $ . En la primera columna ponemos nuestra variable indepeniente, $t$ , con $A1=0$ y $A2=A1+h$ donde $h$ lo hemos definido antes y es un valor fijo. Para que sea más útil, como Excel permite hacer gráficas de $32.000$ puntos, arrastramos $A2$ hasta $A32000$ . Necesitamos una condiciones iniciales de posición y velocidad que esas las ponemos en $B1$ y $C1$ respectivamente. Repitiendo la notación de antes se tiene que (con $Bn=y_n$ , $Cn={y_n}^{(1)}$ , $Dn={y_n}^{(2)}$ ) : $$ \begin{matrix} {y_n}^{(2)} = -{\omega_0}^2 \sin(y_n) \\ {y_{n+1}}^{(1)} = {y_n}^{(1)} + {y_n}^{(2)}h \\ \displaystyle y_{n+1} = y_n + h\Big( {y_n}^{(1)} + {y_n}^{(2)} \frac{h}{2}\Big) \\ \end{matrix}$$ Este método, aunque efectivo, es poco práctico. Se podría haber usado la integración de Verlet, que es mucho más preciso y no hace falta calcular la primera derivada en todo punto: $$ \begin{matrix} \displaystyle y_1 = y_0+{y_n}^{(1)}h+\frac{{y_n}^{(2)}}{2}h^2 \\ y_{n+1} = 2y_n-y_{n-1}+{y_n}^{(2)}h^2 \qquad n\geqslant 1\\ \end{matrix}$$


Péndulo simple, $\ddot{\theta} + {\omega_0}^2 \sin(\theta)=0$ , y péndulo amortiguado $\ddot{\theta} + \gamma \dot{\theta} + {\omega_0}^2 \sin(\theta)=0$ con mismas condiciones iniciales $\theta_0=2,6$ y $\dot{\theta}_0=0,5$ y con $\gamma=0,25$

Este método es útil a la hora de dar propiedades cualitativas, y no tanto cuantitativas, de la solución y para entender qué pasa con la misma (en el ejemplo del péndulo amortiguado que cuanto mayor sea $\gamma$ , más deprisa tiende a ser idénticamente nula).

  Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

sábado, 20 de noviembre de 2021

(739) - GIFs descargables: Integral de Lebesgue y su Teorema del Valor Medio

Si bien es cierto que los dibujos no demuestran nada, como bien dice el refrán: una imagen dice más de $1.000$ palabras. Por ello he hecho estos GIFs animados que ayudan a entender visualmente las integrales de Lebesgue.

Integrales superior e inferior de Lebesgue
Suma inferior de Lebesgue

Suma superior de Lebesgue

Recordemos que habíamos acuñado los conjuntos elementales de Darboux-Lebesgue como $\displaystyle E_n = \Big\{ x\in\Omega \;\big/\; y_n\gneq\big|f(x)\big|\geqslant y_{n-1} \Big\} $ con $\displaystyle E_n \subseteq\bigcup_{n=1} \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_n \subseteq \Omega$ (cada conjunto está en $\Omega$ , por lo que su unión también), entonces se tiene la desigualdad tipo Chebyshov:
$$\displaystyle \inf\left( \sum_{n\in\mathbb{N}_0} {y_n}^p\, \mu(E_n)\right) \gneq \int\limits_E|f|^p\;\mathrm{d}\mu \geqslant \sup\left( \sum_{n\in\mathbb{N}_0} {y_{n-1}}^p\, \mu(E_n) \right)$$
Integral asociada de Lebesgue
Recordemos que habíamos acuñado los conjuntos elementales de Riemann-Lebesgue (o conjuntos elementales asociados de Lebesgue) como $\displaystyle E_n = \Big\{ x\in\Omega \;\big/\; 0\leqslant\big|f(x)-y_n\big|\lneq\varepsilon \Big\}$ con $\displaystyle E_n \subseteq\bigcup_{n=1} \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_n \subseteq \Omega$ (cada conjunto está en $\Omega$ , por lo que su unión también) , entonces se tiene la desigualdad tipo Chebyshov: $$\displaystyle \Bigg|\int\limits_E f\;\mathrm{d}\mu-\sum_{n\in\mathbb{N}_0}y_n\, \mu(E_n)\Bigg|\lneq \varepsilon\, \mu(E) $$
Integral asociada de Lebesgue


Integral asociada de Lebesgue - variando la secuencia de los $y_n$


Teorema del valor medio integral (formulación para la integral de Lebesgue):
¿Cómo se puede entender el teorema del valor medio?
Geométricamente es una reinterpretación de las áreas de los sucesivos rectángulos: dada una sucesión de rectángulos con sendas bases y alturas, el valor medio integral es hallar la altura de un rectángulo equivalente que tiene por base la suma de las bases y por área la suma de las áreas.
Analíticamente es hallar el valor de la función idénticamente constante (hallar el valor $\eta_y$ de la función escalonada $\eta_y\,\chi\raise-.5ex\hbox{}_{E}(x)$ ) tal que tenga la misma integral en $E$ que la función $f(x)$ .
En las desigualdades se vuelve para las integrales superiores e inferiores de Lebesgue: $$ \inf\left( \sum_{n\in\mathbb{N}_0} \frac{\mu(E_n)}{\mu(E)}{y_n}^p\right) \gneq \frac{1}{\mu(E)}\int\limits_E|f|^p\;\mathrm{d}\mu \geqslant \sup\left( \sum_{n\in\mathbb{N}_0} \frac{\mu(E_n)}{\mu(E)}{y_{n-1}}^p \right) $$ En las desigualdades se vuelve para la integral asociada de Lebesgue: $$\Bigg|\frac{1}{\mu(E)}\int\limits_E f\;\mathrm{d}\mu-\sum_{n\in\mathbb{N}_0}\frac{\mu(E_n)}{\mu(E)}y_n \Bigg|\lneq \varepsilon $$ En virtud de la propiedad de Darboux (teorema del valor intermedio), realmente de un análogo para sucesiones, podemos asegurar que el valor medio $\eta_y$ está entre dos términos sucesivos de la sucesión creciente $\{y_n\}_{n\in\mathbb{N}_0}$ .


Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

martes, 9 de noviembre de 2021

(733) - Integral Asociada de Lebesgue. Mejor que Riemann (con GIFs descargables) (3/3)

Si bien es cierto que los dibujos no demuestran nada, como bien dice el refrán: una imagen dice más de $1.000$ palabras. Por ello he hecho estos GIFs animados que ayudan a entender visualmente las integrales de Riemann, y de Lebesgue. Definamos los subintervalos $I_k = [x_{k-1},x_k] $ que pertenecen a la partición $\mathcal{P}\big([a,b]\big)$ .

Integral de Riemann
La suma asociada de Riemann, $\sigma(f,\mathcal{P}_n,T)$ , es la suma de las áreas de los rectángulos-verticales que aproximan la función $f$ en cada subintervalo $I_k$ . En cada subintervalo $I_k$ se considera un nodo $t_k$ tal que el valor de la función $f$ evaluada en dicho nodo, $f(t_k)$, sea una buena aproximación de la altura media de la función en dicho subintervalo. Según se aumenta el número de subintervalos $n$ , mejor se aproxima al valor del área bajo la función $f$ . Se denota por $T$ a la colección de todos los nodos $t_k$ , es decir, $T=\left\{t_k \; /\; k=1,\cdots,n\right\}$ , mientras que el par $(\mathcal{P}_n,T)$ a veces se escribe como $\dot{\mathcal{P}}_n$ . $$ \begin{matrix} \displaystyle \sigma(f,\mathcal{P}_n,T) \overset{\text{def}}{=} \sum_{k=1}^n f(t_k)\Delta x_k \implies \displaystyle \int_a^b f(x) \,\text{d}x \overset{\text{def}}{=} \lim_{\|\mathcal{P}_n\hspace{1pt}\|\to 0}\!\!\! \sigma(f,\mathcal{P}_n,T) \\ \displaystyle \sigma(f,\dot{\mathcal{P}}_n) \overset{\text{def}}{=} \sum_{k=1}^n f(t_k)\Delta x_k \implies \displaystyle \int_a^b f(x) \,\text{d}x \overset{\text{def}}{=} \lim_{\|\dot{\mathcal{P}}_n\hspace{1pt}\|\to 0}\!\!\! \sigma(f,\dot{\mathcal{P}}_n) \end{matrix} $$
Nótese que según $n$ aumenta, llega un momento que (al menos visualmente) son indistinguibles 


Integral de Riemann - variando los nodos
Aquí vemos variando el nodo $t_k$ en cada subintervalo $I_k$ (tomando cada uno con la misma definición respecto a los extremos del subintervalo). Así pues pasamos de una suma de Riemann por la izquierda ( $\lambda=0$ ) a una del punto medio ( $\lambda=0.5$ ) y finalmente a una por la derecha ( $\lambda=1$ ). $$ \lambda_k\in[0,1] \,/\, t_k \overset{\text{def}}{=} (1-\lambda_k)x_{k-1}+\lambda_k x_k\in I_k \in \mathcal{P}_n\big([a,b]\big) \implies \sigma(f,\dot{\mathcal{P}}_n) = \sum_{k=1}^n f\big((1-\lambda)x_{k-1}+\lambda x_k\big) \Delta x_k $$

Integral asociada de Lebesgue
Recordemos los conjuntos que acuñé en la última entrada como conjuntos elementales de Riemann-Lebesgue (conjuntos elementales asociados de Lebesgue) y desagamos el valor absoluto suponiendo que $f(x)\geqslant 0$: $$ E_n = \Big\{ x\in\Omega \;\big/\; 0\leqslant\big|f(x)-y_n\big|\lneq\varepsilon \Big\} \subseteq\bigcup_{n=1} \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_n \subseteq \Omega $$ Es decir, $$ y_n-\varepsilon\lneq f(x) \lneq y_n+\varepsilon \quad \forall x\in E_n$$ Por lo que podemos reescribir la cotas $y_n\pm\varepsilon$ como funciones escalonadas $ (y_n\pm\varepsilon)\chi\raise-.5ex\hbox{}_{E_n}(x)$ , que valen exactamente $y_n\pm\varepsilon$ en $E_n$ y "fuera" no aporta nada. $$ (y_n-\varepsilon)\chi\raise-.5ex\hbox{}_{E_n}(x)\lneq f(x) \lneq (y_n+\varepsilon)\chi\raise-.5ex\hbox{}_{E_n}(x) \iff \bigg| f(x)-y_n\chi\raise-.5ex\hbox{}_{E_n}(x) \bigg| \lneq \varepsilon\chi\raise-.5ex\hbox{}_{E_n}(x)$$ Aplicando la monotonía de la integral se tiene que: $$ (y_n-\varepsilon)\mu(E_n) \lneq \int\limits_{E_n} \! f(x)\ \,\text{d}\mu(x) \lneq (y_n+\varepsilon)\mu(E_n) \implies \Bigg| \int\limits_{E_n} \! f(x)\ \,\text{d}\mu(x)-y_n\mu(E_n) \Bigg| \lneq \varepsilon\mu(E_n)$$ Esto es para un único $E_n$, por lo que si se considera la unión de todos los ubconjuntos, el supraconjunto $E$ , se tiene que: $$ \sum_{n=1} (y_n-\varepsilon)\mu(E_n) \lneq \int\limits_{E_n} \! f(x)\ \,\text{d}\mu(x) \lneq \sum_{n=1} (y_n+\varepsilon)\mu(E_n) \implies \Bigg| \int\limits_{E_n} \! f(x)\ \,\text{d}\mu(x)-\sum_{n=1}y_n\mu(E_n) \Bigg| \lneq \varepsilon\mu(E) $$ ¿Hemos terminado? Realmente sí. Hemos encontrado una función escalonada $\displaystyle \phi_n(x)\overset{\text{def}}{=} \sum_{n=1} y_n\chi\raise-.5ex\hbox{}_{E_n}(x)$ que dista de $f(x)$ a lo sumo tan poco como queramos, $\varepsilon$ , y que sendas integrales también distan tan poco como queramos, $\varepsilon\mu(E)$ . A este valor (de la integral de $\phi_n(x)$) lo acuño como suma o integral asociada de Lebesgue.$$ \int\limits_{[a,b]} \! f(x) \,\text{d}\mu(x) \overset{\text{def}}{=} \int\limits_{[a,b]} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_n\,\mu(E_n) $$
Integral asociada de Lebesgue

 
Refinando la secuencia de nodos de ordenadas o $\varepsilon$ se encuentra una aproximación mejor. 
Integral asociada de Lebesgue - variando la secuencia de los $y_n$



Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

(727) - Integral Superior de Lebesgue. Mejor que Darboux (con GIFs descargables) (2/3)

Si bien es cierto que los dibujos no demuestran nada, como bien dice el refrán: una imagen dice más de $1.000$ palabras. Por ello he hecho estos GIFs animados que ayudan a entender visualmente las integrales superiores de Darboux, y de Lebesgue. Definamos los subintervalos de la partición $I_k \overset{\text{def}}{=} [x_{k-1},x_k] \in\mathcal{P}\big([a,b]\big)$ .

Integral superior de Daboux
La suma superior de Darboux, $s(f,\mathcal{P}_n)$ , hace referencia a la suma de las áreas de los rectángulos-verticales minimales que contienen la función $f$ . Según se aumenta el número de subintervalos $n$ , mejor se aproxima al valor del área bajo la función $f$ .$$ \begin{matrix}\displaystyle S(f,\mathcal{P}_n) \overset{\text{def}}{=} \sum_{k=1}^n \sup_{x\in I_k}\!\big\{f(x)\big\} \Delta x_k &\quad &\displaystyle 0 \leqslant \big|f(x)\big| \underset{\mu\text{ae}}{\leqslant} \sum_{n=1} y_n\,\chi\raise-.5ex\hbox{}_{E_n}(x) = \phi_n(x) \\ \displaystyle \mkern2.5mu\underline{\vphantom{\intop}\mkern15mu}\mkern-15mu\int_a^b \!\!\! f(x) \,\text{d}x \overset{\text{def}}{=} \inf_{\mathcal{P}_n\,\in\,\mathcal{P}}\!\big\{S(f,\mathcal{P}_n)\big\} &\quad &  \displaystyle \overline{\int}\limits_{[a,b]} \! \big|f(x)\big| \,\text{d}\mu(x) \overset{\text{def}}{=} \inf_{\phi_n \;\underset{\mu\text{ae}}{\geqslant}\; f}\Bigg\{\int\limits_{[a,b]} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_n\,\mu(E_n) \Bigg\}\ \end{matrix} $$
Sumas superiores e inferiores de Darboux

Integral superior de Lebesgue 
Recordemos los conjuntos que acuñé en la última entrada como conjuntos elementales de Darboux-Lebesgue y centrémonos en la primera desigualdad: $$ E_n = \Big\{ x\in\Omega \;\big/\; y_n\gneq\big|f(x)\big|\geqslant y_{n-1} \Big\} \subseteq\bigcup_{n=1} \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_n \subseteq \Omega$$ Es decir, $$ y_n\gneq\big|f(x)\big| \quad \forall x\in E_n$$ Por lo que podemos reescribir $y_n$ como la función escalonada $ y_n\,\chi\raise-.5ex\hbox{}_{E_n}(x)$ , que vale exactamente $y_n$ en $E_n$ y "fuera" no aporta nada. Aplicando la monotonía de la integral se tiene que: $$ y_n\,\chi\raise-.5ex\hbox{}_{E_n}(x) \gneq \big|f(x)\big| \implies \int\limits_{E_n} \! \ y_n\,\chi\raise-.5ex\hbox{}_{E_n}(x) \,\text{d}\mu(x) \triangleq y_n\,\mu(E_n) \gneq \int\limits_{E_n} \! \big|f(x)\big| \,\text{d}\mu(x) $$ Esto es para un único $E_n$, por lo que si se considera la unión de todos los ubconjuntos, el supraconjunto $E$ , se tiene que: $$ \sum_{n=1} y_n\,\chi\raise-.5ex\hbox{}_{E_n}(x) \overset{\text{def}}{=} \phi_n(x) \gneq \big|f(x)\big| \implies \int\limits_{E} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_n\,\mu(E_n) \gneq \int\limits_{E} \! \big|f(x)\big| \,\text{d}\mu(x) $$ ¿Hemos terminado? Casi. Hemos encontrado una cota superior, pero no la óptima, esa es su ínfimo, $\displaystyle \inf\Bigg\{\sum_{n=1} y_n\,\mu(E_n) \Bigg\}$ , que se puede hallar al ir refinando los conjuntos elementales. A este valor lo acuño como suma o integral superior de Lebesgue $$ \underline{\int}\limits_{[a,b]} \! \big|f(x)\big| \,\text{d}\mu(x) \overset{\text{def}}{=} \inf_{\phi_n \;\underset{\mu\text{ae}}{\geqslant}\; f}\Bigg\{\int\limits_{[a,b]} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_n\,\mu(E_n) \Bigg\} $$
Suma superior de Lebesgue

Con estos mismos conjuntos se puede hallar fácilmente la integral en espacios $L^p$ de $|f|^p$ donde es: $$ \underline{\int}\limits_{[a,b]} \! \big|f(x)\big|^p \,\text{d}\mu(x) \overset{\text{def}}{=} \inf_{\phi_n \;\underset{\mu\text{ae}}{\geqslant}\; f}\Bigg\{\int\limits_{[a,b]} \! {\phi_n}^p(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} {y_n}^p\,\mu(E_n) \Bigg\} $$



Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

jueves, 14 de octubre de 2021

(719) - Integral Inferior de Lebesgue. Mejor que Darboux (con GIFs descargables) (1/3)

Si bien es cierto que los dibujos no demuestran nada, como bien dice el refrán: una imagen dice más de $1.000$ palabras. Por ello he hecho estos GIFs animados que ayudan a entender visualmente las integrales inferiores de Darboux, y de Lebesgue. Definamos los subintervalos de la partición $I_k \overset{\text{def}}{=} [x_{k-1},x_k] \in\mathcal{P}\big([a,b]\big)$ .

Integral inferior de Daboux
La suma inferior de Darboux, $s(f,\mathcal{P}_n)$ , hace referencia a la suma de las áreas de los rectángulos-verticales maximales que están contenidos entre el eje de abscisas y la función $f$ . Según se aumenta el número de subintervalos $n$ , mejor se aproxima al valor del área bajo la función $f$ .$$ \begin{matrix}\displaystyle s(f,\mathcal{P}_n) \overset{\text{def}}{=} \sum_{k=1}^n \inf_{x\in I_k}\!\big\{f(x)\big\} \Delta x_k &\quad &\displaystyle 0 \underset{\mu\text{ae}}{\leqslant} \sum_{n=1} y_{n-1}\,\chi\raise-.5ex\hbox{}_{E_n}(x) =  \phi_n(x) \underset{\mu\text{ae}}{\leqslant} \big|f(x)\big| \\ \displaystyle \mkern2.5mu\underline{\vphantom{\intop}\mkern15mu}\mkern-15mu\int_a^b \!\!\! f(x) \,\text{d}x \overset{\text{def}}{=} \sup_{\mathcal{P}_n\,\in\,\mathcal{P}}\!\big\{s(f,\mathcal{P}_n)\big\} &\quad &  \displaystyle \underline{\int}\limits_{[a,b]} \! \big|f(x)\big| \,\text{d}\mu(x) \overset{\text{def}}{=} \sup_{\phi_n \;\underset{\mu\text{ae}}{\leqslant}\; f}\Bigg\{\int\limits_{[a,b]} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_{n-1}\,\mu(E_n) \Bigg\}\ \end{matrix} $$
Sumas superiores e inferiores de Darboux

Integral inferior de Lebesgue 
Recordemos los conjuntos que acuñé en la última entrada como conjuntos elementales de Darboux-Lebesgue y centrémonos en la segunda desigualdad: $$ E_n = \Big\{ x\in\Omega \;\big/\; y_n\gneq\big|f(x)\big|\geqslant y_{n-1} \Big\} \subseteq\bigcup_{n=1} \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_n \subseteq \Omega$$ Es decir, $$ \big|f(x)\big|\geqslant y_{n-1} \quad \forall x\in E_n$$ Por lo que podemos reescribir $y_{n-1}$ como la función escalonada $ y_{n-1}\,\chi\raise-.5ex\hbox{}_{E_n}(x)$ , que vale exactamente $y_{n-1}$ en $E_n$ y "fuera" no aporta nada. Aplicando la monotonía de la integral se tiene que: $$ \big|f(x)\big|\geqslant y_{n-1}\,\chi\raise-.5ex\hbox{}_{E_n}(x) \implies \int\limits_{E_n} \! \big|f(x)\big| \,\text{d}\mu(x) \geqslant \int\limits_{E_n} \! \ y_{n-1}\,\chi\raise-.5ex\hbox{}_{E_n}(x) \,\text{d}\mu(x) \triangleq y_{n-1}\,\mu(E_n)$$ Esto es para un único $E_n$, por lo que si se considera la unión de todos los ubconjuntos, el supraconjunto $E$ , se tiene que: $$ \big|f(x)\big|\geqslant \sum_{n=1} y_{n-1}\,\chi\raise-.5ex\hbox{}_{E_n}(x) \overset{\text{def}}{=} \phi_n(x) \implies \int\limits_{E} \! \big|f(x)\big| \,\text{d}\mu(x) \geqslant \int\limits_{E} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_{n-1}\,\mu(E_n)$$ ¿Hemos terminado? Casi. Hemos encontrado una cota inferior, pero no la óptima, esa es su supremo, $\displaystyle \sup\Bigg\{\sum_{n=1} y_{n-1}\,\mu(E_n) \Bigg\}$ , que se puede hallar al ir refinando los conjuntos elementales. A este valor lo acuño como suma o integral inferior de Lebesgue $$ \underline{\int}\limits_{[a,b]} \! \big|f(x)\big| \,\text{d}\mu(x) \overset{\text{def}}{=} \sup_{\phi_n \;\underset{\mu\text{ae}}{\leqslant}\; f}\Bigg\{\int\limits_{[a,b]} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_{n-1}\,\mu(E_n) \Bigg\} $$
Suma inferior de Lebesgue
Con estos mismos conjuntos se puede hallar fácilmente la integral en espacios $L^p$ de $|f|^p$ donde es: $$ \underline{\int}\limits_{[a,b]} \! \big|f(x)\big|^p \,\text{d}\mu(x) \overset{\text{def}}{=} \sup_{\phi_n \;\underset{\mu\text{ae}}{\leqslant}\; f}\Bigg\{\int\limits_{[a,b]} \! {\phi_n}^p(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} {y_{n-1}}^p\,\mu(E_n) \Bigg\} $$



Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.