sábado, 20 de noviembre de 2021

(739) - GIFs descargables: Integral de Lebesgue y su Teorema del Valor Medio

Si bien es cierto que los dibujos no demuestran nada, como bien dice el refrán: una imagen dice más de $1.000$ palabras. Por ello he hecho estos GIFs animados que ayudan a entender visualmente las integrales de Lebesgue.

Integrales superior e inferior de Lebesgue
Suma inferior de Lebesgue

Suma superior de Lebesgue

Recordemos que habíamos acuñado los conjuntos elementales de Darboux-Lebesgue como $\displaystyle E_n = \Big\{ x\in\Omega \;\big/\; y_n\gneq\big|f(x)\big|\geqslant y_{n-1} \Big\} $ con $\displaystyle E_n \subseteq\bigcup_{n=1} \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_n \subseteq \Omega$ (cada conjunto está en $\Omega$ , por lo que su unión también), entonces se tiene la desigualdad tipo Chebyshov:
$$\displaystyle \inf\left( \sum_{n\in\mathbb{N}_0} {y_n}^p\, \mu(E_n)\right) \gneq \int\limits_E|f|^p\;\mathrm{d}\mu \geqslant \sup\left( \sum_{n\in\mathbb{N}_0} {y_{n-1}}^p\, \mu(E_n) \right)$$
Integral asociada de Lebesgue
Recordemos que habíamos acuñado los conjuntos elementales de Riemann-Lebesgue (o conjuntos elementales asociados de Lebesgue) como $\displaystyle E_n = \Big\{ x\in\Omega \;\big/\; 0\leqslant\big|f(x)-y_n\big|\lneq\varepsilon \Big\}$ con $\displaystyle E_n \subseteq\bigcup_{n=1} \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_n \subseteq \Omega$ (cada conjunto está en $\Omega$ , por lo que su unión también) , entonces se tiene la desigualdad tipo Chebyshov: $$\displaystyle \Bigg|\int\limits_E f\;\mathrm{d}\mu-\sum_{n\in\mathbb{N}_0}y_n\, \mu(E_n)\Bigg|\lneq \varepsilon\, \mu(E) $$
Integral asociada de Lebesgue


Integral asociada de Lebesgue - variando la secuencia de los $y_n$


Teorema del valor medio integral (formulación para la integral de Lebesgue):
¿Cómo se puede entender el teorema del valor medio?
Geométricamente es una reinterpretación de las áreas de los sucesivos rectángulos: dada una sucesión de rectángulos con sendas bases y alturas, el valor medio integral es hallar la altura de un rectángulo equivalente que tiene por base la suma de las bases y por área la suma de las áreas.
Analíticamente es hallar el valor de la función idénticamente constante (hallar el valor $\eta_y$ de la función escalonada $\eta_y\,\chi\raise-.5ex\hbox{}_{E}(x)$ ) tal que tenga la misma integral en $E$ que la función $f(x)$ .
En las desigualdades se vuelve para las integrales superiores e inferiores de Lebesgue: $$ \inf\left( \sum_{n\in\mathbb{N}_0} \frac{\mu(E_n)}{\mu(E)}{y_n}^p\right) \gneq \frac{1}{\mu(E)}\int\limits_E|f|^p\;\mathrm{d}\mu \geqslant \sup\left( \sum_{n\in\mathbb{N}_0} \frac{\mu(E_n)}{\mu(E)}{y_{n-1}}^p \right) $$ En las desigualdades se vuelve para la integral asociada de Lebesgue: $$\Bigg|\frac{1}{\mu(E)}\int\limits_E f\;\mathrm{d}\mu-\sum_{n\in\mathbb{N}_0}\frac{\mu(E_n)}{\mu(E)}y_n \Bigg|\lneq \varepsilon $$ En virtud de la propiedad de Darboux (teorema del valor intermedio), realmente de un análogo para sucesiones, podemos asegurar que el valor medio $\eta_y$ está entre dos términos sucesivos de la sucesión creciente $\{y_n\}_{n\in\mathbb{N}_0}$ .


Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

martes, 9 de noviembre de 2021

(733) - Integral Asociada de Lebesgue. Mejor que Riemann (con GIFs descargables) (3/3)

Si bien es cierto que los dibujos no demuestran nada, como bien dice el refrán: una imagen dice más de $1.000$ palabras. Por ello he hecho estos GIFs animados que ayudan a entender visualmente las integrales de Riemann, y de Lebesgue. Definamos los subintervalos $I_k = [x_{k-1},x_k] $ que pertenecen a la partición $\mathcal{P}\big([a,b]\big)$ .

Integral de Riemann
La suma asociada de Riemann, $\sigma(f,\mathcal{P}_n,T)$ , es la suma de las áreas de los rectángulos-verticales que aproximan la función $f$ en cada subintervalo $I_k$ . En cada subintervalo $I_k$ se considera un nodo $t_k$ tal que el valor de la función $f$ evaluada en dicho nodo, $f(t_k)$, sea una buena aproximación de la altura media de la función en dicho subintervalo. Según se aumenta el número de subintervalos $n$ , mejor se aproxima al valor del área bajo la función $f$ . Se denota por $T$ a la colección de todos los nodos $t_k$ , es decir, $T=\left\{t_k \; /\; k=1,\cdots,n\right\}$ , mientras que el par $(\mathcal{P}_n,T)$ a veces se escribe como $\dot{\mathcal{P}}_n$ . $$ \begin{matrix} \displaystyle \sigma(f,\mathcal{P}_n,T) \overset{\text{def}}{=} \sum_{k=1}^n f(t_k)\Delta x_k \implies \displaystyle \int_a^b f(x) \,\text{d}x \overset{\text{def}}{=} \lim_{\|\mathcal{P}_n\hspace{1pt}\|\to 0}\!\!\! \sigma(f,\mathcal{P}_n,T) \\ \displaystyle \sigma(f,\dot{\mathcal{P}}_n) \overset{\text{def}}{=} \sum_{k=1}^n f(t_k)\Delta x_k \implies \displaystyle \int_a^b f(x) \,\text{d}x \overset{\text{def}}{=} \lim_{\|\dot{\mathcal{P}}_n\hspace{1pt}\|\to 0}\!\!\! \sigma(f,\dot{\mathcal{P}}_n) \end{matrix} $$
Nótese que según $n$ aumenta, llega un momento que (al menos visualmente) son indistinguibles 


Integral de Riemann - variando los nodos
Aquí vemos variando el nodo $t_k$ en cada subintervalo $I_k$ (tomando cada uno con la misma definición respecto a los extremos del subintervalo). Así pues pasamos de una suma de Riemann por la izquierda ( $\lambda=0$ ) a una del punto medio ( $\lambda=0.5$ ) y finalmente a una por la derecha ( $\lambda=1$ ). $$ \lambda_k\in[0,1] \,/\, t_k \overset{\text{def}}{=} (1-\lambda_k)x_{k-1}+\lambda_k x_k\in I_k \in \mathcal{P}_n\big([a,b]\big) \implies \sigma(f,\dot{\mathcal{P}}_n) = \sum_{k=1}^n f\big((1-\lambda)x_{k-1}+\lambda x_k\big) \Delta x_k $$

Integral asociada de Lebesgue
Recordemos los conjuntos que acuñé en la última entrada como conjuntos elementales de Riemann-Lebesgue (conjuntos elementales asociados de Lebesgue) y desagamos el valor absoluto suponiendo que $f(x)\geqslant 0$: $$ E_n = \Big\{ x\in\Omega \;\big/\; 0\leqslant\big|f(x)-y_n\big|\lneq\varepsilon \Big\} \subseteq\bigcup_{n=1} \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_n \subseteq \Omega $$ Es decir, $$ y_n-\varepsilon\lneq f(x) \lneq y_n+\varepsilon \quad \forall x\in E_n$$ Por lo que podemos reescribir la cotas $y_n\pm\varepsilon$ como funciones escalonadas $ (y_n\pm\varepsilon)\chi\raise-.5ex\hbox{}_{E_n}(x)$ , que valen exactamente $y_n\pm\varepsilon$ en $E_n$ y "fuera" no aporta nada. $$ (y_n-\varepsilon)\chi\raise-.5ex\hbox{}_{E_n}(x)\lneq f(x) \lneq (y_n+\varepsilon)\chi\raise-.5ex\hbox{}_{E_n}(x) \iff \bigg| f(x)-y_n\chi\raise-.5ex\hbox{}_{E_n}(x) \bigg| \lneq \varepsilon\chi\raise-.5ex\hbox{}_{E_n}(x)$$ Aplicando la monotonía de la integral se tiene que: $$ (y_n-\varepsilon)\mu(E_n) \lneq \int\limits_{E_n} \! f(x)\ \,\text{d}\mu(x) \lneq (y_n+\varepsilon)\mu(E_n) \implies \Bigg| \int\limits_{E_n} \! f(x)\ \,\text{d}\mu(x)-y_n\mu(E_n) \Bigg| \lneq \varepsilon\mu(E_n)$$ Esto es para un único $E_n$, por lo que si se considera la unión de todos los ubconjuntos, el supraconjunto $E$ , se tiene que: $$ \sum_{n=1} (y_n-\varepsilon)\mu(E_n) \lneq \int\limits_{E_n} \! f(x)\ \,\text{d}\mu(x) \lneq \sum_{n=1} (y_n+\varepsilon)\mu(E_n) \implies \Bigg| \int\limits_{E_n} \! f(x)\ \,\text{d}\mu(x)-\sum_{n=1}y_n\mu(E_n) \Bigg| \lneq \varepsilon\mu(E) $$ ¿Hemos terminado? Realmente sí. Hemos encontrado una función escalonada $\displaystyle \phi_n(x)\overset{\text{def}}{=} \sum_{n=1} y_n\chi\raise-.5ex\hbox{}_{E_n}(x)$ que dista de $f(x)$ a lo sumo tan poco como queramos, $\varepsilon$ , y que sendas integrales también distan tan poco como queramos, $\varepsilon\mu(E)$ . A este valor (de la integral de $\phi_n(x)$) lo acuño como suma o integral asociada de Lebesgue.$$ \int\limits_{[a,b]} \! f(x) \,\text{d}\mu(x) \overset{\text{def}}{=} \int\limits_{[a,b]} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_n\,\mu(E_n) $$
Integral asociada de Lebesgue

 
Refinando la secuencia de nodos de ordenadas o $\varepsilon$ se encuentra una aproximación mejor. 
Integral asociada de Lebesgue - variando la secuencia de los $y_n$



Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

(727) - Integral Superior de Lebesgue. Mejor que Darboux (con GIFs descargables) (2/3)

Si bien es cierto que los dibujos no demuestran nada, como bien dice el refrán: una imagen dice más de $1.000$ palabras. Por ello he hecho estos GIFs animados que ayudan a entender visualmente las integrales superiores de Darboux, y de Lebesgue. Definamos los subintervalos de la partición $I_k \overset{\text{def}}{=} [x_{k-1},x_k] \in\mathcal{P}\big([a,b]\big)$ .

Integral superior de Daboux
La suma superior de Darboux, $s(f,\mathcal{P}_n)$ , hace referencia a la suma de las áreas de los rectángulos-verticales minimales que contienen la función $f$ . Según se aumenta el número de subintervalos $n$ , mejor se aproxima al valor del área bajo la función $f$ .$$ \begin{matrix}\displaystyle S(f,\mathcal{P}_n) \overset{\text{def}}{=} \sum_{k=1}^n \sup_{x\in I_k}\!\big\{f(x)\big\} \Delta x_k &\quad &\displaystyle 0 \leqslant \big|f(x)\big| \underset{\mu\text{ae}}{\leqslant} \sum_{n=1} y_n\,\chi\raise-.5ex\hbox{}_{E_n}(x) = \phi_n(x) \\ \displaystyle \mkern2.5mu\underline{\vphantom{\intop}\mkern15mu}\mkern-15mu\int_a^b \!\!\! f(x) \,\text{d}x \overset{\text{def}}{=} \inf_{\mathcal{P}_n\,\in\,\mathcal{P}}\!\big\{S(f,\mathcal{P}_n)\big\} &\quad &  \displaystyle \overline{\int}\limits_{[a,b]} \! \big|f(x)\big| \,\text{d}\mu(x) \overset{\text{def}}{=} \inf_{\phi_n \;\underset{\mu\text{ae}}{\geqslant}\; f}\Bigg\{\int\limits_{[a,b]} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_n\,\mu(E_n) \Bigg\}\ \end{matrix} $$
Sumas superiores e inferiores de Darboux

Integral superior de Lebesgue 
Recordemos los conjuntos que acuñé en la última entrada como conjuntos elementales de Darboux-Lebesgue y centrémonos en la primera desigualdad: $$ E_n = \Big\{ x\in\Omega \;\big/\; y_n\gneq\big|f(x)\big|\geqslant y_{n-1} \Big\} \subseteq\bigcup_{n=1} \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_n \subseteq \Omega$$ Es decir, $$ y_n\gneq\big|f(x)\big| \quad \forall x\in E_n$$ Por lo que podemos reescribir $y_n$ como la función escalonada $ y_n\,\chi\raise-.5ex\hbox{}_{E_n}(x)$ , que vale exactamente $y_n$ en $E_n$ y "fuera" no aporta nada. Aplicando la monotonía de la integral se tiene que: $$ y_n\,\chi\raise-.5ex\hbox{}_{E_n}(x) \gneq \big|f(x)\big| \implies \int\limits_{E_n} \! \ y_n\,\chi\raise-.5ex\hbox{}_{E_n}(x) \,\text{d}\mu(x) \triangleq y_n\,\mu(E_n) \gneq \int\limits_{E_n} \! \big|f(x)\big| \,\text{d}\mu(x) $$ Esto es para un único $E_n$, por lo que si se considera la unión de todos los ubconjuntos, el supraconjunto $E$ , se tiene que: $$ \sum_{n=1} y_n\,\chi\raise-.5ex\hbox{}_{E_n}(x) \overset{\text{def}}{=} \phi_n(x) \gneq \big|f(x)\big| \implies \int\limits_{E} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_n\,\mu(E_n) \gneq \int\limits_{E} \! \big|f(x)\big| \,\text{d}\mu(x) $$ ¿Hemos terminado? Casi. Hemos encontrado una cota superior, pero no la óptima, esa es su ínfimo, $\displaystyle \inf\Bigg\{\sum_{n=1} y_n\,\mu(E_n) \Bigg\}$ , que se puede hallar al ir refinando los conjuntos elementales. A este valor lo acuño como suma o integral superior de Lebesgue $$ \underline{\int}\limits_{[a,b]} \! \big|f(x)\big| \,\text{d}\mu(x) \overset{\text{def}}{=} \inf_{\phi_n \;\underset{\mu\text{ae}}{\geqslant}\; f}\Bigg\{\int\limits_{[a,b]} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_n\,\mu(E_n) \Bigg\} $$
Suma superior de Lebesgue

Con estos mismos conjuntos se puede hallar fácilmente la integral en espacios $L^p$ de $|f|^p$ donde es: $$ \underline{\int}\limits_{[a,b]} \! \big|f(x)\big|^p \,\text{d}\mu(x) \overset{\text{def}}{=} \inf_{\phi_n \;\underset{\mu\text{ae}}{\geqslant}\; f}\Bigg\{\int\limits_{[a,b]} \! {\phi_n}^p(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} {y_n}^p\,\mu(E_n) \Bigg\} $$



Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

jueves, 14 de octubre de 2021

(719) - Integral Inferior de Lebesgue. Mejor que Darboux (con GIFs descargables) (1/3)

Si bien es cierto que los dibujos no demuestran nada, como bien dice el refrán: una imagen dice más de $1.000$ palabras. Por ello he hecho estos GIFs animados que ayudan a entender visualmente las integrales inferiores de Darboux, y de Lebesgue. Definamos los subintervalos de la partición $I_k \overset{\text{def}}{=} [x_{k-1},x_k] \in\mathcal{P}\big([a,b]\big)$ .

Integral inferior de Daboux
La suma inferior de Darboux, $s(f,\mathcal{P}_n)$ , hace referencia a la suma de las áreas de los rectángulos-verticales maximales que están contenidos entre el eje de abscisas y la función $f$ . Según se aumenta el número de subintervalos $n$ , mejor se aproxima al valor del área bajo la función $f$ .$$ \begin{matrix}\displaystyle s(f,\mathcal{P}_n) \overset{\text{def}}{=} \sum_{k=1}^n \inf_{x\in I_k}\!\big\{f(x)\big\} \Delta x_k &\quad &\displaystyle 0 \underset{\mu\text{ae}}{\leqslant} \sum_{n=1} y_{n-1}\,\chi\raise-.5ex\hbox{}_{E_n}(x) =  \phi_n(x) \underset{\mu\text{ae}}{\leqslant} \big|f(x)\big| \\ \displaystyle \mkern2.5mu\underline{\vphantom{\intop}\mkern15mu}\mkern-15mu\int_a^b \!\!\! f(x) \,\text{d}x \overset{\text{def}}{=} \sup_{\mathcal{P}_n\,\in\,\mathcal{P}}\!\big\{s(f,\mathcal{P}_n)\big\} &\quad &  \displaystyle \underline{\int}\limits_{[a,b]} \! \big|f(x)\big| \,\text{d}\mu(x) \overset{\text{def}}{=} \sup_{\phi_n \;\underset{\mu\text{ae}}{\leqslant}\; f}\Bigg\{\int\limits_{[a,b]} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_{n-1}\,\mu(E_n) \Bigg\}\ \end{matrix} $$
Sumas superiores e inferiores de Darboux

Integral inferior de Lebesgue 
Recordemos los conjuntos que acuñé en la última entrada como conjuntos elementales de Darboux-Lebesgue y centrémonos en la segunda desigualdad: $$ E_n = \Big\{ x\in\Omega \;\big/\; y_n\gneq\big|f(x)\big|\geqslant y_{n-1} \Big\} \subseteq\bigcup_{n=1} \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_n \subseteq \Omega$$ Es decir, $$ \big|f(x)\big|\geqslant y_{n-1} \quad \forall x\in E_n$$ Por lo que podemos reescribir $y_{n-1}$ como la función escalonada $ y_{n-1}\,\chi\raise-.5ex\hbox{}_{E_n}(x)$ , que vale exactamente $y_{n-1}$ en $E_n$ y "fuera" no aporta nada. Aplicando la monotonía de la integral se tiene que: $$ \big|f(x)\big|\geqslant y_{n-1}\,\chi\raise-.5ex\hbox{}_{E_n}(x) \implies \int\limits_{E_n} \! \big|f(x)\big| \,\text{d}\mu(x) \geqslant \int\limits_{E_n} \! \ y_{n-1}\,\chi\raise-.5ex\hbox{}_{E_n}(x) \,\text{d}\mu(x) \triangleq y_{n-1}\,\mu(E_n)$$ Esto es para un único $E_n$, por lo que si se considera la unión de todos los ubconjuntos, el supraconjunto $E$ , se tiene que: $$ \big|f(x)\big|\geqslant \sum_{n=1} y_{n-1}\,\chi\raise-.5ex\hbox{}_{E_n}(x) \overset{\text{def}}{=} \phi_n(x) \implies \int\limits_{E} \! \big|f(x)\big| \,\text{d}\mu(x) \geqslant \int\limits_{E} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_{n-1}\,\mu(E_n)$$ ¿Hemos terminado? Casi. Hemos encontrado una cota inferior, pero no la óptima, esa es su supremo, $\displaystyle \sup\Bigg\{\sum_{n=1} y_{n-1}\,\mu(E_n) \Bigg\}$ , que se puede hallar al ir refinando los conjuntos elementales. A este valor lo acuño como suma o integral inferior de Lebesgue $$ \underline{\int}\limits_{[a,b]} \! \big|f(x)\big| \,\text{d}\mu(x) \overset{\text{def}}{=} \sup_{\phi_n \;\underset{\mu\text{ae}}{\leqslant}\; f}\Bigg\{\int\limits_{[a,b]} \! \phi_n(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} y_{n-1}\,\mu(E_n) \Bigg\} $$
Suma inferior de Lebesgue
Con estos mismos conjuntos se puede hallar fácilmente la integral en espacios $L^p$ de $|f|^p$ donde es: $$ \underline{\int}\limits_{[a,b]} \! \big|f(x)\big|^p \,\text{d}\mu(x) \overset{\text{def}}{=} \sup_{\phi_n \;\underset{\mu\text{ae}}{\leqslant}\; f}\Bigg\{\int\limits_{[a,b]} \! {\phi_n}^p(x) \,\text{d}\mu(x) \triangleq \sum_{n=1} {y_{n-1}}^p\,\mu(E_n) \Bigg\} $$



Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

lunes, 4 de octubre de 2021

(709) - Función simple y límite de una sucesión de funciones escalonadas (con GIFs descargables)

En la última entrada comentamos cómo podemos crear una función escalonada, es decir, constante en conjuntos casi a modo de una escalera.
Estos conjuntos no son necesariamente intervalos, sino que pueden ser uniones de intervalos monopuntuales o no. Por ejemplo, se puede definir el conjunto donde la función seno, $\operatorname{sen}(x)$, sea positiva, es decir, $\displaystyle E = \{x\in\mathbb{R} / \operatorname{sen}(x) \geqslant 0 \} = \bigcup_{n\in\mathbb{Z}} \big[2 \pi n, (2n+1)\pi\big]$ , es decir, es unión (disjunta) de infinitos intervalos.
$$\begin{array}{ cccc }\displaystyle \phi_n \overset{\text{def}}{=} \sum_{k=1}^n y_k \chi\raise-.5ex\hbox{}_{E_k} : & \Omega & \longrightarrow & \{0\}\cup\big\{y_k\;\big/\; k=1,\cdots , n \big\} \subsetneq\mathbb{R} \\& x & \longmapsto & \displaystyle \begin{matrix} 0 & \big| & x\not\in \displaystyle \bigcup_{k=1}^n \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_k \subseteq \Omega\\ y_k & \big| & x\in E_k \subseteq \displaystyle \bigcup_{k=1}^n \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_k \subseteq \Omega \end{matrix}\end{array}$$ Es decir, a esta función $\phi_n(x)$ se le asigna el valor $0$ si $x$ no está en ningún $E_k$ (y por lo tanto no está en la unión de todos), y si sí está en $E_k$ , para algún $k$ entre $1,\cdots,n$ , se le asigna $y_k$ . Lo bueno de esta definición es que se puede "ir hacia atrás" y averiguar, dado un valor de la función $\phi_n(x)$ , de qué conjunto proviene ese $x$ , es decir: $\displaystyle {\phi_n}^{[-1]}(y_k) = {\phi_n}^{[-1]}\big(\{y_k\}\big) = E_k$ lo que hace que para el conjunto de todos los poibles valores se tenga $\displaystyle {\phi_n}^{[-1]}\big(\{y_k\;\big/\; k=1,\cdots , n\}\big) = \bigcup_{k=1}^n \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_k $ . Estos conjuntos elementales $E_k$ se tienen que contruir de una manera que luego nos faciliten la cuentas, ya que estamos intentando aproximar la integral de una función $f(x)$ genérica por la de una función escalonada $\phi_n(x)$ contruida a partir de dichos conjuntos elementales $E_k$ . Los conjuntos de la forma $\displaystyle E_k = \Big\{ x\in\Omega \;\big/\; f(x)=y_k \in \mathbb{R} \Big\} \subseteq\bigcup_{k=1}^n \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_k \subseteq \Omega $ nos pueden dar problemas. Por ejemplo, la función seno, $\operatorname{sen}(x)$ , toma cualquier valor, $1$ por ejemplo, en puntos separados, es decir en intervalos unipuntuales. ¿Cuánto mide de ancho un punto? Nada, cero. Por ello la medida de todos esos conjuntos puede ser $0$ y no nos puede decir mucho. Recordemos que la integral se puede entender como una forma de medir áreas, que solemoss hacer por medio de rectángulos usualmente, donde se necesita una base y una altura. Si las bases son todas $0$ nos daría una área $0$ .

Dada una sucesión $\{y_n\}_{n=0}$ de números positivos, voy a definir y acuñar yo dos familias de conjuntos elementales que nos van a ayudar. Estos conjuntos están prediseñados para poder usar la Desigualdad de Chebyshov ( [Чебышёв - Čebyšëv]) o con la misma idea que esta:
Los conjuntos elementales de Riemann-Lebesgue o conjuntos elementales asociados de Lebesgue , que nos permitirán contruir la integral de Lebesgue coon una idea análoga a la de Riemann. $$ E_n = \Big\{ x\in\Omega \;\big/\; 0\leqslant\big|f(x)-y_n\big|\lneq\varepsilon \Big\} \subseteq\bigcup_{n=1} \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_n \subseteq \Omega $$
Función $\phi_n(x)$ creada con los conjuntos elementales de Riemann-Lebesgue



Los conjuntos elementales de Darboux-Lebesgue o conjuntos elementales superiores e inferiores de Lebesgue , que nos permitirán contruir la integral de Lebesgue coon una idea análoga a la de Darboux. $$ E_n = \Big\{ x\in\Omega \;\big/\; y_n\gneq\big|f(x)\big|\geqslant y_{n-1} \Big\} \subseteq\bigcup_{n=1} \hspace{ -10.125pt }\raise-1.2ex\hbox{|} \hspace{ 2.5mm }E_n \subseteq \Omega$$
Función $\phi_n(x)$ inferior creada con los conjuntos elementales de Darboux-Lebesgue

Función $\phi_n(x)$ superior creada con los conjuntos elementales de Darboux-Lebesgue


 
Con esta contrucción de los conjuntos $E_n$ se puede definir la función $\phi_n(x)$ y su integral, que al ser los conjuntos disjuntos nos facilitan muchas cuentas: $$ \phi_n(x) \overset{\text{def}}{=} \sum_{n\in\mathbb{N}_0} y_n \chi\raise-.5ex\hbox{}_{E_n}(x) \implies \int\limits_{\bigcup \hspace{ -6.5pt }\raise-.5ex{\scriptsize | } \hspace{3pt} E_n} \!\! \phi_n \,\text{d}\mu \triangleq \sum_{n\in\mathbb{N}_0} y_n \, \mu(E_n) $$ Refinando los elementos en la secuencia $\{y_n\}_{n=0}$ o refinando el valor de $\varepsilon$ se llega a una función que cada vez dista tan poco como queramos. Recordamo que no hemos hablado de distancia, y que ningún artículo de este blog pretende ser un sustituto de ninguna asignatura. Al final pretendemos crear una sucesión de funciones escalonadas tal que $\displaystyle \lim_{n\to\infty}\phi_n(x) \triangleq f(x)$ ya que se pueden construir funciones $\phi(x)$ tales que $\phi(x) \underset{\mu\text{ae}}{\overset{\text{def}}{=}} f(x) $ ( $\phi$ se define para que sean igual casi siempre a $f$ ), lo que implica $\displaystyle \int\limits_I \! \phi \,\text{d}\mu \triangleq \int\limits_I \! f\,\text{d}\mu \iff \int\limits_I \! \big| f-\phi\big| \,\text{d}\mu \triangleq 0 $ . En la próxima entrada veremos cómo hallar dichas integrales.

 
Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

martes, 21 de septiembre de 2021

(701) - Función característica [indicatriz] y función simple (con GIFs descargables)

Veamos primero de dónde viene el nombre de esta función y luego lo relacionaremos con qué hace: El nombre de característica viene de carácter, del latín character, y este del griego antiguo χᾰρᾰκτήρ - khărăktḗr «sello, seña, instrumento para grabar», derivado de χᾰρᾰ́σσω - khărắssō «yo afilo, hago una incisión, marco, acuño, escribo», (por eso se escribe con la letra griega $\chi$) ya que esta función da el carácter de cierto conjunto. Veamos cómo actúa: $$\begin{array}{ cccc }
\chi\raise-.5ex\hbox{|}_A : & \Omega & \longrightarrow & \{0,1\}\subsetneq\mathbb{R}\\
& x & \longmapsto & \displaystyle \begin{matrix} 0 & \big| & x\not\in A \subseteq \Omega \\ 1 & \big| & x\in A \subseteq \Omega \end{matrix}
\end{array}$$ Es decir, la función característica necesita un conjunto $A$ sobre del que tener una referencia a la hora de evaluar: para cada valor de $x$ en un supraconjunto (conjunto universal) $\Omega$ comprueba si está o no en $A$ , donde $A\subseteq\Omega$ . Según la respuesta a esta pregunta de sí/no devuelve $1$ o $0$ respectivamente.
En contextos de probabilidad y estadística se suele llamar función indicatriz (o indicadora) ya que indica, dice, afirma o niega que un elemento $x$ esté o no en el conjunto $X$ , por lo que se suele escribir como $\mathbf{1}_X$ o $\operatorname{I}_X$ . Del hecho de que nos devuelva $\text{NO,YES}$ hace, ya fuere por su genialidad o por su utilididad, que se use mucho en informática y en lógica booleana. $$\begin{array}{ cccc }
\mathbf{1}_X \; , \;\operatorname{I}_X : & \Omega & \longrightarrow & \big\{\text{NO,YES}\big\} \\
& x & \longmapsto & \displaystyle \begin{matrix} \text{NO} & \big| & x\not\in X \subseteq \Omega \\ \text{YES} & \big| & x\in X \subseteq \Omega \end{matrix}
\end{array}$$ Sin embargo, puede ser que no nos interese que la función nos devuelva los valores $\{0,1\}$ , sino que nos interesa que en un conjunto $A$ nos devuelva un valor determinado, $a$ (cuando pertenezca a dicho conjunto). Con esta premisa solo hay que reescalar la función característica, que llamamos función escalonada, pues hay un escalón en el conjunto $A$ , con una posible discontinuidad en $\operatorname{Fr}(A)$ : $$\begin{array}{ cccc }
a\chi\raise-.5ex\hbox{|}_{A} : & \Omega & \longrightarrow & \big\{0,a\big\}=a\{0,1\}\subsetneq\mathbb{R}\\
& x & \longmapsto & \displaystyle \begin{matrix} 0 & \big| & x\not\in A \subseteq \Omega \\ a & \big| &x\in A \subseteq \Omega \end{matrix}
\end{array}$$
El campo eléctrico como $E(t) = a\, \chi\raise-.5ex\hbox{|}_{A}(t)$ con $A$ unión de intervalos


Es más, se puede usar una técnica muy similar a esta para definir una sucesión de conjuntos, $\displaystyle \{A_k\}_{k=1}^n$ , donde una función $f(x)$ tome en cada instancia un valor determinado, $a_k$ : $ A_k \overset{\text{def}}{=} \Big\{ x\in\Omega \;\big/\; f(x)=a_k \in \mathbb{R} \Big\} \subseteq \Omega $ , creando así una función escalonada.
Una vez ya con dichos conjuntos uno puede aproximar una función $f(x)$ mediante la suma de sendas funciones características reescaladas (escalonada): $$\begin{array}{ cccc }
\displaystyle \sum_{k=1}^n y_k \chi\raise-.5ex\hbox{|}_{E_k} : & \Omega & \longrightarrow & \{0\}\cup\big\{y_k\big/ k=1,\cdots , n \big\} \subsetneq\mathbb{R} \\
& x & \longmapsto & \displaystyle \begin{matrix} 0 & \big| & x\not\in \displaystyle \bigcup_{k=1}^n \hspace{ -9.25pt }\raise-1.2ex\hbox{|} \hspace{ 5pt }E_k \subseteq \Omega \\ y_k & \big| & x\in E_k \subseteq \displaystyle \bigcup_{k=1}^n \hspace{ -9.25pt }\raise-1.2ex\hbox{|} \hspace{ 5pt }E_k \subseteq \Omega \end{matrix}
\end{array}$$ Es más, los conjuntos $\displaystyle E_k \overset{\text{def}}{=} \Big\{ x\in\Omega \,\big/\, f(x)=y_k \in \mathbb{R} \Big\} \subseteq \bigcup_{k=1}^n \hspace{ -9.25pt }\raise-1.2ex\hbox{|} \hspace{ 5pt }E_k \subseteq \Omega $ , son disjuntos de forma que en dicha suma habrá al menos $(n-1)$ sumandos nulos, $0$ , y un posible sumando distinto de $0$ , ya que al ser disjuntos los conjuntos, si $\displaystyle x\in\bigcup_{k=1}^n \hspace{ -9.25pt }\raise-1.2ex\hbox{|} \hspace{ 5pt }E_k$ , entonces $x$ está en un único conjunto $E_k$ . El hecho de que los conjuntos sean disjuntos nos ayuda a la hora de futuras demostraciones y definiciones, y también para poder visualizarlo. Las funciones escalonadas que se escriben como una suma de características reescaladas (escalonadas), pero de intervalos disjuntos reciben el nombre de funciones simples.
Sucesión de funciones simples

Esta es solo una breve introducción a la función característica y a cómo aproximar una función $f(x)$ como suma de funciones de características, que es de lo que tratará el próximo artículo en una mayor profundidad.




Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

miércoles, 26 de mayo de 2021

(691) - El origen numérico de los logaritmos (con Teoría de Grupos)

Ya vimos en una entrada pasada cómo se propuso la prostaféreis, un algoritmo para agilizar el producto, pero aún así era muy costoso, largo, y tedioso. Por ejemplo, para calcular el producto de cinco números había que aplicarlo por lo menos tres veces con las sucesivas pérdidas de precisión en cada iteración. El matemático escocés John Napier of Merchinston ($1550-1617$) se le ocurrió una forma mejor. En términos modernos se puede imaginar su idea como buscar una aplicación $\psi$ que transformase un producto de elementos $xy$ del dominio en una operación $\star$ de sendas imágenes [de los factores]: un producto se convertía en operación computacionalmente mucho más fácil, $\star$ [luego veremos por cuál se decantó].

La aplicación satisface: $\psi(k\,xy) = \psi(x)\star\psi(y)$ para alguna constante $k$ , que se puede entender como un parámetro de reescala.
Para proceder se usarían los valores tanto $\psi(x)$ como $\psi(y)$ para hacer $\psi(x)\star\psi(y)=\psi(k\,xy)$ , y luego ver el qué argumento da $\psi(k\,xy)$ . Así pues solo hay que tener tabulado los valores $x\overset{\psi}{\mapsto}\psi(x)$ además de $y\overset{\psi}{\mapsto}\psi(y)$ (las búsquedas directas), asimismo como $\psi(k\, xy)\overset{\psi^{[-1]}}{\longmapsto} xy$ (la búsqueda inversa). El lector habitual del blog verá la rápida conexión con la prostaféresis.
 
Ya que el producto es conmutativo, la operación $\star$ también lo es: $$ \psi(k\,xy) = \psi(k\,yx) \implies \psi(x)\star\psi(y)=\psi(y)\star\psi(x) $$ Veamos que a su vez como el producto es asociativo, la operación $\star$ también lo es [usar $k^2$ sigue siendo un parámetro para simplificar resultados]: $$ \psi(k^2\,xyz) = \left\{ \begin{matrix} \psi(k\, (kxy)z) & = & \psi(kxy) \star\psi(z) & = & \big(\psi(x)\star\psi(y)\big)\star\psi(z)\\= & & = & & = \\\psi(k\, x(kyz)) & = & \psi(x) \star\psi(kyz) & = & \psi(x)\star\big(\psi(y)\star\psi(z)\big)\\ \end{matrix} \right.$$ Veamos cómo la operación $\star$ tiene un elemento neutro, $\psi(k^{-1})$ : $$ \psi(k\,tk^{-1})=\psi(t) = \psi(t)\star\psi(k^{-1}) = \psi(k^{-1})\star\psi(t)$$ Veamos ahora cómo todo elemento $\psi(t)$ tiene un elemento inverso $\psi(k^{-2}t^{-1})$ con la operación $\star$ [dada la conmutatividad de antes es tanto el inverso por la izquierda como por la derecha]: $$\psi(k\;t\,k^{-2}t^{-1})=\psi(k^{-1}) = \psi(t)\star\psi(k^{-2}t^{-1}) = \psi(k^{-2}t^{-1})\star\psi(t)$$ Sobre la aplicación $\psi$ queremos que sea inyectiva (elementos distintos tienen imágenes distintas), y además que sea biyectiva para que no haya problemas a la hora de multiplicar (que nos diera un posible producto erróneo). $$\begin{array}{ cccc }
\psi : & \mathbb{K}_1 & \longrightarrow & \mathbb{K}_2\\[2.5ex]
& t & \longmapsto & \psi(t) \\[8pt]
& k\,x_1\cdot x_2 & \longmapsto & \begin{matrix} \psi(x_1) & \star & \psi(x_2) \\ =&&= \\ y_1 & \star & y_2 \end{matrix}
\end{array} \qquad \begin{array}{ cccc }
\psi^{[-1]} : & \mathbb{K}_2 & \longrightarrow & \mathbb{K}_1 \\[2.5ex]
& z & \longmapsto & \psi^{[-1]}(z) \\[8pt]
& y_1 \star y_2 & \longmapsto & \begin{matrix} k & \psi^{[-1]}(y_1) & \cdot & \psi^{[-1]}(y_2)\\ & =&&= \\ k & x_1 & \cdot & x_2 \end{matrix}
\end{array}$$ Donde $\cdot$ es el producto usual en $\mathbb{K}_1$ , mientras que $\star$ es nuestra operación en $\mathbb{K}_2$ . La operación $\star$ realmente puede ser cualquiera que satisfaga las propiedades descritas, por lo que Napier usó $\star$ como la suma usual (según cuál se tome, cambia cómo es $\psi$ , por ejemplo con la suma se tiene que $\psi(k^{-1})=0$ para el neutro y $\psi(k^{-2}t^{-1})=-\psi(t)$ para el inverso). Llamó a su aplicación $\psi$ como logarithmus en latín, del griego antiguo λόγος (lógos) “palabra, razón” y ἀριθμός (arithmós) “número” , muy similar a la construcción número racional (también del latín) pero aquí el apellido racional indicando “razonadamente, con una razón de ser”. Napier definió su logaritmo $\operatorname{logN}$ : $$ n = 10^7\,\big(1-10^{-7}\,\big)^L \overset{\triangle}{\iff} L\overset{\text{def}}{=}\operatorname{logN} n$$ La relación entre el logaritmo de Napier , $\operatorname{logN}$ , y el logaritmo natural, $\ln$ , es: $$ \operatorname{logN} n \triangleq \frac{\displaystyle \ln\left(\frac{n}{10^7}\right)}{\ln\big(1-10^{-7}\,\big)} \iff \ln n \triangleq \ln\big(1-10^{-7}\,\big)\operatorname{logN} n + 7\ln 10$$ Es más, ambos para algún $n$ toman el mismo valor, $\displaystyle \frac{7\ln10}{1-\ln(1-10^{-7}\,)}$ . De esto se deducen las propiedades $$\begin{matrix} \displaystyle \operatorname{logN}\sqrt{x_1x_2\;} & = & \displaystyle \frac{\operatorname{logN}x_1+\operatorname{logN}x_2}{2} \\[3pt] \displaystyle \operatorname{logN}\big(10^{-7}x_1x_2\big) & = & \displaystyle \operatorname{logN}x_1+\operatorname{logN}x_2 \\[5pt] \displaystyle \operatorname{logN}\bigg(10^7\sqrt{\frac{x_1}{x_2}\;}\,\bigg) & = & \displaystyle \frac{\operatorname{logN}x_1-\operatorname{logN}x_2}{2} \\[3pt] \displaystyle\operatorname{logN}\Big(10^7\frac{x_1}{x_2}\Big) & = & \displaystyle \operatorname{logN}x_1-\operatorname{logN}x_2 \end{matrix}$$ Nótese que el logaritmo de Napier no satisface exactamente esas propiedades tan directas de los logaritmos a las que estamos muy habituados, en parte por la presencia de esa constante $10^{-7}$ . Unos pocos años después, Henry Briggs ($1561-1630$) simplifició en gran medida el trabajo de de Napier, creando el logaritmo briggsiano o común [decimal], $\log_{10}$ o también $\lg$ . Con este mero cambio, se popularizó muchísimo más el trabajo de Napier al hacerse más intuitivo, pues el logaritmo decimal de un número se puede entender como el número de cifras que tiene en su representación decimal (y las cifras del número original por cómo está entre dos unidades contiguas en una escala logarítmica decimal).
Ahora el algortimo para multiplicar $xy$ ha pasado a consultar los valores de $\log(x)$ además de $\log(y)$ [independientemente de la base], calcular $\log(x)+\log(y)$ y consultar en una búsqueda inversa el valor de $\operatorname{antilog}\big(\log(x)+\log(y)\big)$ (con respecto a la misma base que antes, siendo $\operatorname{antilog}$ la función antilogaritmo, es decir, la aplicación inversa al logaritmo). $$ xy = x\cdot y \iff xy = \operatorname{antilog}\big(\log(x)+\log(y)\big) $$ Es más, esto no se complica innecesariamente comparado con la prostaféresis, ya que: $$\prod_{k=1}^n x_k = x_1\cdot\ldots\cdot x_n \iff \prod_{k=1}^n x_k = \operatorname{antilog}\left(\sum_{k=1}^n\log(x_n)\right) $$ Que es una forma muy efectiva, útil y rápida para programar la función factorial, $x!$ , en algunos lenguajes como $R$ . Un pequeño esquema de lo que planteamos es: $$ \begin{matrix} \{x,y\} & \longrightarrow & x\cdot y \\ \underset{\text{Logartimo}}{\Downarrow} & & \underset{\text{Antilogaritmo}}{\Uparrow} \\ \big\{\log(x),\log(y)\big\} & \overset{\text{Suma}}{\implies} & \log(x)+\log(y) \end{matrix} $$ Para multiplicar varios números es mucho más efectivo usar logaritmos:
  • Para multiplicar números usando el algoritmo logarítmico, primero se hace una búsqueda directa de los logaritmos de los factores en tablas, se calcula su suma total, y por último con una búsqueda inversa se tiene el producto.
  • Para multiplicar números usando el algoritmo prostaferético, primero hay que hacer parejas y aplicar el algoritmo para cada una de las parejas (si hay un número impar de factores se omite uno y se lo lleva directamente a la próxima etapa), ahora hay que volver a hacer parejas con los productos intermedios y así recursivamente hasta que se llega al producto final.
Para multiplicar dos números en prostaféresis hay que hacer primero dos búsquedas inversas, una suma y una resta, dos búsquedas directas, y por último una suma y dividir entre $2$ , mientras que con logaritmos solo hay que hacer primero dos búsquedas directas, una suma, y por último una búsqueda inversa.


Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

viernes, 2 de abril de 2021

(683) - Polinomios logarítmicos y series logarítmicas

Supongamos que tenemos un número $x$ y queremos saber de qué número $t$ es su logaritmo [natural], $x=\ln(t)$ : sería tan fácil como hallar $t=e^x$ . Sin embargo, supongamos que tenemos una calculadora muy básica que solo suma, resta, divide y multiplica; no tiene necesariamente potencias y el número $e$ ni está, la típica calculadora en cotabilidad. ¿Cómo hallaríamos la solución? La solución viene dado por una serie de polinomios logarítmicos (donde podemos obtener el grado de aproximación que queramos con una suma parcial): $$\sum_{n=0}^\infty \frac{1}{n!}\ln^n(x) = x \qquad \sum_{n=0}^\infty \frac{(-1)^n}{n!}\ln^n(x) = \frac{1}{x}$$ Es más, siguiendo este resultado, uno puede ver cómo expresar cualquier polinomio “clásico” de grado $N$ , $P_N(x)$ , con coeficientes $\big(a_k\big)_{k=0}^N$ , como un polinomio logarítmico_$$P_N(x) = \sum_{k=0}^N a_k x^k = \sum_{k=0}^N a_k \sum_{n=0}^\infty \frac{k^n}{n!}\ln^n(x) = \sum_{n=0}^\infty \frac{\ln^n(x)}{n!}\sum_{k=0}^N a_k k^n$$ ¿Cómo se obtienen estas relaciones? Muchas se sacan usando series de Taylor y sustituyendo $x\mapsto\ln(t)$ . Por ejemplo si tomamos la del coseno y seno hiperbólicos:
$$\sum_{n=0}^\infty \frac{1}{(2n)!}\ln^{2n}(x) = \frac{x^2+1}{2x} \qquad \sum_{n=0}^\infty \frac{1}{(2n+1)!}\ln^{2n+1}(x) = \frac{x^2-1}{2x}$$Es más, siquiendo este razonamiento uno puede hallar una expresión cerrada en términos únicamente de logaritmos del logaritmo integral: $\displaystyle \operatorname{li} \overset{\text{def}}{=}―\hspace{-11.5pt}\int_0^x \frac{1}{\ln t} \;\text{d}t$ a través de la expresión $\operatorname{li}(x)\triangleq\operatorname{Ei}\big(\ln(x)\big)$ , de una función íntimamente relacionada, la exponencial integral $\displaystyle \operatorname{Ei}(x) \overset{\text{def}}{=}―\hspace{-11.5pt}\int_{-\infty}^x\frac{e^t}{t}\;\text{d}t$ : $$\operatorname{li}(x) = \gamma+\ln\!\big|\!\ln(x)\big| + \sum_{n=1}^\infty \frac{1}{n \, n!}\ln^n(x)$$ Uno puede ver fácilmente que lo que hemos estado haciendo hasta hora es buscar expresiones “bomitas” que tengan alguna exponencial de por medio, y haciendo un cambio de variable tontorrón obtenemos expresiones en términos que nos interesan, es decir, pasamos de series polinómicas en $ \mathbb{R}[x]$ tras un cambio de variable a series polinómicas logarítmicamente en $ \mathbb{R}\big[\ln(t)\big] \cong \mathbb{R}[x]/(t-e^x) \cong \mathbb{R}[x]/\big(\ln(t)-x\big) $ . Es más, $\big\{ \ln^k(t) \big\}_{k=0}^N$ conforman una base de $\mathbb{C}_N\big[\ln(t)\big]$ para cualquier $N$ .
Además esto es tan importante que en notación asitótica si uno pone una virgulilla, $ \widetilde{\mathcal{O}} , \widetilde{ {\scriptstyle \mathcal{O}} }, \widetilde{\Omega},\cdots$ , significa que no está acotado por dicha función como tal sino como dicha función por la $\alpha$-ésima potencia del logaritmo de dicha función para algún $\alpha$ , es decir: $$g(x) \in \widetilde{\mathcal{O}}\Big(f(x)\Big) \!\overset{\;\Delta}{\iff} g(x) \in \mathcal{O}\Big(f(x)\,\ln^\alpha\!\!\big(f(x)\big)\Big) \\ g(x) \in \widetilde{{\scriptstyle \mathcal{O}}}\Big(f(x)\Big) \!\overset{\;\Delta}{\iff} g(x) \in {\scriptstyle \mathcal{O}}\Big(f(x)\,\ln^\alpha\!\!\big(f(x)\big)\Big) \\ g(x) \in \widetilde{\Omega}\Big(f(x)\Big) \!\overset{\;\Delta}{\iff} g(x) \in \Omega\Big(f(x)\,\ln^\alpha\!\!\big(f(x)\big)\Big)$$ Veamos dos ejemplos
  1. El algoritmo bitonic sort tiene un coste operacional de $\widetilde{\mathcal{O}}(n)$ , en particular, de $\mathcal{O}\Big(n\ln^2(n)\Big)$ .
  2. El estimador de medianas repetidas (Spiegel): por fuerza bruta tiene un coste operativo de $\mathcal{O}(n^2) \subsetneq \widetilde{\mathcal{O}}(n^2)$ ; usando téctinas sofisticadas, $\mathcal{O}\big(n \ln^2(n)\big) \subsetneq \widetilde{\mathcal{O}}(n)$ ; en tiempo esperado randomizado, $\mathcal{O}\big(n \ln(n)\big) \subsetneq \widetilde{\mathcal{O}}(n)$ ; pero en un algoritmo on-line con un tiempo de actualización $\mathcal{O}\big(n\big) \subsetneq \widetilde{\mathcal{O}}(n)$ .
Un alumno de matemáticas ya se estará preguntando cómo aplicar esto y a raíz de qué sale este artículo. El Teorema de Aproximación polinómica de Weierstraß nos asegura que para una función continua $f(x)$ en el compacto $I=[a,b]\subset\mathbb{R}$ existe una sucesión de polinomios “clásicos” $ \big\{P_n(x)\big\}_{n=1}^\infty$ que converge uniformemente en $I$ hacia $f(x)$ (se pueden tomar una subsucesión de estos polinomios “clásicos” para que sean de grado ascendente estrictamente) . En particular, dado $\varepsilon > 0$ , existe un polinomio “clásico” $P(x)$ tal que: $$\Big|f(x) − P(x)\Big| < \varepsilon \qquad \forall x\in I=[a,b]$$ Es decir, que si repetimos el cambio de variable $x\mapsto\ln(t)$ , y denotando $\varphi(t) = f\big(\ln(t)\big) = \big(f\circ\ln\big)(t) $ $$\Big|\varphi(t) − P\big(\ln(t)\big)\Big| < \varepsilon \qquad \forall t\in J=e^I=\big[e^a,e^b\big] \iff \ln(t)\in I$$ El razonamiento que hemos hecho aquí es muy similar al que se suele hacer para introducir los polinomios trigonométricos, sin embargo, en estos últimos se sustituía la $n$-ésima potencia por el $n$-ésimo armónico (ya que el $n$-ésima potencia se podía escribir como una suma de los $k$-ésimos armónicos con $k=1,\cdots,n$ y es más fácil entender y trabajar con una onda como suma de armónicos) . Con los logaritmos no podemos hacer lo mismo ya que $\log(ab)=\log(a)+\log(b)$ por lo que tenemos que $ \big\{ \ln(kt) \big\}_{k=1}^N \cong \{1\} \cup\hspace{ -6.5pt }\raise-.25ex{\shortmid}\hspace{3pt} \{\ln t\}$ . Como último comentario hay ciertas propiedades compartidas: tanto la serie de Taylor de un polinomio “clásico” como la serie de Fourier de un polinomio trigonométrico tienen un número finito de términos, asimismo con un polinomio logarítmico con su expansión logarítmica. Sin embargo, si bien la derivada y/o la integral de un polinomio “clásico” y de un polinomio trigonométrico siguen siendo un polinomio “clásico” y de un polinomio trigonométrico (respectivamente), no se conserva para polinomios logarítmicos: $$ \frac{\text{d}}{\text{d}x} \ln^N(x) = N\frac{\ln^{N-1}(x)}{x} \qquad \int \ln^N(x)\;\text{d}x = x\sum_{k=0}^N (-1)^{N-k} \frac{N!}{k!}\ln^k(x)$$ Las series logarítmicas tienen un estudio en el intervalo $t\in\left[\frac{1}{e},e\right]\implies\ln(t)\in[-1,1]$ muy útil y fácilmente manejable (tipos de convergencia): $$\Bigg| \sum_{n=0}^\infty \lambda_n \ln^n(x) \Bigg| \leqslant \sum_{n=0}^\infty \Big|\lambda_n \ln^n(x) \Big| \leqslant \sum_{n=0}^\infty |\lambda_n |$$ Como curiosidad, se puede expresar la exponencial, $e^t$ , como una doble serie logarítmica. Es más, si una función tiene desarrollo de Taylor, se puede expresar como una serie logarítmica: $$e^t = \sum_{n=0}^\infty \frac{1}{n!} \sum_{k=0}^\infty \frac{n^k}{k!} \ln^k(t)$$

Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

(677) - Aztecas, mayas y galos - Sistema de numeración vigesimal (Base 20)

Estamos en el año $2021$ después de Jesucristo. Toda Europa está ocupada por el sistema decimal… ¿Toda? ¡No! Una aldea poblada por irreductibles galos resiste, todavía y como siempre, al invasor. [...]
Recordemos primero que uno y uno son dos independientemente de la lengua en la que nos comuniquemos y del sistema de numeración que usemos. Uno y uno son dos siempre y lo son independientemente de y en este artículo. Otra cosa es cómo representemos “$1$” o “$2$” y cómo veamos las asociaciones de los números a la hora de ordenarlos y organizarlos (decena, docena, quincena, veintena,...) El otro día un profesor mío, resolviendo un problema en el que descomponíamos un número según su expresión decimal, dijo -¿Por qué usamos el sistema decimal? [Extendió sus manos] Porque tenemos diez dedos.
Esta afirmación, obviando amputados y polidáctiles, es cierta aunque subjetiva a la cultura: realmente en español uno tiene $20$ dedos, pero en inglés los pulgares (thumbs) no se consideran dedos de la mano (fingers) que distinguen claramente de los dedos de los pies (toes). Entonces, ¿por qué no usan o bien un sistema de numeración binario ($\{0,1\}$) o bien uno octal ($\{0,1,2,3,4,5,6,7\}$)? Es más, si usamos un sistema decimal, $10$ , ¿por qué usamos uno duodecimal, $12$ , para contar huevos y agujas? Es decir, ¿por qué usamos docenas y gruesas (docenas de docenas) y no todo en la misma base? Es una pregunta difícil. En Tagalo (lengua mayoritaria en Filipinas), por ejemplo, se utilizan los números en español para las horas y temas de dinero, mientras que usan los numerales prehispánicos para el resto de cosas. Incluso, hay lenguas en Papúa Nueva Guinea que usan un sistema de numeración ternaria, $3$ , para contar ciertos objetos, mientras que utilizan uno cuaternario, $4$ , para otros.

Veamos tres culturas con sistemas de numeración vigesimal, $20$ : la azteca (nativa del valle de México-Anáhuac), la maya (nativa de la Península del Yucatán), ambas de Mesoamérica, y los celtas galos, de la Galia. Los galos usaban un sistema de numeración vigesimal, que pervivió a la conquista romana. Es más, todavía se pueden ver vestigios en francés (aunque en Bélgica y Suiza han desaparecido las formas vigesimales por otras decimales). Veamos una comparación:
$$ \begin{matrix} \text{Número} & \text{Azteca (Náhuatl Clásico)} & \text{Maya yucateco} & \text{Francés} \\ 0 & - & - & \text{zéro} \\ 1 & \text{ce} & \text{hun} & \text{un} \\ 2 & \text{ōme} & \text{ka’ah} & \text{deux} \\ 3 & \text{ēyi} & \text{óox} & \text{trois} \\ 4 & \text{nāhui} & \text{kan} & \text{quatre} \\ 5 & \text{mācuīlli} & \text{ho’} & \text{cinq} \\ 6 & \text{chicuace} (5 \& 1) & \text{wak} & \text{six} \\ 7 & \text{chicōme} (5 \& 2) & \text{uk} & \text{sept} \\ 8 & \text{chicuēyi} (5 \& 3) & \text{waxak} & \text{huit} \\ 9 & \text{chiucnāhui} (5 \& 4) & \text{bolon} & \text{neuf} \\ 10 & \text{mahtlāctli} & \text{lahun} & \text{dix} \\ 11 & \text{mahtlāctli once} (10 \& 1) & \text{buluk} (9\& 2) & \text{onze} \\ 12 & \text{mahtlāctli omōme} (10 \& 2) & \text{lahkaʼa} (10\& 2) & \text{douze} \\ 13 & \text{mahtlāctli omēyi} (10 \& 3) & \text{óox lahun} (3\& 10) & \text{treize} \\ 14 & \text{mahtlāctli onnāhui} (10 \& 4) & \text{kan lahun} (4\& 10) & \text{quatorze} \\ 15 & \text{caxtōlli} & \text{ho’ lahun} (5\& 10) & \text{quinze} \\ 16 & \text{caxtōlli once} (15 \& 1) & \text{wak lahun} (6\& 10) & \text{seize} \\ 17 & \text{caxtōlli} (15 \& 2) & \text{uk lahun} (7\& 10) & \text{dix-sept (10 & 7)} \\ 18 & \text{caxtōlli omōme} (15 \& 3) & \text{waxak lahun} (8\& 10) & \text{dix-huit (10 & 8)} \\ 19 & \text{caxtōlli onnāhui} (15 \& 4) & \text{bolon lahun} (9\& 10) & \text{dix-neuf (10 & 9)} \\ 20 & \text{cempōhualli} (1\cdot 20^1) & \text{hun kʼáal} (1\cdot 20^1) & \text{vingt} \\ 40 & \text{ōmpōhualli} (2\cdot 20^1) & \text{ka’ kʼáal} (2\cdot 20^1) & \text{quarante} \textit{(*deux vins)} \\ 60 & \text{ēyipōhualli} (3\cdot 20^1) & \text{óox kʼáal} (3\cdot 20^1) & \text{soixante} \textit{(*trois vins)} \\ 80 & \text{nāppōhualli}(4\cdot 20^1) & \text{kan kʼáal} (4\cdot 20^1) & \text{quatre-vingts} (4\cdot 20^1) \\ 100=10^2 & \text{mācuīlpōhualli} (5\cdot 20^1) & \text{ho’ kʼáal} (5\cdot 20^1) & \text{cent} \\ 400= 20^2 & \text{centzontli} (1\cdot 20^2) & \text{hun bak} (1\cdot 20^2) & \text{quatre-cents} \\ 8.000= 20^3 & \text{cenxiquipilli} (1\cdot 20^3) & \text{hun pik} (1\cdot 20^3) & \text{huit-mil} \\ 160.000= 20^4 & \text{cempōhualxiquipilli} (1\cdot 20^1\cdot 20^3) & \text{hun calab} (1\cdot 20^4) & \text{cent soixante mille} \\ 3.200.000 = 20^5 & \text{centzonxiquipilli} (1\cdot 20^2\cdot 20^3) & \text{hun kinchil} (1\cdot 20^5) & \text{trois millions deux cent mille} \\ 64.000.000= 20^6 & \text{cexiquipilxiquipilli} (1\cdot 20^3\cdot20^3 ) & \text{hun alau} (1\cdot 20^6) & \text{soixante quatre millions} \\ 1.280.000.000= 20^7 & \textit{centzontltzonxiquipilli} (1\cdot 20^2\cdot20^{2+3}) & \text{hun hablat} (1\cdot 20^7) & \text{un milliard deux cent quatre-vingts millions} \\ \end{matrix} $$ La palabra en nahuált para $20^6$ lo he visto como cempōhualtzonxiquipilli, $1\cdot 20^1\cdot20^{2+3}$ , o como cexiquipilxiquipilli , $1\cdot 20^3\cdot20^3$ . Se forma similar en español se tiene diez ($10^1$), cien ($10^2$), mil ($10^3$), diez mil ($10^4$), cien mil ($10^5$), millón ($10^6$), y algunos que ya suben drásticamente de órdenes de magnitud como millardo ($10^9$), billón ($10^{12}$), billardo ($10^{15}$), trillón ($10^{18}$), …
La lengua y la cultura afecta a cómo nos comunicamos, por ejemplo en lengua azteca «ciempiés» es “centzommāyeh” que significa «el que tiene $400$ brazos/manos».
El sistema de numeración vigesimal necesita $20$ cifras diferentes para representar cualquier número (de ahí su nombre), que normalmente usa $\{0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F,G,H,I,J\}$ . Lo bueno de tener un sistema de numeración vigesimal es que se suelen necesitar menos cantidad de cifras que en uno decimal para representar el mismo número (y que $20$ tiene más divisores que $10$, por lo que entre otras cosas uno puede dividir $20$ entre $4$ con resto $0$ , pero no puede hacer lo mismo con $10$, es decir, con base $20$ uno puede sibdividir en grupos de $4$ y con base $10$ , no ), por ejemplo $2021=2\cdot10^3+0\cdot10^2+2\cdot10^1+1\cdot10^0=5\cdot20^2+1\cdot20^1+1\cdot20^0$ , por lo que ${2021}_{10}={511}_{20}$ (ambos números representan la misma cantidad, solo en diferente base de numeración, por ejemplo en binario sería ${11.111.100.101}_2$) .
Poder elegir una base correcta es muy útil según la situación, por ejemplo un veinteavo en base decimal es ${0\text{'}05}_{10}$ , mientras que en base vigesimal es ${0\text{'}1}_{20}$ (con la mitad de cifras tras la coma). Es más, un medio en sistema de numeración decimal es ${0\text{'}5}_{10}$ , en sistema vigesimal ${0\text{'}A}_{20}$ , y en sistema ternario ${0\text{'}\overline{1}}_{3}$ (que es periódico) , mientras que un tercio es en sistema de numeración decimal es ${0\text{'}\overline{3}}_{10}$ , en sistema vigesimal ${0\text{'}\overline{6D}}_{20}$ , y en sistema ternario ${0\text{'}1}_{3}$ (que no es periódico).
Elegir un sistema de numeración u otro al final viene a raíz de ver cuál es más útil a la hora de hacer ciertas cuantas, sobre todo divisiones. Normalmente se buscan números con muchos divisores pero no muy grandes (se suele por lo general evitar números primos medianos o grandes como $11,13,17,19,\cdots$ ya que solo son divisibles entre $1$ y sí mismos). Veamos algunos ejemplos: $$ \begin{matrix} D(2) & = & \{1,2\} \\ D(3) & = & \{1,3\} \\ D(10) & = & \{1,2,5,10\} \\ D(12) & = & \{1,2,3,4,6,12\} \\ D(20) & = & \{1,2,4,5,10,20\} \\ D(60) & = & \{1,2,3,4,5,6,10,12,15,20,30,60\} \\ D(100) & = & \{1, 2, 4, 5, 10, 20, 25, 50, 100\} \\ D(240) & = & \{1,2,3,4,5,6,8,10,12,15,16,20,24,30,40,48,60,80,120,240\} \\ D(252) & = & \{1, 2, 3, 4, 6, 7, 9, 12, 14, 18, 21, 28, 36, 42, 63, 84, 126, 252\} \\ D(960) & = & \{1, 2, 3, 4, 5, 6, 8, 10, 12, 15, 16, 20, 24, 30, 32, 40, 48, 60, 64, 80, 96, 120, 160, 192, 240, 320, 480, 960\} \\ D(1.000) & = & \{1, 2, 4, 5, 8, 10, 20, 25, 40, 50, 100, 125, 200, 250, 500, 1.000\} \\ D(1.008) & = & \{1, 2, 3, 4, 6, 7, 8, 9, 12, 14, 16, 18, 21, 24, 28, 36, 42, 48, 56, 63, 72, 84, 112, 126, 144, 168, 252, 336, 504, 1.008\} \\ \end{matrix} $$ Para ponerlo un poco en contexto los ordenadores usan el binario, aunque algunos en los inicios usaron el ternario; el sistema decimal es al que estamos habituados, y en menor medida el duodecimal; el vigesimal tiene dos divisores más que el decimal y es sobre el que va este artículo. Los babilonios usaban el sistema sexagesimal (de ahí que los minutos y segundos vayan de $60$ en $60$); el de $240$ y $960$ se usaba más o menos en Gran Bretaña hasta $1971$ cuando la libra estaba dividida en $240$ peniques (a través de una libra $20$ chelines, y un chelín $12$ peniques) o en $960$ farthings (un penique $4$ farthings). Hasta el $\text{siglo XIX}$ a veces también se usaban las guineas (al cambio una guinea $21$ chelines, es decir, una libra y un chelín), tal que una guinea eran $252$ peniques o $1.008$ farthings. Dada las diferentes formas en las que se podía subdividir era muy útil, aunque no tan trivial poder pasar de una subunidad a una supraunidad (a no ser que el sistema de numeración que tuviesen para representar esos números también siguiera ese esquema). En parte por ello en $1971$ se decimalizó la libra esterñona pasando a $1$£$=100$p .

Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

(673) - Alfabeto griego. Nombres y comandos en LaTeX

Esta entrada solo pretende poner en relación el alfabeto griego (de ahí el nombre ya que las primeras letras del "abecedario" helénico son alfa, $\alpha$ , y beta, $\beta$ ) y ponerlo en relación mayúsculas con minúsculas, su nombre en español, en griego clásico y sendos comandos en $\LaTeX{}$ . $$ \begin{matrix} \text{Mayúscula} & \text{Minúscula} & \text{Nombre} (\textit{Transliterado}) & \text{Comando }\LaTeX{} \\ \text{A} & \alpha & \text{alfa } (\textit{álpha}) & \backslash\text{alpha} \\ \text{B} & \beta & \text{beta } (\textit{bē̃ta}) & \backslash\text{beta} \\ \Gamma & \gamma & \text{gamma } (\textit{gámma}) & \backslash\text{gamma} \\ \Delta & \delta & \text{delta } (\textit{délta}) & \backslash\text{delta} \\ \text{E} & \epsilon , \varepsilon & \text{épsilon } (\textit{eî/è psilón}) & \backslash\text{epsilon} \\ \text{Z} & \zeta & \text{zeta } (\textit{zdē̃ta}) & \backslash\text{zeta} \\ \text{H} & \eta & \text{eta } (\textit{hē̃tta/ē̃ta}) & \backslash\text{eta} \\ \Theta & \theta & \text{theta } (\textit{thē̃ta}) & \backslash\text{theta} \\ \text{I} & \iota & \text{iota } (\textit{iō̃ta}) & \backslash\text{iota} \\ \text{K} & \kappa & \text{kappa } (\textit{káppa}) & \backslash\text{kappa} \\ \Lambda & \lambda & \text{lambda } (\textit{lámbda}) & \backslash\text{lambda} \\ \text{M} & \mu & \text{mu } (\textit{mȳ}) & \backslash\text{mu} \\ \text{N} & \nu & \text{nu } (\textit{nȳ}) & \backslash\text{nu} \\ \Xi & \xi & \text{xi } (\textit{xeî }) & \backslash\text{xi} \\ \text{O} & \text{o} & \text{ómicron } (\textit{oû/o micrón}) & \text{o} \\ \Pi & \pi & \text{pi } (\textit{peî}) & \backslash\text{pi} \\ \text{P} & \rho & \text{ro } (\textit{rhō̃̄ }) & \backslash\text{rho} \\ \Sigma & \sigma , \varsigma & \text{sigma } (\textit{sígma}) & \backslash\text{sigma} \\ \text{T} & \tau & \text{tau } (\textit{taū }) & \backslash\text{tau} \\ \text{Y} & \upsilon & \text{ípsilon } (\textit{ŷ/y psilón}) & \backslash\text{upsilon} \\ \Phi & \phi , \varphi & \text{fi } (\textit{pheî }) & \backslash\text{phi} \\ \text{X} & \chi & \text{ji } (\textit{kheî }) & \backslash\text{chi} \\ \Psi & \psi & \text{psi } (\textit{pseî }) & \backslash\text{psi} \\ \Omega & \omega & \text{omega } (\textit{ō̃̄/ō méga}) & \backslash\text{omega} \\ \end{matrix} $$ Recomendamos el uso de http://detexify.kirelabs.org/classify.html , que permite reconocer estos caracteres entre otros y nos da sendos comandos en LaTeX. Algunas letras reciben dos nombres; eso es debido a que el griego fue reduciendo el número de vocales y su longitud, por lo que fue necesario ir creando nuevos nombres para distinguir los sonidos, por ejemplo, los nombres (que surgieron en el griego koiné y bizantino) épsilon significa «e breve» e ípsilon «u breve» ya que había que distinguir ese fonema con el mismo que producían otros diagrafos. Otras podemos ver cómo la trasliteración del nombre helénico no coincide del todo con el nombre es español; esto es debido a que en español se suelen transcribir para que se asemeje lo más posible al griego, pero siguiendo las reglas fonéticas españolas.
Nuestro abecedario es una evolución del romano (con la separación medieval de Ii - Jj, Uu - Vv y con la aparición germánica de Ww). Posteriormente algunas lenguas han añadido algunas letras a sus variantes particulares del abecedario, como el español con la Ññ, o el portugués con Çç. El motivo por el que el alfabeto griego se parece tanto al abecedario latino es porque los etruscos adoptaron y adaptaron el alfabeto griego, y luego los romanos lo tomaron de los etruscos. Los romanos introdujeron la distinción entre Cc - Gg (en griego realmente no hay una letra Cc, pero sí está la káppa $K\kappa$, que evolucionó a nuestra ca Kk) , y mantuvieron letras que ya habían desparecido en griego como la Qq , Hh o la Vv .

Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

(661) - El algoritmo para multiplicar del siglo XVI. Prostaféresis (Producto de trigonométricas)

Los logaritmos son un invento matemático de princpios del $\text{siglo XVII}$ creados para agilizar la multiplicación. Sin embargo, no se empezaron a usar inmediatamente, al menos no hasta que Henry Briggs ($1561-1630$) simplificó el trabajo de John Napier of Merchiston ($1550-1617$), el inventor de los logaritmos neperianos. ¿Qué usaban antes? Hacer cuentas en un ábaco o a mano ya estaban presentes desde la Edad Media, pero no eran especialmente rápidas, o al menos para cálculos ágiles. Entonces, ¿qué utilizaban los ingenieros de Felipe II, Isabel I, Guillermo de Orange, o Soleimán el Magnífico para multiplicar llevando muchos números, de varias cifras, rápidamente y de una manera efectiva?

Los teoremas (o fórmulas) de seno y coseno de ángulo suma y diferencia son, en su formulación usual, matricial y compleja (que nos dicen que girar un ángulo de $\varphi_1 \pm \varphi_2$ es equivalente a girar primero $\varphi_1$ y luego $\pm\varphi_2$ ): $$ \sin(\varphi_1 \pm \varphi_2) = \sin\varphi_1\cos\varphi_2 \pm \cos\varphi_1\sin\varphi_2 \\ \cos(\varphi_1 \pm \varphi_2) = \cos\varphi_1\cos\varphi_2 \mp \sin\varphi_1\sin\varphi_2 \\ \begin{pmatrix} \cos(\varphi_1 + \varphi_2) & -\sin(\varphi_1 + \varphi_2) \\ \sin(\varphi_1 + \varphi_2) & \cos(\varphi_1 + \varphi_2) \\ \end{pmatrix} = \begin{pmatrix} \cos\varphi_2 & -\sin\varphi_2 \\ \sin\varphi_2 & \cos\varphi_2 \\ \end{pmatrix} \cdot \begin{pmatrix} \cos\varphi_1 & -\sin\varphi_1 \\ \sin\varphi_1 & \cos\varphi_1 \\ \end{pmatrix} \\ e^{\pm \text{í}\varphi_2} e^{\text{í}\varphi_1}=\text{cís}(\pm\varphi_2)\text{cís}(\varphi_1) = \big(\cos\varphi_2\pm\text{í}\sin\varphi_2\big)\big(\cos\varphi_1+\text{í}\sin\varphi_1\big) = \cos(\varphi_1\pm\varphi_2)+\text{í}\sin(\varphi_1\pm\varphi_2)=\text{cís}(\varphi_1\pm\varphi_2)= e^{ \text{í}(\varphi_1\pm\varphi_2)} $$ Estas fórmulaS nos permiten relacionar razones trigonométricas de un ángulo descompuesto en suma o diferencia de otros dos, $\varphi_1 \pm \varphi_2$ , como una suma/difererencia de un producto de las razones trigonométricas de dichos ángulos componentes, es decir, de $\varphi_1$ y $\varphi_2$ .
Manipulando estas fórmulas llegamos a las fórmulas de Werner y de Simpson para la prostaféresis, que son identidades que permiten escribir un producto de trigonométricas en una suma o diferencia de trigonométricas.

Las fórmulas de Werner (de producto a suma), llamadas así por el astrónomo, matemático y geógrafo alemán Johannes Werner ( $1468-1522$ ), son: $$ \begin{matrix} 2 & \cos \varphi_1 & \cos \varphi_2 & = & +\cos(\varphi_1 - \varphi_2) & + \cos(\varphi_1 + \varphi_2) \\ 2 & \sin \varphi_1 & \sin \varphi_2 & = & +\cos(\varphi_1 - \varphi_2) & - \cos(\varphi_1 + \varphi_2) \\ 2 & \sin \varphi_1 & \cos \varphi_2 & = & +\sin(\varphi_1 - \varphi_2) & + \sin(\varphi_1 + \varphi_2) \\ 2 & \cos \varphi_1 & \sin \varphi_2 & = & -\sin(\varphi_1 - \varphi_2) & + \sin(\varphi_1 + \varphi_2) \end{matrix} $$ (Realmente las dos últimas son la misma.) La primera la descubrió el egipcio Ibn Yunus ( $c.950-1009$ ) [realmente dos de sus métodos para determinar el tiempo de altitud solar o de estrellas eran equivalentes a esa identidad trigonométrica], pero hubo que esperar al Renacimiento cuando el relojero y matemático suizo Jost Bürgi ( $1552-1632$ ) redescubriera la primera, y hallase la segunda. Bürgi ideó un algoritmo, Kunstwegcamino del arte» en alemán) para calcular senos [y cosenos] en su libro Canon Sinuum ( $1586$ ) con una precisión arbitraria de cualquier ángulo. Como curiosidad este sería uno de los inicios/predecesores del cálculo en diferencias (la variente “discreta” del cálculo diferencial). ¿Para qué podía querer incluso $6$ cifras decimales de un seno? Porque ideó (o más bien generalizó y popularizó) un algoritmo para multiplicar números que hacía uso de razones trigonométricas: la prostaféresis.
La propia palabra prostaféresis es un oxímoron: viene del latín prosthaphaeresis , y este del griego προσθαφαίρεσις (prosthaphaíresis), que es una combinación de πρόσθεσις (prósthesis «suma») derivado de προστίθημι/πρός τίθημι (prostíthēmi/prós títhēmi «yo sumo/yo coloco adelante»), y de ἀφαίρεσις (aphaíresis «resta») derivado de ἀφαιρέω/ἀπό αἱρέω (aphairéō/apó hairéō «yo resto/yo quito, yo retiro»). El algoritmo prostaferético se llama así porque suma y resta a la vez, dos pasos en el proceso.

¿Cómo funciona la algoritmia? Vamos a usar la Identidad de Ibn Yunus - Bürgi, producto de cosenos como suma de cosenos de ángulo diferencia y suma, $2 \cos \varphi_1 \cos \varphi_2 = +\cos(\varphi_1 - \varphi_2) + \cos(\varphi_1 + \varphi_2) $ . Supongamos que tenemos dos números, $x$ e $y$ , y queremos hallar su producto, $x\cdot y$ . Primero hay que reescalar los números hasta que pertenezcan al intervalo $[0,1]$ . ¿Cómo? Basta con dividir entre $10$ tantas veces como sea necesario ( $\lceil\lg(x)\rceil$ y $\lceil\lg(y)\rceil$ veces respectivamente), llamémoslos $x^\star$ y $y^\star$ . Ahora se halla los ángulos $\varphi_1$ y $\varphi_2$ tales que $\displaystyle \left. \begin{matrix} \cos(\varphi_1) & = & x^\star \\ \cos(\varphi_2) & = & y^\star \\ \hline \end{matrix} \right\} $ (los arcos [en la circunferencia goniométrica] $\varphi_1$ y $\varphi_2$ cuyos cosenos valen $x^\star$ e $y^\star$ respectivamente, es decir, $\arccos(x^\star)$ y $\arccos(y^\star)$ respectivamente). ¿Cómo? Con una mera búsqueda inversa en una tabla de razones trigonométricas (de ahí la necesidad de tener tablas muy precisas). Ahora con los ángulos $\varphi_1$ y $\varphi_2$ , calculamos (a mano normalmente) el ángulo diferencia, $\varphi_1-\varphi_2$ , y el suma, $\varphi_1+\varphi_2$ . Entonces volvemos a usar las tablas de las razones trigonométricas, ahora con una búsqueda directa, para hallar $\cos(\varphi_1+\varphi_2)$ y para $\cos(\varphi_1-\varphi_2)$ . Ya solo hay que calcular la semisuma de estos valores (media), es decir, $\displaystyle \frac{\cos(\varphi_1-\varphi_2)+\cos(\varphi_1+\varphi_2)}{2}$ . ¿Ya hemos terminado? Casi. Hemos calculado el producto , $x^\star\cdot y^\star$ , de dos números reescalados, de $x^\star$ y de $y^\star$ , por lo que hay que deescalarlos de vuelta, “cambiando de posición la coma decimal” ( $\lceil\lg(x)\rceil + \lceil\lg(y)\rceil$ veces ). Es decir, un esquema de lo que hemos hecho es: $$ \begin{matrix} \{x,y\} & \longrightarrow & x\cdot y \\ \underset{\text{Reescala}}{\Downarrow} & & \underset{\text{Deescala}}{\Uparrow} \\ \{x^\star,y^\star\} & \overset{\text{Prostaféresis}}{\implies} & x^\star\cdot y^\star \end{matrix} $$ ¿Por qué se usaba este algoritmo si parece enrevesado? Parece mucho más enrevesado de lo que realmente es: lo más complicado es dividir entre $2$ ,y luego hacer dos sumas y una resta (puede que llevando todas), mientras que la multiplición sí que sería llevando y habría que sumar llevando los sucesivos productos intermedios (tantos como cifras tenga el factor multiplicador).
Una vez que uno adquiere cierta soltura es muy directo y fácil de aplicar, la única limitación es cómo de buenas sean las tablas de razones trigonométricas de donde se saquen los resultados (aunque hay formas de mejorar el resultado aun no teniendo unas muy buenas). La prostaféresis como algoritmo más o menos generalizado surgió $c.1589$ (Bürgi explicó posteriormente cómo funcionaba su Kunstweg en su Fundamentum Astronomiae de $1592$ ) y tuvo reconomiento durante un cuarto de siglo (y siguió en uso pero no tanto) hasta que en $1614$ John Napier publicó su tabla de logaritmos y para agilizar aún más este proceso (ya que solo habría que hacer una mera suma y era más intuitivo). Sin embargo, tanto Bürgi, padre de la prostaféresis y quien descubrió los logaritmos (pero no publicó su descubrimiento), como Napier, inventor de los logaritmos neperianos, llegaron al concepto de aritmética logarítmica tras ser expertos de aritmética prostaferética.

Por último, las “identidades inversas” que se usaron en menor medida, las fórmulas de Simpson para la prostaféresis (de suma a producto), por el matemático inglés Thomas Simpson ( $1710-1761$ ). $$ \begin{matrix} \sin\theta_1 & \pm & \sin \theta_2 & = &+2 &\displaystyle \sin \left(\frac{\theta_1 \pm \theta_2}{2} \right) &\displaystyle \cos \left(\frac{\theta_1 \mp \theta_2}{2} \right) \\ \cos \theta_1 & + & \cos \theta_2 & = &+2&\displaystyle \cos \left(\frac{\theta_1 + \theta_2}{2} \right) &\displaystyle \cos \left(\frac{\theta_1 - \theta_2}{2} \right) \\ \cos \theta_1 & - & \cos \theta_2& = & -2 &\displaystyle \sin \left(\frac{\theta_1 + \theta_2}{2} \right) &\displaystyle \sin \left(\frac{\theta_1 - \theta_2}{2} \right) \end{matrix}$$
Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

domingo, 14 de marzo de 2021

(659) - El teorema casi olvidado más importante : Teorema de Bayes

Una década antes de morir, Thomas Bayes( $c.1701-1761$) estuvo haciendo un experimento: le pidió a un sirviente que pusiera una bola en una mesa, pero que no le dijese dónde estaba. Luego tenía que ir tirando bolas y cantando dónde caían en relación con la bola inicial. O sea, no tenía mucha información sobre un suceso concreto (dónde estaba la bola inicial), pero tras sucesivos sucesos (tiros de bolas) iba actualizando su conocimiento sobre dicha bola inicial. Empero Bayes, en un primer momento, no consideró este resultado suficientemente importante, y lo desestimó, sin embargo es mucho más importante de lo que en un primer momento puede parecer. No fue hasta $1763$ cuando Richard Price ($1723-1791$) expuso tal magnum opus a la Royal Society. Bayes se interesó en la probabilidad y estadística en los últimos años de su vida al leer los trabajos de varios intelectuales. Sin embargo, aunque trabajó en algunos artículos, nunca llegó a publicar ninguno, y no fue hasta después de muerto que se publicó (similar a otros científicos como Newton).

En el instituto, e incluso en $1^o$ de carrera, el teorema de Bayes se se suele introducir como un mero resultado más. Los ejercicios suelen ser que piden una probabilidad condicionada o directamente piden aplicar el teorema de Bayes, cuyos argumentos (inputs) muchas veces se dan ya en el enunciado o solo hay que hacer una operación para hallarlos, pero nunca se pide comentar el resultado.
Para entender el teorema de Bayes, hay que estar familiarizado con la probabilidad condicionada: $\operatorname{P}(A|B)$ se lee «probabilidad de $A$ condicionado $B$», es decir, es la probabilidad de que ocurra el suceso $A$ sabiendo previamente [bajo la condición de] que ha sucedido $B$ . Viene dado por la definición de Kolmogórov (Колмого́ров): $$ \operatorname{P}(A|B) = \frac{\operatorname{P}(A\cap B)}{\operatorname{P}(B)} $$ (Se puede entender como hallar un lado del rectángulo de área $\operatorname{P}(A\cap B)$ con lados $\operatorname{P}(B)$ y $\operatorname{P}(A|B)$ ). El Teorema de Bayes establece: $$ \operatorname{P}(A| B) = \frac{\operatorname{P}(B | A) \operatorname{P}(A)}{\operatorname{P}(B)} $$ O para múltiples sucesos: $$ \operatorname{P}(B) = {\sum_j \operatorname{P}(B| A_j) P(A_j)} \implies \operatorname{P}(A_i| B) = \frac{\operatorname{P}(B| A_i) \operatorname{P}(A_i)}{\displaystyle \sum_j \operatorname{P}(B| A_j) \operatorname{P}(A_j)} = \frac{\operatorname{P}(B| A_i) \operatorname{P}(A_i)}{\displaystyle \operatorname{P}(B| A_i) \operatorname{P}(A_i) + \sum_{j\neq i} \operatorname{P}(B| A_j) \operatorname{P}(A_j)} $$
El teorema de Bayes consiste en partir al principio de una probabilidad que se conoce a priori y a través de más conocimiento, se va refinando y optimizando la certeza de dicho evento, es decir, según se van conociendo más condiciones (eventos, sucesos), se va actualizando la probabilidad hasta estar muy perfilada.

El teorema de Bayes se puede usar en múltiples aspectos; veamos los más sorprendentes: se ha usado desde ver en qué zonas del Atlántico había que buscar para hallar el oro de un galeón hundido, para hallar a un asesino en serie, para rescate marino de unos náufragos. Tal ha sido la repercusió de este teorema que se fudó una rama de la estadística y de la probabilidad, la bayesiana, donde el propio teorema da nombre a elementos como factor de Bayes, inferencia bayesiana, estimador de Bayes, prior de Bayes, regresión lineal bayesiana...

Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

sábado, 27 de febrero de 2021

(653) - El sueño del universitario (Sophomore's dream)

Si tuviésemos que ver unas identidades con integrales y series, que son quizá «demasiado bonitas para ser verdad», serían el llamado Sueño del Universitario (Sophomore's dream [sophomore es un estudiante de 2º de universidad ] ) . Las identidades son:
$$ \boxed{ \begin{matrix} \displaystyle \int_0^1 x^{-x}\;\text{d}x & = & \displaystyle \sum_{n=1}^\infty n^{-n} & \approx & 1.291285\dots \\ \displaystyle \int_0^1 x^x \;\text{d}x & = & - \displaystyle \sum_{n=1}^\infty (-n)^{-n} & \approx & 0.7834305\dots \\ \end{matrix} } $$
Estas identidades las dedujo el matemático suizo Johann Bernoulli ( $1667-1748$ ) en $1697$ , quien fuera mentor de Euler.
Tanto $x^{-x}$ como $x^x$ no tienen integrales indefinidas que se puedan expresar en términos de sumas finitas y composiciones de funciones elementales, sin embargo, se puede hallar su integral definida a través de series de una forma sencilla: Primero se expresan $x^{-x}$ y $x^x$ como exponenciales, $e^{-x \ln(x)}$ y $e^{x \ln(x)}$ respectivamente, luego usando la serie de McLaurin de la exponencial, $\displaystyle e^t = \sum_{n=0}^\infty \frac{1}{n!}t^n $ . Al llegar a este momento pasamos a una integral de una serie (que bajo las hipótesis correctas) [y] dada la linealidad de la integral, se "intercambian": se pasa a una serie de integrales. Cada una de esos integrandos, salvo constantes, son $x^n\ln^n(x)$ , que integrando por partes y evaluando en el intervalo $[0,1]$ , obtenemos el resultado de la integral. Estos resultados son de los pocos que son muy bonitos para ser verdad, pero aún así lo son. Nótese la similitud integrando-sumando: $x^{-x}$ con $n^{-n}$ , y además $x^x$ con $-(-n)^{-n}$ .


Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.

viernes, 26 de febrero de 2021

(647) - Las dos ecuaciones de Maxwell olvidadas: Gravitación

En este artículo vamos a tratar unas identidades que tienen la forma de las ecuaciones de Maxwell, pero para gravitación en vez de electromagnetismo: En $1865$ Maxwell ($1831-1879$) publicó A Dynamical Theory of the Electromagnetic Field (Una teoría dinámica del campo electromagnético) donde exponía varias fórmulas que serían conocidas como Ecuaciones de Maxwell, pero se tuvo que esperar hasta $1884$ cuando Oliver Heaviside ($1850-1925$) y Williard Gibbs ($1839-1903$) las reformularon en la notación vectorial que usamos hoy día, y simplificando el número de ecuaciones. Veámoslas: $$ \begin{matrix} \displaystyle\vec{\nabla}\cdot\vec{E} = \frac{\rho}{\varepsilon_0} = 4\pi K \rho & \quad & \displaystyle \vec{\nabla}\cdot\vec{B} = 0 \\ \displaystyle \vec{\nabla}\times\vec{E} = - \frac{\partial\vec{B}}{\partial t} & \quad & \displaystyle \vec{\nabla}\times\vec{B} = \mu_0\vec{J} + \mu_0\varepsilon_0 \frac{\partial\vec{E}}{\partial t} \\ \end{matrix} $$ Vamos a tratar con la fuerza gravitatoria según la formulación Hooke-Newton ($a.\text{abril }1686$), la Ley de Gravitación Universal. En especial, para su notación diferencial del campo gravitatorio, $\text{d}\vec{g}$ , nos da la relación con la masa puntal, $\text{d}m$ . En mecánica newtoniana el Teorema de la cáscara (Shell's theorem) establece la equivalencia gravitatoria entre un cuerpo (con cualquier distribución de masa) con respecto a su centro de masa (con toda la masa localizada ahí). $$ \vec{F} = \frac{GMm}{{{\|\vec{r}\|}_2}^2} \widehat{r} \implies \text{d}\vec{g} = G\frac{\text{d}m}{{{\|\vec{r}\|}_2}^2} \widehat{r} $$ Muchas veces para intentar visualizar campos vectoriales es recomendable imaginarse un "fluido virtual" que nos ayude a conceptuar lo que estudiamos. Veamos dichas ecuaciones y veamos qué significan: $$ \boxed{ \vec{\nabla}\cdot\vec{g} = -4\pi G \rho \qquad\qquad \vec{\nabla}\times\vec{g} = \vec{0} } $$ Nótese que la constante $4\pi G$ (donde $G$ es la constante de Cavendish para la gravitación universal) solo nos cuenta cómo se amplifica/disminuye el efecto de la divergencia. La densidad de la fórmula, $\rho$ , hace referencia a la de un entorno alrededor de dicho punto, es decir, que puede ser $0$ (un punto del espacio) o estrictamente positiva (un punto con masa). Esto implica que cualquier superficie cerrada virtual que imaginemos (gaussiana) "crea" un campo gravitatorio atrayente hacia sí. De forma equivalente si existiesen densidades negativas (masas negativas) repelerían a las positivas (como en electromagnetismo).

La divergencia nos dice cuánto un campo apunta hacia adentro o hacia fuera de un punto concreto. En particular, la divergencia del campo gravatatorio, $\vec{\nabla}\cdot\vec{g}$ , nos dice que no hay fuentes de ese "fluido virtual", sino que todo punto o bien fluye a través, o bien es un sumidero. En especial, para cualquier superficie gaussiana, entra tanto o más fluido virtual del que sale. Piénsese en una bañera llena en el instante en el que se quita el tapón: el grifo está cerrado (no hay fuentes), y el agua está calma (divergencia $0$ ), o se va por el desagüe (sumidero).

El rotacional no es sobre el campo en sí, sino lo que el campo puede causar: nos dice en qué sentido algo dentro del campo girará o circulará (en condiciones "normales"). En particular, el rotacional del campo gravitatorio, $\vec{\nabla}\times\vec{g}$ , nos dice que si consideramos una barra con centro fijado (estático) no empezará a rotar.

Todo esto es un poco idealización porque según nos dice la teoría de la relatividad general de Einstein, no existe una fuerza gravitatoria, sino que es la percepción que tenemos de la deformación del espacio-tiempo. Y no es la masa en sí lo que lo crea sino el tensor energía-esfuerzo.


Autor: Đɑvɪẟ Ƒernández-De la Cruʒ.