机器学习之高数基础

极限相关

两边夹定理

当 $x\in U(x_0,r)$ 时,有 $g(x)\leq f(x) \leq h(x)$ 成立,并且 $\lim \limits_{x\to x_0}g(x)=A$,$\lim \limits_{x\to x_0}h(x)=A$,那么

利用两边夹定理可以求一些函数的极限。例如求 $\frac{\sin x}{x}$ 的极限:

有如下基于单位圆做的一个图

Alt text

把 $x$ 当作弧 $AB$ 的长,有

同时除以 $\sin x$,有

因为 $\lim \limits_{x\to 0}\cos x=\cos 0 = 1$,由两边夹定理有

极限存在定理

定理 单调有界数列必有极限

单增数列有上界,则其必有极限

如下的数列 $x_n$ 有上界:

且数列单增:$x_n<x_{n+1}$
所以数列 $x_n$ 有极限,记作 $e$(也就是自然常数)

上面用到了二项式定理

其中,$C_n^k=\frac{n!}{k!(n-k)!}$

微分相关

基本求导公式

非正式的说:

  • 导数就是曲线的斜率。反应了曲线变化的快慢。
  • 二阶导数是斜率变化快慢的反应。反应了曲线的凸凹性。

常用求导:

  • $C\prime=0$
  • $(x^n)\prime=nx^{n-1}$
  • $(\sin x)\prime=\cos x$
  • $(\cos x)\prime=-\sin x$
  • $(a^x)\prime=a^xlna$
  • $(e^x)\prime=e^x$
  • $(log_ax)\prime=\frac{1}{x}log_ae$
  • $lnx=\frac{1}{x}$
  • $(u+v)\prime=u\prime+v\prime$
  • $(uv)\prime=u\prime v+uv\prime$

小技巧:

  • 求幂指函数 $x^x$ 的最小值(幂指函数的处理思路):取对数再求导

泰勒(Taylor)公式

其中

称为拉格朗日型余项,这里 $\xi$ 是 $x_0$ 与 $x$ 之间的某个值。
不需要精确计算 $R_n(x)$ 时,

称为佩亚诺(Peano)型余项,$o[(x-x_0)^n]$ 是比 $(x-x_0)^n$ 高阶的无穷小。

通俗的讲,泰勒公式就是用多项式函数去逼近光滑函数。

当 $x_0=0$,$\xi=\theta x\ (0<\theta<1)$ 时,可得麦克劳林(Maclaurin)公式

带佩亚诺余项的麦克劳林公式:

例如,用来计算 $e^x$、$\sin x$:
$e^x=1+x+\frac{x^2}{2!}+\cdots+\frac{x^n}{n!}+R_n$
$\sin x=x-\frac{x^3}{3!}+\frac{x^5}{5!}-\frac{x^7}{7!}+\cdots+(-1)^{m-1}\frac{x^{2m-1}}{(2m-1)!}+R_{2m}$

方向导数与梯度(多元函数微分)

如果函数 $f(x,y)$ 在点 $P_0(x_0,y_0)$ 可微分,那么函数在该点沿任一方向 $l$ 的方向导数存在,且有

其中 $\cos\alpha$,$\cos\beta$ 是方向 $l$ 的方向余弦($\alpha$ 为 $l$ 与 $x$ 轴、$y$ 轴的夹角)。

在二元函数的情形,设函数 $f(x,y)$ 在平面区域 $D$ 内具有一阶连续偏导数,则对于每一点 $P_0(x_0,y_0)\in D$,都可定出一个向量

这向量称为函数 $f(x,y)$ 在点 $P_0(x_0,y_0)$ 的梯度,记作 $\mathbf{grad}\ f(x_0,y_0)$ 或 $\nabla f(x_0,y_0)$

梯度方向是函数在该点变化最快的方向。

凸函数

若函数 $f$ 的定义域 $\mathbf{dom}\ f$ 为凸集,且满足 $\forall x,y\in \mathbf{dom}\ f,\ 0\leq\theta\leq1$,有

则称 $f$ 为凸函数。

Alt text

扩展到n个变量:

其中 $0\leq\theta_i\leq1,\ \theta_1+\cdots+\theta_n=1$。

凸函数的判定

$f(x)$ 在区间 $[a,b]$上连续,在 $(a,b)$ 内二阶可导,那么

  • 若 $f\prime\prime(x)>0$,则 $f(x)$ 是凸的;
  • 若 $f\prime\prime(x)<0$,则 $f(x)$ 是凹的。

积分相关

分部积分法

推导过程如下:

移项,得

两边求不定积分,得

举例:

参考资料

  • 高等数学
  • 七月在线机器学习课程