机器学习_最优化_数学

泰勒展开式

期望

概率加权下的平均值
离散型:$E(x)=\sum_ix_ip_i$

连续型:$E(x)=\int_{-\infty}^{\infty}xf(x)dx$

极大似然估计

取对数:$lnL(\theta_1,\theta_2,...,\theta_k=\sum_{i=1}^nlnf(x,\theta_1,\theta_2,...,\theta_k))$
求驻点:$\partial{lnL(\theta)}/\partial{\theta_i}=0,i=1,2,...k$

概率论

中心极限定理:

设n个随机变量$X_1,X_2,...,X_n$相互独立,均具有相同的数学期望与方差,即
$E(X_i)=\mu;D(X_i)=\sigma^2$,

$
Y_n=X_1+X_2+...+X_n$

$Z_n=\frac{Y_n-E(Y_n)}{\sqrt{D(Y_n)}}=\frac{Y_n-n\mu}{\sqrt{n}\sigma}→N(0,1)$

随机变量$Z_n$为n个随机变量$X_1,X_2,...,X_n$的规范和
设从均值为$\mu$、方差为$\sigma^2$(有限)的任意一个总体中抽取样本量为$n$的样本,当$n$充分⼤大时,样本均值的抽样分布$\frac{Y_n}{n}$近似服从于均值为$\mu$、方差为$\sigma^2$的正态分布。

中心极限定理,把那些对结果影响⽐比较小的变量(假设独⽴立同分布)之和认为服从正态分布是合理理的。

高斯分布

输入值$x^i$,预测值$\theta^Tx^i$,真实值$y^i$,误差$\epsilon^{i}$

$y^i=\theta^Tx^i+\epsilon^{i}$

根据中心极限定理,认为变量之和服从高斯分布,即

$\epsilon^{i} = y^i-\theta^Tx^i$

则,x,y的条件概率为

$p(y^i|x^i;\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2})$

矩阵论

最优化

最后修改:2020 年 08 月 02 日 11 : 07 AM
如果觉得我的文章对你有用,请随意赞赏