机器学习:通过算法使得机器能从大量数据中学习规律从而对新的样本做决策。
机器学习的三要素:模型、学习准则、优化。
线性模型:$f(x,\theta)=\textbf{w}^T\textbf{x}+b$
非线性模型:广义的非线性模型可以写为多个非线性基函数𝜙(𝒙) 的线性组合。$f(x,\theta)=\textbf{w}^T\phi(\textbf{x})+b$ 如果 𝜙(𝒙)本身为可学习的基函数,则$f(x,\theta)$就等价于神经网络模型
学习准则:模型的好坏可以通过期望风险衡量
常见的损失函数:
- 0-1损失:不连续且导数为 0,难以优化
- 平方损失:一般不适用于分类问题。$y$为实数值 $$\mathcal{L}(y, f(\mathbf{x};\theta))=\frac{1}{2}\left(y-f(\mathbf{x};\theta))\right)^2$$
- 交叉熵:一般用于分类问题 $\mathbf{y}$为one-hot标签向量
$$ \begin{align} \mathcal{L}(\mathbf{y}, f(\mathbf{x};\theta))&=-\mathbf{y}\mathrm{log}f(\mathbf{x};\theta) \\ &= - \sum^{C}_{c=1}y_c\mathrm{log}f_c(\mathbf{x};\theta) \\ &= -\mathrm{log}f_y(\mathbf{x};\theta) \end{align} $$ 因此,交叉熵损失函数也就是负对数似然函数。
经验风险最小化(Empirical Risk Minimization,ERM)原则:找到一组参数使得经验风险最小。
过拟合
在训练集上错误率很低,但是在未知数据上错误率很高.往往是由于训练数据少和噪声以及模型能力强等原因造成的
$\mathscr{l}_1$范数正则化项,各个参数的绝对值之和,通常会使得参数有一定稀疏性。
加入正则化后,参数被限制到了一定的区域,等价于下面带约束条件的优化问题, $$ \begin{aligned} & \theta^*=\underset{\theta}{\arg \min } \frac{1}{N} \sum_{n=1}^N \mathcal{L}\left(y^{(n)}, f\left(\boldsymbol{x}^{(n)} ; \theta\right)\right), \\ & \text { s.t. } \quad \ell_p(\theta) \leq 1 \end{aligned} $$ $\mathcal{F}$为函数$f(\theta)$的等高线(为简单起见,这里用直线表示)。可以看出,$\mathscr{l}_1$范数的约束通常会使得最优解位于坐标轴上,意味着某一维会变为0,从而使得最终的参数为稀疏性向量。 $\mathscr{l}_2$参数取值空间是圆形,比较平滑,很难与损失函数的曲线相交在顶点上,但是它会使得参数更接近与0。
从贝叶斯学习的角度来讲,正则化是引入了参数的先验分布,使其不完全依赖训练数据1。
TODO ↩︎