Constrained Optimization

KKT

Under-Constrained Problems

在许多线性模型中,比如线性回归,PCA 依赖于对矩阵 $X^TX$ 求逆。但是,当数据在某些方向确实没有方差时,或者观测数据不足, $X^TX$ 就是奇异的,加入正则项可以变成对 $X^TX+ \alpha I$ 求逆,则可解。

在 Logistic Regression 中,这个问题也是欠定的。当两类是线性可分的时候,$w$是解,$2w$ 也是解。(Refer to Logistic Regression) 大多数形式的正则可以保证对欠定问题使用迭代方法可以保证收敛。

Dataset Augmentation

使模型更好泛化的最好方法是使用更多的训练数据。 有些问题,比如目标识别(类别对图像的基本变换具有不变化), 是可以通过数据增强(Data Augmentation)来获得更多数据的。

CNN的设计(通过卷积和Pooling)已经对图像的平移具有一定的不变性,通过对输入数据进行平移仍然能增加模型的泛化能力。 类似的操作还有旋转、缩放、color argument。

NN证明对噪声不 robust (有些人不让翻译成鲁棒,不过小哥从特征描述子那会子就已经开始使用鲁棒了 =。=), 为了 robust,所以在训练的时候也要对数据加噪声,Dropout 可以看作对中间层噪声。

Noise Robustness

除了将噪声加到输入数据上来增强数据集,也可以将其回到参数上。这个主要用在 Recurrent Neural Network (RNN) Refer XXX。 这可以理解成对权重Bayesian inference的一个随机实现。Bayesian 推断是将权重看作不确定的,按一定的概率分布。 对权重加噪声可以看作一种随机的实现。另外对权重加噪声也可以理解成一种正则。对输出加噪声,可以看作软阈值。(Refer to Book)

Semi-supervised Learning

Multi-task learning

Early Stopping

Parameter Tying and Sharing

Sparse Representation

Bagging

Bagging(Boostrap aggregating) Refer to: bagging boosting differrence 公从号文章

Dropout

Adversarial Training

vs GAN