King of Data
数据为王
模型训练的第一步并不是一上来就开始写训练代码,而是先观察数据。要花费足够多的时间,查看上千帧图像来 …
模型训练的第一步并不是一上来就开始写训练代码,而是先观察数据。要花费足够多的时间,查看上千帧图像来 …
基于掩码的自编码器在自然语言和视觉两个任务上有什么本质区别?
1) 网络结构不同。之前主流的视觉任务主 …
NMS(Non-maximum suppress)非极大值抑制算法主要在单模型检测中用于 筛选可信检测目标的方法。因为同一位置的检测结果具有互斥性 …
在2015年这样的年份,深度学习在自然语言、图像处理分别发展着。在自然语言领域RNN (LSTM,GRU)是最主流的模型结构,用于进行长时序建模 …
在接触深度学习框架及上层程序应用,比如自动驾驶的感知模块,经常会遇到向量、矩阵的运算; 这些场景对计算效率 …
KKT
在许多线性模型中,比如线性回归,PCA 依赖于对矩阵 $X^TX$ 求逆。但是,当数据在某些方向确实没有方差时,或者观 …
机器学习与优化问题的不同在于:机器学习的目标是在测试集上有较小的泛化误差(generalization error),优化问题是将当前问题最优解 …
定义: 接收数量不定的二进制输入,得到一个二进制输出。
$$ output= \begin{cases} 0 & \text{if $\sum_j{w_jx_j} \leq$ threshold} \\ 1 & \text{if $\sum_j{w_jx_j} \gt$ threshold} \end{cases} $$
可以理解 …
在上一单讲梯度优化时讲到,偏导 $\partial{C}/\partial{w}$ 体现的是权重 $w$ 的变化对损失函数 $C$ 的影响。 怎么计算参数的梯度呢?答 …
Input {$x_1$, $x_2$, ..., $x_m$}
Initialize cluster centriods: $c_1$, $c_2$, ..., $c_k$
Repeat
2.1 assign $x_i$ to $c_j$
2.2 update $c_j$ according to group sample
2.3 break when center distance is less than a threshold
As the distortion function $J$ is a non-convex function, the alogrithm will …
之前讨论了如何计算标量函数的梯度 (gradient), 下面讨论矩阵梯度 (derivative) 的 计算过程. 这是深度学习链式法则计算梯度的基础.
在单 …
In machine learning and image processing, calculating gradient of a funcion is one of the most frequent operations. Here are some common rules.
首先,介绍下标量函数(scalar function)和向量函数(vector function)。
标量函数是将一个实 …