Cao Zihang - Blog

「抵近知识无人区」

【Deep Learning】第12章 应用

第12章 应用 大规模深度学习 计算机视觉 预处理 图像应该被标准化 许多CV架构需要标准尺寸的图像,必须剪裁或缩放图像以适应该尺寸;一些卷积模型接受可变大小输入 对比度归一化 在许多任务中,对比度是能够安全移除的最为明显的变化源之一 对比度:图像中亮像素和暗像素之间差异的大小 图像三维张量对比度:$\sqrt{\frac{1}{3rc}\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{c}\sum\limits_{k=1}^{3}(\mathsf{X}{i,j,k}-\bar...

【Deep Learning】第11章 实践方法论

第11章 实践方法论 实践设计流程: 确定目标(依据问题决策) 误差度量方法 目标值 建立端到端的工作流程 估计合适的性能度量 搭建系统 确定性能瓶颈 检查未及预期环节 过拟合&欠拟合 数据缺陷 软件缺陷 反复改进 增...

【Deep Learning】第10章 序列建模:循环和递归网络

第10章 序列建模:循环和递归网络 循环神经网络RNN是一类用于处理序列数据的神经网络 RNN可以扩展到很长的序列,大多数RNN能处理可变长度序列 参数共享使模型能够扩展到不同形式的样本(不同长度的样本)并进行泛化 当信息的特定部分在序列内多个位置出现时,参数共享尤为重要 时间序列上的卷积:时延神经网络 卷积允许共享网络跨时间共享参数,但是浅层的 参数共享体现在每个时间步中使用相同的卷积核 循环神经网络参数共享通过输出的每一项是前一项的函数 循环网络通常在序列的小批量上操作,并且小批量的每一项具有不同序...

【Deep Learning】第9章 卷积网络

第9章 卷积网络 卷积神经网络CNN是一种专门用来处理具有类似网格结构的数据的神经网络 常用于时间序列数据(时间轴上的一维网格)和图像数据 卷积是一种线性运算 卷积网络指至少在网络的一层中使用卷积运算来代替一般的矩阵乘法运算的神经网络 卷积运算 通常用$\ast$表示卷积运算 $(x\ast w)(t)$一种加权平均的平滑估计 $x$为输入;$w$为核函数;输出有时被称作特征映射 卷起来 连续形式卷积:$s(t)=(x\ast w)(t)=\int x(a)w(t-a)da$ 离散形式卷积:$s(t...

【Deep Learning】第8章 深度模型中的优化

第8章 深度模型中的优化 风险最小化→经验风险最小化→代理损失函数最小化 批量/确定性梯度算法:使用整个训练集的优化算法 随机/在线算法:每次只使用单个样本的优化算法 小批量/小批量随机/随机算法:介于批量算法和在线算法的样本量之间 小批量算法优势: 更大的批量会计算更精准的梯度,但回报小于线性($n个样本均值的标准差为 \frac{\sigma}{\sqrt{n}}$) 极小批量难以充分利用多核架构 批量处理中的样本可以并行计算 在GPU上使用2的幂数作为批量大小可以获取更少的运行时间,...

【Deep Learning】第7章 深度学习中的正则化

第7章 深度学习中的正则化 参数范数惩罚 正则化后的目标函数$\tilde{J}(\theta;X,y)=J(\theta;X,y)+\alpha\Omega(\theta)$ 其中$\alpha\in [0,\infty)$是权衡范数惩罚项$\Omega$和标准目标函数$J$相对贡献的超参数 最小化正则化后的目标函数$\tilde{J}$会降低标准目标$J$关于测试集的误差并减小在某些衡量标准下参数子集$\theta$的规模 神经网络中,参数包括每一层仿射变换的权重和偏置,通常只对权重做正则惩罚,不对偏...

【Deep Learning】第6章 前馈神经网络

第6章 前馈神经网络 深度前馈网络(deep feedforward network) 前馈神经网络(feedforward neural network) 多层感知机(multilayer perception,MLP) 前馈:信息流过$x$的函数,流经$f$的中间计算过程,最终达输出$y$ 前馈模型输出与模型本身之间没有就反馈连接 循环神经网络:前馈神经网络扩展成包含反馈连接 网络:通常用许多不同函数复合在一起表示 深度:函数的链式结构$f(x)=f^{3}(f^{2}(f^{1}(x)))$;$f^...

【Deep Learning】第5章 机器学习基础

第5章 机器学习基础 监督学习和无监督学习没有清晰的界限 概率的链式法则表明表面上的无监督学习可分解为n个监督学习 监督问题可利用无监督学习获取联合分布进行贝叶斯推断 数据表示方式:设计矩阵为主,样本向量的集合、图…… 对训练集和测试集数据假设采用数据生成过程的随机分布生成,假设i.i.d,则训练集和测试集共享相同的数据生成分布,即训练集误差期望与测试集误差期望一致 奥卡姆剃刀 Vapnik-Chervonenkis维度(VC维) 深度学习中的一般非凸优化问题只有很少的理论分析 最近邻回归 理想...

【Deep Learning】第4章 数值问题

第4章 数值计算 数值问题 下溢:接近0的数被四舍五入为0;导致零除问题 上溢:大量级的数被近似为$\infty$ softmax函数:$softmax(x){i}=\frac{e^{x{i}}}{\sum\limits_{j=1}^{n}e^{x_{j}}}$ 当所有$x_i=c$且$c$为很小的负数,$e^{c}$会下溢;当$c$是非常大的正数,$e^c$会上溢 令$softmax(z)$,其中$z=x-max_{i}x_{i}$解决问题 指数的参数最大为0,排除上溢 分母中至少有一项值为1,排除下溢 ...

【Deep Learning】第3章 概率与信息论

第3章 概率与信息论 频率派概率:概率直接与事件发生的频率相联系 贝叶斯概率:概率涉及确定性水平 离散型变量概率质量函数PMF 连续型变量概率密度函数PDF 累计分布函数CDF 符号“;”表示以x为参数 $u(x;a,b)$以$x$为自变量,$a$和$b$作为定义函数的参数 随机变量独立性$x\perp y$ 随机变量条件独立$x\perp y | z$ 随机向量$x\in \mathbb{R}^{n}$的协方差矩阵$_{n\times n}$ $Cov(x){i,j} = Cov(x{i}, x_...