Cao Zihang - Blog

「抵近知识无人区」

【Deep Learning】第9章 卷积网络

第9章 卷积网络 卷积神经网络CNN是一种专门用来处理具有类似网格结构的数据的神经网络 常用于时间序列数据(时间轴上的一维网格)和图像数据 卷积是一种线性运算 卷积网络指至少在网络的一层中使用卷积运算来代替一般的矩阵乘法运算的神经网络 卷积运算 通常用$\ast$表示卷积运算 $(x\ast w)(t)$一种加权平均的平滑估计 $x$为输入;$w$为核函数;输出有时被称作特征映射 卷起来 连续形式卷积:$s(t)=(x\ast w)(t)=\int x(a)w(t-a)da$ 离散形式卷积:$s(t...

【Deep Learning】第8章 深度模型中的优化

第8章 深度模型中的优化 风险最小化→经验风险最小化→代理损失函数最小化 批量/确定性梯度算法:使用整个训练集的优化算法 随机/在线算法:每次只使用单个样本的优化算法 小批量/小批量随机/随机算法:介于批量算法和在线算法的样本量之间 小批量算法优势: 更大的批量会计算更精准的梯度,但回报小于线性($n个样本均值的标准差为 \frac{\sigma}{\sqrt{n}}$) 极小批量难以充分利用多核架构 批量处理中的样本可以并行计算 在GPU上使用2的幂数作为批量大小可以获取更少的运行时间,...

【Deep Learning】第7章 深度学习中的正则化

第7章 深度学习中的正则化 参数范数惩罚 正则化后的目标函数$\tilde{J}(\theta;X,y)=J(\theta;X,y)+\alpha\Omega(\theta)$ 其中$\alpha\in [0,\infty)$是权衡范数惩罚项$\Omega$和标准目标函数$J$相对贡献的超参数 最小化正则化后的目标函数$\tilde{J}$会降低标准目标$J$关于测试集的误差并减小在某些衡量标准下参数子集$\theta$的规模 神经网络中,参数包括每一层仿射变换的权重和偏置,通常只对权重做正则惩罚,不对偏...

【Deep Learning】第6章 前馈神经网络

第6章 前馈神经网络 深度前馈网络(deep feedforward network) 前馈神经网络(feedforward neural network) 多层感知机(multilayer perception,MLP) 前馈:信息流过$x$的函数,流经$f$的中间计算过程,最终达输出$y$ 前馈模型输出与模型本身之间没有就反馈连接 循环神经网络:前馈神经网络扩展成包含反馈连接 网络:通常用许多不同函数复合在一起表示 深度:函数的链式结构$f(x)=f^{3}(f^{2}(f^{1}(x)))$;$f^...

【Deep Learning】第5章 机器学习基础

第5章 机器学习基础 监督学习和无监督学习没有清晰的界限 概率的链式法则表明表面上的无监督学习可分解为n个监督学习 监督问题可利用无监督学习获取联合分布进行贝叶斯推断 数据表示方式:设计矩阵为主,样本向量的集合、图…… 对训练集和测试集数据假设采用数据生成过程的随机分布生成,假设i.i.d,则训练集和测试集共享相同的数据生成分布,即训练集误差期望与测试集误差期望一致 奥卡姆剃刀 Vapnik-Chervonenkis维度(VC维) 深度学习中的一般非凸优化问题只有很少的理论分析 最近邻回归 理想...

【Deep Learning】第4章 数值问题

第4章 数值计算 数值问题 下溢:接近0的数被四舍五入为0;导致零除问题 上溢:大量级的数被近似为$\infty$ softmax函数:$softmax(x){i}=\frac{e^{x{i}}}{\sum\limits_{j=1}^{n}e^{x_{j}}}$ 当所有$x_i=c$且$c$为很小的负数,$e^{c}$会下溢;当$c$是非常大的正数,$e^c$会上溢 令$softmax(z)$,其中$z=x-max_{i}x_{i}$解决问题 指数的参数最大为0,排除上溢 分母中至少有一项值为1,排除下溢 ...

【Deep Learning】第3章 概率与信息论

第3章 概率与信息论 频率派概率:概率直接与事件发生的频率相联系 贝叶斯概率:概率涉及确定性水平 离散型变量概率质量函数PMF 连续型变量概率密度函数PDF 累计分布函数CDF 符号“;”表示以x为参数 $u(x;a,b)$以$x$为自变量,$a$和$b$作为定义函数的参数 随机变量独立性$x\perp y$ 随机变量条件独立$x\perp y | z$ 随机向量$x\in \mathbb{R}^{n}$的协方差矩阵$_{n\times n}$ $Cov(x){i,j} = Cov(x{i}, x_...

【Deep Learning】第2章 线性代数

第2章 线性代数 深度学习中允许矩阵和向量相加 广播:隐式地复制n列向量$b$ $C=A+b, 其中C_{i,j} = A_{i,j} + b_{j}$ 即:向量$b$和矩阵$A$的每一行相加 Hadamard乘积:元素对应乘积 $A\bigodot B$ 范数 范数是将向量映射到非负值的函数(可用于距离衡量) $L^{p}范数:||x||{p} = (\sum\limits{i}|x_{i}|^{p})^{\frac{1}{p}}$ 二范数欧氏距离 平方$L^2$范数=$x^Tx$ 衡量向量大小,即...

【Deep Learning】第1章 引言

第1章 引言 深度学习概念 深度学习:让计算机从经验中学习,并根据层次化的概念体系来理解世界,每个概念则通过与某些相对简单的概念之间的关系来定义 是一种将世界表示为嵌套的层次概念体系的特定类型的机器学习 理解视角1:深度是学习器学习数据的正确表示的过程 表示学习:借助算法让学习器自动学习数据的隐式特征,使数据输入到学习器之中 类似于传统机器学习中的特征工程环节 典型算法:自编码器 编码器函数-解码器函数 深度学习利用简单概念构建复杂概念 理解视角2:深度是促使计算机学习一...

【日常】与朋友交流:研究的客观理性与社交媒体三则研究

‌‌‌ 朋友提出了一个如何在研究中保持客观理性的问题,颇有意思,就一起多讨论了一下,顺带着交流了几个有趣的研究,略作心理安慰。考虑到朋友是学外语的,所以很多内容都进行了简化以便于理解。 ​ 聊的内容不少,故秉持着尽可能不浪费的思路把聊天内容进行了简单梳理,在网页里滥竽充数。 一、如何在研究中保持客观理性? (一)人类无法形成客观理性的认知 ‌‌‌  首先,我只能先泼一盆冷水,人类目前没有方法形成客观理性的认知,所有人都一样。如果我们真的能够找到一个客观理性的认知的话,世界上就不会有这么多争议和社会问题了...