分类 Transformer快速入门 下的文章


撰写于:  浏览:3 次  分类:Transformer快速入门
Transformer与CNN作为深度学习领域两大主流架构,各自代表了不同的建模哲学。CNN以卷积核为核心,通过局部感受野和权值共享机制,天然适合处理具有空间局部相关性的数据。其归纳偏置建立在三个基本假设之上:局部性、平移等变性和层次化组合。这种强先验使得CNN在小样本场景下具有极好的泛化能力,几十个样本就能学到有意义的特征提取器。但这也构成了CN[...]

撰写于:  浏览:6 次  分类:Transformer快速入门
划时代的诞生与核心思想2017年,谷歌研究团队的八位科学家发表了一篇具有里程碑意义的论文,其简洁有力的标题迅速成为AI领域的革命宣言。这篇论文所提出的Transformer模型架构,彻底颠覆了当时由循环神经网络(RNN)及其变体(如LSTM、GRU)所主导的序列建模范式。在Transformer诞生之前,处理语言、语音等序列数据的标准方法依赖于循环[...]

撰写于:  浏览:7 次  分类:Transformer快速入门
为什么我们需要一种新的网络结构在Transformer出现之前,如果我们想让计算机理解一段话,比如“我昨天在河边看见一只猫,它很可爱”,通常会使用一种叫做“循环神经网络”(RNN)的模型。你可以把RNN想象成一个按顺序阅读的人,它一个字一个字地读:“我”、“昨天”、“在”、“河边”……每读一个新词,它都要结合前面积累的记忆来更新自己的理解。这种工作[...]