欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 房产 > 建筑 > 深度学习:基础与概念(第1章:深度学习革命)

深度学习:基础与概念(第1章:深度学习革命)

2025/6/18 19:41:23 来源:https://blog.csdn.net/m0_73672030/article/details/148700142  浏览:    关键词:深度学习:基础与概念(第1章:深度学习革命)

目录

第1章:深度学习革命

1.1深度学习的影响

1.1.1医疗诊断

1.1.2蛋白质结构预测

1.1.3图像合成

1.1.4大语言模型

1.2一个教学示例

1.2.1合成数据

1.2.2线性模型

1.2.3误差函数

1.2.4模型复杂度

1.2.5正则化

1.2.6模型选择

1.3机器学习简史

1.3.1单层网络

1.3.2反向传播

1.3.3深度网络


《深度学习:基础与概念》作者:Christopher M. Bishop(PRML之父)& Hugh Bishop,这是一本 Bishop 父子二人耗时 16 年打磨 的深度学习教材,被誉为“PRML 的时代续作”。

“不是一本快餐式 AI 入门书,而是一本帮你建立系统AI认知的现代教材。”这不是教你怎么调包,而是教你怎么理解深度学习为什么这样设计,哪些公式来自哪种假设,哪些结构解决了什么问题。不仅系统讲解神经网络、激活函数、概率图模型,还深入讲解了LLM 的底层架构和建模思路

本系列将带大家重温这部“AI新圣经”,相关学习资源链接:深度学习基础与概念。

第1章:深度学习革命

机器学习作为重要且发展迅速的技术领域,其基于数据学习的解决方案正逐步替代传统手工设计算法,带来性能提升与新能力开发。深度学习是机器学习分支,以神经网络为理论基础,而人工智能领域致力于重现人脑能力,如今 “机器学习” 和 “人工智能” 常被混用,当前很多人工智能系统实则是机器学习的特定应用,与人类大脑能力有差距,为此引入通用人工智能概念。经过长期发展,机器学习进入快速发展阶段,近期大语言模型这类深度学习系统展现出卓越能力,被视为通用人工智能的初步迹象。

  • 机器学习的重要性与发展趋势:机器学习是当下极为重要且发展迅猛的技术领域。它在各个领域广泛应用,基于数据学习的方案逐步取代传统手工设计算法,不仅提升现有技术性能,还为全新能力开发创造可能。若新算法完全依赖人工设计,许多能力将难以实现。
  • 深度学习的概念与基础:深度学习作为机器学习的分支,是强大且通用的数据学习框架。其理论基础是神经网络计算模型,该模型受人类大脑学习和信息处理机制启发而产生。
  • 人工智能与机器学习的关系及现状:人工智能领域旨在让机器重现人脑强大能力,现在 “机器学习” 和 “人工智能” 常被交替使用。当前多数人工智能系统是机器学习在特定领域的应用,虽实用但与人类大脑能力差距大。
  • 通用人工智能概念与机器学习发展:为构建更具灵活性的智能系统,引入 “通用人工智能” 概念。机器学习经过几十年稳步发展进入快速发展阶段,近期大语言模型这类庞大深度学习系统展现卓越能力,被视为通用人工智能初步迹象。

1.1深度学习的影响

1.1.1医疗诊断

黑色素瘤危险但早发现可治愈,区分恶性黑色素瘤与良性痣的图片极具挑战,人工编写算法难以实现准确分类。深度学习成功解决此问题,通过构建含大量标注病变图像的训练集,确定深度神经网络约 2500 万个权重参数,完成学习或训练,使神经网络能预测病变性质,这是监督学习与分类问题的典型案例。由于可用标注训练图像少,研究人员先在含 128 万幅日常物体图像的数据集预训练神经网络,再在皮肤病变图像数据集微调,即迁移学习,最终深度学习对皮肤病变图像分类准确率超专业皮肤科医生。

上面的一行图像是危险的恶性黑色素瘤,下面的一行图像是良性痣。未经专业训练的人很难区分这两类皮肤病变类型。

1.1.2蛋白质结构预测

蛋白质作为生物体的基石,由氨基酸长链组成,其特性取决于氨基酸序列,合成后会折叠成复杂三维结构,该结构决定其行为与相互作用。如何依据氨基酸序列推导蛋白质三维结构是生物学界长期难题,深度学习带来突破。虽可通过 X 射线晶体学等实验技术测定蛋白质三维结构,但过程耗时,对某些蛋白质测定有挑战。而确定氨基酸序列成本低、产出高,所以从氨基酸序列预测蛋白质三维结构备受关注,可借助深度学习模型以氨基酸序列为输入、蛋白质三维结构为输出进行训练,这属于监督学习,训练后的系统能预测新氨基酸序列对应的三维结构。

一种名为 T1044/6VR4 的蛋白质的三维形状。绿色结构展示了通过 X 射线晶体学确定的真实三维结构,而叠加在上面的蓝色结构展示了深度学习模型 AlphaFold 预测的三维结构。

1.1.3图像合成

无监督学习的图像生成:训练数据为无标注的样本图像,神经网络通过训练学会生成类似的新图像,这种训练方式属于无监督学习。例如在摄影棚单色背景下人脸图像集训练的深度神经网络,生成的合成图像质量极高,难以与真人照片区分。这与之前有标注数据的监督学习应用不同,开启了神经网络在图像生成领域的新探索。

生成式模型:因该模型能生成与训练数据不同但具备类似统计特性的结果,故而得名。它突破了传统模型对已有数据的简单拟合,能够创造出具有相似特征的新数据。如通过对人脸图像的学习,生成新的、不同的人脸图像。这种生成能力为诸多领域带来了新的可能性,像是艺术创作、虚拟内容生成等。

生成式 AI 的概念:生成式 AI 包含了各种能生成图像、视频、音频、文本、候选药物分子或其他形态信息的深度学习模型。其中生成式模型的一个变体能够依据输入的文本字符串(提示词)生成反映文本语义的图像,这一特性使得文本与图像之间建立了新的联系,在图像设计、广告制作等方面有巨大应用潜力。

1.1.4大语言模型

LLM 利用深度学习构建内部表征捕捉语言语义,其中自回归语言模型属于生成式 AI,能以词序列为输入生成下一个词,通过不断重复该过程产生长文本,还能输出 “停止” 词结束文本生成,用户可在末尾添加自定义词序列重输入模型继续生成,实现与神经网络对话。这类模型通过在大型文本数据集提取训练对进行自监督学习,无需人工标注,可利用大量文本训练超大规模神经网络。部分专家视展现非凡能力的大语言模型为通用人工智能雏形。

基于 GPT - 4 的语言生成示例,GPT - 4 能针对特定提示以特定风格展开争论来证明素数有无穷多个。

1.2一个教学示例

1.2.1合成数据

输入变量用 x^{_{}} 表示,目标变量用 t 表示,二者在实数轴连续取值,给定训练包集含N个 x^{_{}} 观测值 x_n 及相应t^{}观测值 t_n ,机器学习关键目标是对未见过输入准确预测,即泛化能力。接着以从正弦函数采样生成的合成数据集为例,N个数据点的训练集,x^{_{}} 在区间[0,1]均匀采样,t_n​ 由 \sin (2\pi x) 加随机噪声得到,这种方式模拟现实数据集有潜在规律但被噪声干扰的特性。

  • 机器学习预测目标:在机器学习场景中,以 x^{_{}} 表示输入变量, t 表示目标变量,二者于实数轴连续取值。给定训练集有N个 x^{_{}} 的观测值 x_n 与对应的t观测值 t_n ​。其核心目标是依据x^{_{}}的新值预测相应 t 的值,且对未曾见过的输入具备准确预测能力,此即泛化能力。比如在实际的图像识别中,模型通过对大量已标注图像的学习,当面对新的未见过的图像时,能准确判断出图像中的物体类别,这就是泛化能力的体现。
  • 合成数据集示例:为说明机器学习概念,采用从正弦函数采样生成的合成数据集。训练集由N个数据点组成,输入值 x^{_{}} 在[0,1]区间均匀采样,对应的目标值 t_n ​是先计算 \sin (2\pi x) 的值,再添加由高斯分布控制的少量随机噪声。就像在模拟一个物理实验,假设物理量 t 与 x^{_{}} 理论上符合正弦函数关系,但实际测量时会受到各种随机因素干扰,类似现实世界中许多数据集存在潜在规律却被噪声干扰的情况。
  • 数据生成过程的意义:在该示例中,虽事先知晓数据由正弦函数生成,但在机器学习实际应用里,通常是不知晓数据生成过程的。不过,了解数据生成过程对阐明机器学习重要概念很有帮助。例如理解模型如何从噪声数据中提取真实规律,以及怎样通过调整模型去适应不同噪声环境,更好地拟合数据和进行预测。

一个由N=10个数据点组成的训练集,以蓝色圆点显示,其中每个数据点包含了输入变量 x^{_{}} 及其对应的目标变量 t 的观测值。绿色曲线显示了用来生成数据的函数 \sin (2\pi x) 。我们的目标是在不知道绿色曲线的情况下,预测新的输入变量 x^{_{}} 所对应的目标变量 t 的值。

1.2.2线性模型

目标是利用训练集预测输入变量新值对应的目标变量值,此过程需发现潜在函数 \sin (2\pi x) ,但因要从有限数据集推广到整个函数,且观测数据受噪声干扰,导致给定输入变量时目标变量取值存在不确定性。概率论提供表达这种不确定性的框架,决策论可利用概率表示做出最优预测,从数据中学习概率是机器学习核心。

基于曲线拟合的简单方法,即使用多项式函数拟合数据,多项式函数形式:

其中多项式虽对自变量 x^{_{}} 是非线性,但对系数 w 是线性,这种关于未知参数呈线性的函数被称为线性模型。

1.2.3误差函数

多项式系数的确定方法,即通过拟合训练数据来确定,具体是通过最小化误差函数实现。一种广泛使用的简单误差函数 —— 平方和误差函数,它是预测值与目标值差的平方和的二分之一,从概率论可推导此误差函数,且其具有非负性,函数值为零意味着多项式函数正好通过每个训练数据点。

  • 多项式系数的确定方式:多项式系数的值要通过拟合训练数据来确定,实现的途径是最小化误差函数。误差函数用于度量对于给定的 w ,函数 y(x,y) 与训练集中数据点之间的拟合误差。这一过程旨在找到最合适的系数,使得构建的多项式函数能够最佳地匹配训练数据。例如,在一个简单的数据集上进行多项式拟合,就需要通过这种方式来确定多项式各项的系数。
  • 平方和误差函数:这是一种广泛使用的简单误差函数,它是每个数据点的预测值与相应目标值之间差的平方和的二分之一。引入系数  \frac{1}{2}  是为了后续计算方便。此误差函数具有非负性,只有当函数 y(x,w) 正好通过每个训练数据点时,其值才等于零。比如在对一组房价数据进行预测时,预测值与实际房价的差值通过平方和误差函数来衡量拟合的好坏。
  • 曲线拟合问题的解决:通过选择能使 E(w) 尽可能小的 w 值来解决曲线拟合问题。因为平方和误差函数是系数 w 的二次函数,对系数的导数是系数 w 的线性函数,所以该误差函数的最小化有唯一解 w^* ,并且可通过解析形式求得封闭解(解析解)。最终得到的多项式由函数 y(x,w^*) 给出。例如在对散点数据进行曲线拟合时,就能利用这个方法找到最佳的拟合曲线。

平方和误差函数的几何解释(该误差函数对应来自函数 y(x,w)  的每个数据点的位移(如垂直的绿色箭头所示)平方和的一半)。

1.2.4模型复杂度

面临选择多项式的阶数 M 的问题,这将引出模型比较(model comparison)或模型选择(model selection)这一重要概念。

分别使用阶数 M = 0,1,3,9 的多项式来拟合1.2.1的数据集。

常数(M = 0)和一阶(M = 1)多项式对数据拟合差,对函数 \sin (2\pi x) 表示差。三阶(M = 3)多项式对该函数拟合最佳。高阶(M = 9)多项式对训练数据完美拟合,误差 E(w^*)=0 ,但曲线波动剧烈,不能反映函数真实形态,此现象为过拟合(over-fitting)。 

我们目标是让模型有良好泛化能力,能对新数据准确预测。为定量探究泛化性能与模型复杂度 M 的依赖关系,引入含100个数据点的独立测试集,其生成方式与训练集相同。对每个 M 值,可算出模型在训练集和测试集上的残差 E(w^*)  。与评估误差函数 E(w) 相比,有时用均方根误差更方便,其定义如下: 

  • 公式设计目的公式中 1/N 与求平方根的意义。在相关公式里,使用 1/N ,是为了使不同规模大小的数据集,都能够在统一的基准条件下进行相互比较。而对误差求平方根这一操作,其关键目的在于确保均方根误差(如 ER 、 ERMS​ )与目标变量 t 处于相同的度量尺度,也就是具有相同的单位,这样才能保证误差测量的准确性和有效性,使得不同数据集的误差衡量具有可比性。

  • 不同 M 值下模型表现从 RMS 误差图看模型特性。通过上图展示不同 M 值的训练集和测试集的 RMS 误差,测试集误差反映对新数据的预测能力。当 M 值较小时,多项式模型灵活性欠佳,无法捕捉如 \sin (2\pi x) 函数中的振荡,导致测试集误差较大;当 M 取值在 [3,8] 这个区间时,测试集误差较小,模型能较好地表示数据生成函数 \sin (2\pi x) ;当 M=9 时,训练集误差降为零,因其 10 个自由度可精确适配 10 个训练数据点,但测试集误差却变得极大,函数出现剧烈振荡。

  • 模型过拟合原因分析从系数变化看模型过拟合。观察上表中不同阶数多项式拟合得到的系数 w^*,随着 M 值增加,系数幅度急剧增大。以 M=9 为例,为使多项式曲线精准穿过每个数据点,系数被调整到很大的正值或负值,然而在数据点之间,尤其在数据范围两端附近,曲线出现大幅度摆动,这表明当多项式模型 M 值较大变得更灵活时,易受目标值随机噪声影响,从而过度拟合噪声。
  • 数据集大小与模型关系数据量对模型学习效果的影响。随着数据集大小变化,模型学习效果会相应改变。当模型复杂度固定时,数据集越大,过拟合现象就越不明显,意味着数据量越大,就可以采用更复杂(更灵活)的模型去拟合数据。经典统计学认为训练数据点数量应至少是模型可学习参数数量的若干倍(如 5 倍或 10 倍),但深度学习中即使模型参数数量远超训练数据点数量,也可能获得出色结果。

  • 使用 M = 9 的多项式最小化平方和误差函数所获得的解决方案(左图为拟合 N=15 个数据点所获得的解,右图为拟合 N=100 个数据点所获得的解。可以看到,大的数据集可以减少过拟合)。

1.2.5正则化

依据可用训练集大小限制模型参数数量效果欠佳,按问题复杂性选择模型复杂性更合理。作为限制参数数量替代方案,正则化技术常被用于控制过拟合。其通过向误差函数添加惩罚项抑制系数过大,最简单惩罚项是所有系数平方和,误差函数改变:

系数控制正则化项与平方和误差项的相对重要性,正则化项通常不含系数w_0​,否则结果受目标变量原点影响,当然也可包含但需单独配置正则化系数。此方法在统计学文献中称收缩方法,神经网络领域叫权重衰减。通过对 9 阶多项式拟合实验展示正则化效果,合适的正则化参数可抑制过拟合,过大则欠拟合,表格也显示正则化减小了系数幅度。

绘制训练集和测试集的 RMS 误差与正则化参数关系,能看出正则化对泛化误差的影响。

1.2.6模型选择

超参数如 \lambda、多项式阶数 M 不能单纯通过最小化误差函数确定,否则易致过拟合。将数据集划分为训练集、验证集和测试集是一种思路,训练集确定模型系数 w,选验证集误差最小模型,测试集评估最终模型性能。但实际数据有限,验证集规模小会使评估偏差大,交叉验证技术可解决此问题,它能充分利用数据训练并评估模型,极端情况是留一法。不过交叉验证训练次数增加,对于复杂超参数组合探索成本高。现代机器学习因模型和数据集大,超参数设置依赖经验和启发式方法。

  • 超参数确定问题:在确定模型参数 w 过程中,超参数 \lambda 值不变。不能同时对 w 和 \lambda 最小化误差函数确定 \lambda,否则 \lambda 趋近 0 导致过拟合,多项式阶数 M 同理。简单优化训练集误差关于 M 取值会使 M 过大引发过拟合,所以需有效方法确定超参数合理取值。
  • 数据集划分思路:把已有数据集划分为训练集、验证集(也称保留集或开发集)和测试集。训练集确定模型系数 w,选择在验证集上误差最小的模型,测试集评估最终选定模型性能。但有限规模数据集多次迭代模型设计可能对验证集过拟合。
  • 交叉验证技术:在实际数据有限时,验证集规模小会使模型预测性能评估偏差大,交叉验证技术可解决。它允许用大部分数据训练模型,同时利用全部数据评估性能,极端情况为留一法。但缺点是训练次数增加 S 倍,对于复杂超参数组合探索成本高。
  • 现代机器学习挑战:现代机器学习模型和训练数据集大,超参数设置探索空间有限,依赖小模型经验和启发式方法。实际应用比示例复杂,数据量和输入变量大幅增加,神经网络模型参数海量,误差函数需迭代优化,对计算机硬件要求高且计算成本大。

1.3机器学习简史

神经网络受人类及哺乳动物大脑信息处理机制启发,大脑中神经元通过突触连接形成复杂网络,神经元间的刺激、抑制及突触连接强度变化是大脑存储信息和学习的关键。

这些特性被抽象为人工神经网络(ANN)这一简单数学模型,成为计算学习方法基础。

 神经网络的生物学启发:神经网络模型最初灵感源于人类和其他哺乳动物大脑的信息处理机制。大脑中处理信息的基本单元是神经元,当神经元放电,会沿轴突发送电脉冲至突触,突触释放神经递质刺激或抑制后续神经元放电。人脑约有900亿个神经元,每个平均与数千个神经元通过突触相连,形成含约100万亿个突触连接的复杂网络。神经元能否引发另一神经元放电取决于突触连接强度,而突触连接强度的动态变化是大脑存储信息与经验学习的关键所在。
人工神经网络的数学模型:神经元的属性被抽象为人工神经网络(ANN)这一数学模型。诸多此类模型通过对其他神经元输出的线性组合描述单个神经元特性,再用非线性函数转换。其数学表达式为 $y = f(\sum_{i = 1}^{M} w_{i}x_{i} + b)$ ,其中$x_{i}$是与向该神经元发送连接的其他神经元活动对应的输入, $w_{i}$ 是权重表示突触强度, $a=\sum_{i = 1}^{M} w_{i}x_{i} + b$ 称为预激活,非线性函数 $f(·)$ 是激活函数,输出 $y$ 为激活。

1.3.1单层网络

人工神经网络的历史依复杂程度可分三个阶段,以处理 “层数” 衡量。简单神经网络模型具单层处理能力。感知机模型在神经计算历史中地位重要,其激活函数为阶跃函数:

可视为简化神经元放电模型,由 Rosenblatt 首创并开发了特定训练算法,若存在完美分类训练数据的权重值,算法能在有限步收敛。感知机虽有多层,但仅一层可从数据学习,被视为 “单层” 神经网络。它曾让人惊叹能像大脑一样学习,不过 Minsky 和 Papert 分析并证明其能力局限,还推测多层神经网络也有此局限,虽然后来证明该猜想错误,但当时极大打击了人们对神经网络模型的热情,导致 20 世纪 70 年代和 80 年代初神经网络领域缺乏关注与资金投入。因缺乏有效训练算法,研究受限,感知机仅适用于单层模型,虽已在实际应用中消失,但术语流传,现代神经网络有时称多层感知机

1.3.2反向传播

本文围绕训练多层可学习参数神经网络展开,阐述了相关改进、训练方法及发展历程中的起伏。通过应用微分学和基于梯度的优化方法,用连续可微激活函数替代阶跃函数,引入可微误差函数,得到能计算关于每个参数偏导数的误差函数,由此构建前馈神经网络:

训练时先随机初始化参数,利用误差反向传播计算偏导数,借助基于梯度的优化技术迭代更新,随机梯度下降是常用方法。该突破引发研究热潮,研究重心向构建严谨理论基础发展,认识到概率论、统计学及先验知识的重要性。但多层神经网络存在问题,仅最后两层权重参数能学到有效信息,常需人工特征提取预处理,2000 年神经网络发展受限,研究人员开始探索替代方法。

  • 神经网络的改进:为解决训练多层可学习参数神经网络问题,一是用具有非零梯度的连续可微激活函数替换原有的阶跃函数,二是引入可微误差函数,它能量化评估模型在给定参数配置下对训练集中目标变量的预测效果,如平方和误差函数用于多项式拟合就是此类误差函数的示例。这些改进使误差函数能计算关于网络模型每个参数的偏导数,为构建多层网络结构奠定基础。
  • 前馈神经网络及训练:得到改进后的误差函数后,可考虑多层参数网络结构,如包含两层参数的简单网络模型,中间层节点为隐藏单元,其值不出现在训练数据中。隐藏单元和输出单元按特定函数计算值,对于给定输入,通过迭代应用相关式子进行前向计算,信息沿箭头方向逐层向前传递,这类模型称为前馈神经网络。训练时先利用随机数生成器初始化参数,再通过误差反向传播计算误差函数偏导数,运用基于梯度的优化技术迭代更新,随机梯度下降是常用的优化算法。
  • 神经网络发展的转折:能训练多层权重神经网络是重大突破,自 20 世纪 80 年代中期引发研究热潮,研究重心向构建严谨理论基础发展,意识到概率论、统计学核心思想及先验知识在该领域的重要性,先验知识可显式融入模型设计或隐式蕴含在模型数学形式与训练方法中。然而,多层神经网络存在局限,通常仅最后两层权重参数能学到有效信息,除卷积神经网络外,多层网络模型应用效果不佳,常需人工特征提取预处理。到 2000 年,神经网络发展受限,研究人员开始探索核方法、支持向量机等替代方法。

1.3.3深度网络

21 世纪第二个十年开启此阶段,一系列突破让多层权重的神经网络能有效训练。深度学习发展中,神经网络模型规模显著扩张,参数数量从 20 世纪 80 年代的数百数千增长到如今前沿模型的一万亿量级。大规模模型需海量数据集训练,这对计算能力提出挑战。GPU 因架构适配神经网络训练需求,大规模模型训练常需数千块 GPU 的集群。

上图展示训练先进神经网络模型计算量演变,有两个显著增长阶段,2012 年前计算需求翻倍周期约 2 年,与摩尔定律相符,2012 年深度学习时代后,翻倍周期锐减至 3.4 个月,计算能力每年增长 10 倍。

  • 深度学习的开端:神经网络发展的当前阶段始于 21 世纪的第二个十年,一系列突破使得具有多层权重的神经网络能够被有效训练,消除了此前的能力限制。这种具有多层权重的网络被称为深度神经网络,专注于这类网络的机器学习子领域就是深度学习。深度学习的出现,开启了神经网络发展的新篇章,为后续诸多技术突破和应用拓展奠定了基础。
  • 神经网络模型规模的扩张:深度学习发展历程的关键主题是神经网络模型规模显著扩张,突出表现为模型参数数量爆炸式增长。20 世纪 80 年代常见数百或数千参数的模型,之后稳步攀升至数百万乃至数十亿,目前最前沿模型参数达一万亿量级。模型规模的不断扩大,提升了模型的表达能力和处理复杂任务的能力,但也带来了新的挑战。
  • 训练需求与计算能力的挑战:拥有海量参数的神经网络模型需要庞大的数据集来训练以有效赋值参数,这种大模型与海量数据的结合,对模型训练的计算能力提出前所未有的挑战。例如,当前最大规模模型的训练需在含数千块 GPU 的大规模计算集群上完成,这凸显了计算能力对于深度学习发展的重要支撑作用。
  • GPU 的适配与应用:GPU 最初为满足视频游戏等高速图形渲染需求开发,后发现其架构能很好适配神经网络训练。神经网络中某一层单元运算可高度并行,与 GPU 大规模并行计算架构契合。如今大规模模型训练多依赖含数千块 GPU 的集群,通过专用高速网络通信,大大提高了训练效率。
  • 计算量演变趋势:上图描绘了训练先进神经网络模型计算量的演变,呈现两个特征显著的增长阶段。2012 年前计算需求翻倍周期约 2 年,与摩尔定律预测的计算性能增长趋势相符;2012 年进入深度学习时代后,翻倍周期锐减至 3.4 个月,计算能力每年增长 10 倍,反映出深度学习对计算量需求的急剧增长。
  • 扩大训练数据量的影响:在深度学习中,通过架构创新或复杂归纳偏置实现的性能改进,往往易被简单扩大训练数据量所替代,与此同时,模型规模和训练所需计算能力也会相应扩展。大语言模型就是很好的体现,它凭借单个网络展现出非凡能力广度,甚至超越为特定问题设计的专业网络,能在特定任务中表现优异,还能用同一训练好的神经网络解决更广泛范围的问题。
  • 神经网络深度与表示学习:网络深度对神经网络实现卓越性能十分关键。从表示学习角度理解,神经网络能将原始输入数据转化为富含语义信息的新表示形式,降低后续网络层处理问题的难度。学习到的内部表示可通过迁移学习应用于其他相关问题,例如在皮肤病变分类任务中。并且,处理图像的神经网络模型学习到的内部表示,与哺乳动物视觉皮层的神经表征极为相似。
  • 基础模型:能够针对一系列下游任务进行适配或微调的大规模神经网络模型被称作基础模型。这类模型可充分利用海量且多样化的数据集,进而构建出具有广泛适用性的通用模型。它能有效发挥大规模数据的优势,为解决不同领域的问题提供有力支持。
  • 深度学习的其他关键进展:除了规模化,深度学习成功还有其他重要因素。比如残差连接技术,解决了传统简单神经网络中训练信号在深度网络中逐层反向传播时逐渐衰减的问题,大大提高了数百层深度网络的训练效率。自动微分方法可基于网络前向传播代码,自动生成用于反向传播计算误差函数梯度的代码,方便研究人员快速探索不同神经网络架构。机器学习领域基于开源模式开展大量研究工作,借助他人成果进一步加快了领域创新步伐。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词