神经网络技术的核心:反向传播算法(BP算法)

在前面的文章中介绍训练一个模型,其主要区别就在于神经网络模型的架构;但可能很多人并不知道神经网络模型的核心算法就是——反向传播算法,也被叫做BP算法。 可能很多人都听说过反向传播算法,但可能很多人都没意识到反向传播算法对神经网络的重要性;可以说现在的神经网络模型就建立在反向传播算法之上,没有反向传播算法就没有神经网络的存在。 反向传播(BP)算法了解过人工智能发展史的人应该都知道,人工智能技术并不是最近才出现的新技术;在世界上第一台计算机出现之后的十年,人工智能的概念就已经被提出来了,但人工智能技术的发展却是最近几年才爆火的。

在前面的文章中介绍训练一个模型,其主要区别就在于神经网络模型的架构;但可能很多人并不知道神经网络模型的核心算法就是——反向传播算法,也被叫做BP算法。

可能很多人都听说过反向传播算法,但可能很多人都没意识到反向传播算法对神经网络的重要性;可以说现在的神经网络模型就建立在反向传播算法之上,没有反向传播算法就没有神经网络的存在。

神经网络技术的核心:反向传播算法(BP算法)

反向传播(BP)算法

了解过人工智能发展史的人应该都知道,人工智能技术并不是最近才出现的新技术;在世界上第一台计算机出现之后的十年,人工智能的概念就已经被提出来了,但人工智能技术的发展却是最近几年才爆火的。

但在爆火之前,人工智能技术已经经过了几十年的发展;而且人工智能技术的发展也有几个流派,也经过了几次大起大落。

特别是以仿生学为基础的神经网络模型,经过几次大起大落才走到了今天这个地步。

神经网络技术的核心:反向传播算法(BP算法)

神经网络模型的提出是基于神经元模型的提出,在1943年,心理学家McCulloch和数学家Pitts参考了生物神经元的结构;发表了抽象的神经元模型MP。而在1958年,计算科学家Rosenblatt提出了由单层神经元组成的神经网络——感知机,也就是世界上第一个神经网络模型。

但受限于当时的技术与理论,感知机只能解决最简单的线性分类任务;对异或这种简单的分类任务都无法解决,再加上受限于当时的计算能力,导致神经网络发展被搁置,这也使得神经网络模型的研究进入了一个冰河时期。

在1969年发现单层神经网络无法解决异或问题之后,又过了大概十年左右;由两层神经网络构成的多层感知机被提了出来;当神经网络增加一层之后,不但能够解决异或问题,而且还拥有非常好的非线性分类效果。

但多层感知机存在的一个主要问题还是计算问题,在多层感知机提出来时并没有一个很好的解决方案;直到1986年,Rumelhar和Hinton等人提出了反向传播算法(Backpropagation,BP算法);才解决了两层神经网络所需要的复杂计算量问题。

神经网络技术的核心:反向传播算法(BP算法)

而反向传播算法的启示是数学中的链式反则。

在此需要说明的是,尽管早期神经网络的研究人员努力从生物学中得到启发,但从BP算法开始,研究者们更多地从数学上寻求问题的最优解。不再盲目模拟人脑网络是神经网络研究走向成熟的标志。正如科学家们可以从鸟类的飞行中得到启发,但没有必要一定要完全模拟鸟类的飞行方式,也能制造可以飞天的飞机。

而后神经网络模型的发展又经过几次摧残,比如支持向量机的产生(SVM);尽管使用了BP算法,一次神经网络的训练仍然耗时太久,而且困扰训练优化的一个问题就是局部最优解问题,这使得神经网络的优化较为困难。同时,隐藏层的节点数需要调参,这使得使用不太方便,工程和研究人员对此多有抱怨。

多层神经网络——深度学习

2006年,Hinton在《Science》和相关期刊上发表了论文,首次提出了“深度信念网络”的概念。与传统的训练方式不同,“深度信念网络”有一个“预训练”(pre-training)的过程,这可以方便的让神经网络中的权值找到一个接近最优解的值,之后再使用“微调”(fine-tuning)技术来对整个网络进行优化训练。这两个技术的运用大幅度减少了训练多层神经网络的时间。他给多层神经网络相关的学习方法赋予了一个新名词--“深度学习”。

神经网络技术的核心:反向传播算法(BP算法)

由此,深度学习技术发展进入快车道,快速应用于图像处理,自然语言处理等领域;而后到谷歌工程师提出了Transformer架构,以及openAI基于Transformer架构开发了chatGPT聊天机器人神经网络模型。

在人脑的神经网络中,不同神经元之间的信号是实时传递和变化的;因此,反向传播算法就是计算不同神经网络层神经元的信号值;因此,也就解决了神经网络最核心的问题。

相关资讯

通过深度学习预测离散时间分岔

编辑 | 白菜叶许多自然和人造系统都容易发生关键转变——动态方面的突然且可能具有破坏性的变化。深度学习分类器可以通过从大型模拟训练数据集中学习分叉的通用特征,为关键转变提供预警信号。到目前为止,分类器仅被训练来预测连续时间分岔,忽略了离散时间分岔所特有的丰富动态。在这里,麦吉尔大学(McGill University)Thomas M. Bury 的研究团队训练一个深度学习分类器,为余维一的五个局部离散时间分岔提供预警信号。他们使用生理学、经济学和生态学中使用的离散时间模型的模拟数据以及经历倍周期分岔的自发跳动的鸡

GPDRP:基于图 Transformer 和基因通路的药物反应预测多模态框架

编辑 | X在计算个性化医学领域,药物反应预测(DRP)是一个关键问题。但是,现有的研究通常将药物描述为字符串,这种表示与分子的自然描述不符。此外,忽略了基因通路(pathway)特异性组合含义。近日,来自河南科技大学的研究人员提出了基于药物图和基因通路的药物反应预测方法(GPDRP),这是一种新的多模态深度学习模型,用于预测基于药物分子图和基因途径活性的药物反应。在 GPDRP 中,药物由分子图表示,而细胞系则以基因途径活性评分描述。该模型使用具有图 Transformer 和深度神经网络的图神经网络(GNN)分

AlphaFold 3 向解码分子行为和生物计算迈出重要一步,Nature 子刊锐评

编辑 | KX如果我们完全了解分子之间是如何相互作用的,那么生物学就没什么可学的了,因为每一种生物现象,包括我们如何感知世界,最终都源于细胞内生物分子的行为和相互作用。最近推出的 AlphaFold 3 可以直接从蛋白质、核酸及其配体的序列中预测生物分子复合物的 3D 结构。这标志着我们在长期探索生物分子如何相互作用方面取得了重大进展。AlphaFold 3 代表了直接从复合物序列预测其三维结构的突破,为生物分子相互作用提供了见解。生物分子(如蛋白质或核酸)的一维 (1D) 序列以类似于一段代码指定程序的方式指定细