锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

1.23 神经网络

时间:2022-09-24 05:00:00 e3t系列传感器gv传感器h8a传感器

1.23 神经网络

文章目录

  • 1.23 神经网络
    • @[toc] 第八,神经网络:表达(Neural Networks: Representation)
      • 8.1 非线性假设
      • 8.2 神经元和大脑
      • 8.3 模型表示1
      • 8.4 模型表示2
      • 8.5 特征与直观理解1(可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化为可转化and或者or门电路)
      • 8.6 样本和直观理解II(可以构建更复杂的函数)
      • 8.7 多类分类

第八,神经网络:表达(Neural Networks: Representation)

8.1 非线性假设

参考视频: 8 - 1 - Non-linear Hypotheses (10 min).mkv

无论是线性回归还是逻辑回归,我们以前学到的都有这样一个缺点:当特征过多时,计算负荷会很大。

以下是一个例子:

[外链图片存储失败,源站可能有防盗链机制,建议保存图片直接上传(img-6jvtlRoy-1642852713958)(…/images/5316b24cd40908fb5cb1db5a055e4de5.png)]

当我们使用 x 1 x_1 x1, x 2 x_2 x2 在预测多项式时,我们可以很好地应用它们。
正如我们之前所看到的,使用非线性多项式项可以帮助我们建立更好的分类模型。假设我们有很多特征,比如100多个变量,我们希望用这100个特征来构建一个非线性多项式模型,结果将是一个惊人的特征组合,即使我们只使用两个特征组合 ( x 1 x 2 x 1 x 3 x 1 x 4 . . . x 2 x 3 x 2 x 4 . . . x 99 x 100 ) (x_1x_2 x_1x_3 x_1x_4 ... x_2x_3 x_2x_4 ... x_{99}x_{100}) (x1x2 x1x3+x1x4+...+x2x3+x2x4+...+x99x100),我们也会有接近5000个组合而成的特征。这对于一般的逻辑回归来说需要计算的特征太多了。

假设我们希望训练一个模型来识别视觉对象(例如识别一张图片上是否是一辆汽车),我们怎样才能这么做呢?一种方法是我们利用很多汽车的图片和很多非汽车的图片,然后利用这些图片上一个个像素的值(饱和度或亮度)来作为特征。

假如我们只选用灰度图片,每个像素则只有一个值(而非 RGB值),我们可以选取图片上的两个不同位置上的两个像素,然后训练一个逻辑回归算法利用这两个像素的值来判断图片上是否是汽车:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rvhyDBVg-1642852713960)(…/images/3ac5e06e852ad3deef4cba782ebe425b.jpg)]

假使我们采用的都是50x50像素的小图片,并且我们将所有的像素视为特征,则会有 2500个特征,如果我们要进一步将两两特征组合构成一个多项式模型,则会有约 2500 2 / 2 { {2500}^{2}}/2 25002/2个(接近3百万个)特征。普通的逻辑回归模型,不能有效地处理这么多的特征,这时候我们需要神经网络。

8.2 神经元和大脑

参考视频: 8 - 2 - Neurons and the Brain (8 min).mkv

神经网络是一种很古老的算法,它最初产生的目的是制造能模拟大脑的机器。

在这门课中,我将向你们介绍神经网络。因为它能很好地解决不同的机器学习问题。

神经网络逐渐兴起于二十世纪八九十年代,应用得非常广泛。但由于各种原因,在90年代的后期应用减少了。但是最近,神经网络又东山再起了。其中一个原因是:神经网络是计算量有些偏大的算法。然而大概由于近些年计算机的运行速度变快,才足以真正运行起大规模的神经网络。正是由于这个原因和其他一些我们后面会讨论到的技术因素,如今的神经网络对于许多应用来说是最先进的技术。当你想模拟大脑时,是指想制造出与人类大脑作用效果相同的机器。大脑可以学会去以看而不是听的方式处理图像,学会处理我们的触觉。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JLfuBMCP-1642852713961)(…/images/7912ea75bc7982998870721cb1177226.jpg)]

大脑的这一部分这一小片红色区域是你的听觉皮层,你现在正在理解我的话,这靠的是耳朵。耳朵接收到声音信号,并把声音信号传递给你的听觉皮层,正因如此,你才能明白我的话。

下面再举几个例子:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YA5Cxep9-1642852713962)(…/images/2b74c1eeff95db47f5ebd8aef1290f09.jpg)]

这张图是用舌头学会“看”的一个例子。它的原理是:这实际上是一个名为BrainPort的系统,它现在正在FDA
(美国食品和药物管理局)的临床试验阶段,它能帮助失明人士看见事物。它的原理是,你在前额上带一个灰度摄像头,面朝前,它就能获取你面前事物的低分辨率的灰度图像。你连一根线到舌头上安装的电极阵列上,那么每个像素都被映射到你舌头的某个位置上,可能电压值高的点对应一个暗像素电压值低的点。对应于亮像素,即使依靠它现在的功能,使用这种系统就能让你我在几十分钟里就学会用我们的舌头“看”东西。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a71pPaRs-1642852713963)(…/images/95c020b2227ca4b9a9bcbd40099d1766.png)]

这是第二个例子,关于人体回声定位或者说人体声纳。你有两种方法可以实现:你可以弹响指,或者咂舌头。不过现在有失明人士,确实在学校里接受这样的培训,并学会解读从环境反弹回来的声波模式—这就是声纳。如果你搜索YouTube之后,就会发现有些视频讲述了一个令人称奇的孩子,他因为癌症眼球惨遭移除,虽然失去了眼球,但是通过打响指,他可以四处走动而不撞到任何东西,他能滑滑板,他可以将篮球投入篮框中。注意这是一个没有眼球的孩子。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F50irmeF-1642852713964)(…/images/697ae58b1370e81749f9feb333bdf842.png)]

第三个例子是触觉皮带,如果你把它戴在腰上,蜂鸣器会响,而且总是朝向北时发出嗡嗡声。它可以使人拥有方向感,用类似于鸟类感知方向的方式。

还有一些离奇的例子:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jri3chcQ-1642852713966)(…/images/1ee5c76a62b35384491c603bb54c8c0c.png)]

如果你在青蛙身上插入第三只眼,青蛙也能学会使用那只眼睛。因此,这将会非常令人惊奇。如果你能把几乎任何传感器接入到大脑中,大脑的学习算法就能找出学习数据的方法,并处理这些数据。从某种意义上来说,如果我们能找出大脑的学习算法,然后在计算机上执行大脑学习算法或与之相似的算法,也许这将是我们向人工智能迈进做出的最好的尝试。人工智能的梦想就是:有一天能制造出真正的智能机器。

神经网络可能为我们打开一扇进入遥远的人工智能梦的窗户,但我在这节课中讲授神经网络的原因,主要是对于现代机器学习应用。它是最有效的技术方法。因此在接下来的一些课程中,我们将开始深入到神经网络的技术细节。

8.3 模型表示1

参考视频: 8 - 3 - Model Representation I (12 min).mkv

为了构建神经网络模型,我们需要首先思考大脑中的神经网络是怎样的?每一个神经元都可以被认为是一个处理单元/神经核(processing unit/Nucleus),它含有许多输入/树突(input/Dendrite),并且有一个输出/轴突(output/Axon)。神经网络是大量神经元相互链接并通过电脉冲来交流的一个网络。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g6UQ0A08-1642852713968)(…/images/3d93e8c1cd681c2b3599f05739e3f3cc.jpg)]

下面是一组神经元的示意图,神经元利用微弱的电流进行沟通。这些弱电流也称作动作电位,其实就是一些微弱的电流。所以如果神经元想要传递一个消息,它就会就通过它的轴突,发送一段微弱电流给其他神经元,这就是轴突。

神经网络模型建立在很多神经元之上,每一个神经元又是一个个学习模型。这些神经元(也叫激活单元,activation unit)采纳一些特征作为输出,并且根据本身的模型提供一个输出。下图是一个以逻辑回归模型作为自身学习模型的神经元示例,在神经网络中,参数又可被成为权重(weight)。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QImgfLWd-1642852713969)(…/images/c2233cd74605a9f8fe69fd59547d3853.jpg)]

我们设计出了类似于神经元的神经网络,效果如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4Nx28fLa-1642852713970)(…/images/fbb4ffb48b64468c384647d45f7b86b5.png)]

其中 x 1 x_1 x1, x 2 x_2 x2, x 3 x_3 x3是输入单元(input units),我们将原始数据输入给它们。
a 1 a_1 a1, a 2 a_2 a2, a 3 a_3 a3是中间单元,它们负责将数据进行处理,然后呈递到下一层。
最后是输出单元,它负责计算 h θ ( x ) {h_\theta}\left( x \right) hθ(x)

神经网络模型是许多逻辑单元按照不同层级组织起来的网络,每一层的输出变量都是下一层的输入变量。下图为一个3层的神经网络,第一层成为输入层(Input Layer),最后一层称为输出层(Output Layer),中间一层成为隐藏层(Hidden Layers)。我们为每一层都增加一个偏差单位(bias unit):

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F1kBNMOW-1642852713971)(…/images/8293711e1d23414d0a03f6878f5a2d91.jpg)]

下面引入一些标记法来帮助描述模型:
a i ( j ) a_{i}^{\left( j \right)} ai(j) 代表第 j j j 层的第 i i i 个激活单元。 θ ( j ) { {\theta }^{\left( j \right)}} θ(j)代表从第 j j j 层映射到第$ j+1$ 层时的权重的矩阵,例如 θ ( 1 ) { {\theta }^{\left( 1 \right)}} θ(1)代表从第一层映射到第二层的权重的矩阵。其尺寸为:以第 j + 1 j+1 j+1层的激活单元数量为行数,以第 j j j 层的激活单元数加一为列数的矩阵。例如:上图所示的神经网络中 θ ( 1 ) { {\theta }^{\left( 1 \right)}} θ(1)的尺寸为 3*4。

对于上图所示的模型,激活单元和输出分别表达为:

a 1 ( 2 ) = g ( Θ 10 ( 1 ) x 0 + Θ 11 ( 1 ) x 1 + Θ 12 ( 1 ) x 2 + Θ 13 ( 1 ) x 3 ) a_{1}^{(2)}=g(\Theta _{10}^{(1)}{ {x}_{0}}+\Theta _{11}^{(1)}{ {x}_{1}}+\Theta _{12}^{(1)}{ {x}_{2}}+\Theta _{13}^{(1)}{ {x}_{3}}) a1(2)=g(Θ10(1)x0+Θ11(1)x1+Θ12(1)x2+Θ13(1)x3)
a 2 ( 2 ) = g ( Θ 20 ( 1 ) x 0 + Θ 21 ( 1 ) x 1 + Θ 22 ( 1 ) x 2 + Θ 23 ( 1 ) x 3 ) a_{2}^{(2)}=g(\Theta _{20}^{(1)}{ {x}_{0}}+\Theta _{21}^{(1)}{ {x}_{1}}+\Theta _{22}^{(1)}{ {x}_{2}}+\Theta _{23}^{(1)}{ {x}_{3}}) a2(2)=g(Θ20(1)x0+Θ21(1)x1+Θ22(1)x2+Θ23(1)x3)
a 3 ( 2 ) = g ( Θ 30 ( 1 ) x 0 + Θ 31 ( 1 ) x 1 + Θ 32 ( 1 ) x 2 + Θ 33 ( 1 ) x 3 ) a_{3}^{(2)}=g(\Theta _{30}^{(1)}{ {x}_{0}}+\Theta _{31}^{(1)}{ {x}_{1}}+\Theta _{32}^{(1)}{ {x}_{2}}+\Theta _{33}^{(1)}{ {x}_{3}}) a3(2)=g(Θ30(1)x0+Θ31(1)x1+Θ32(1)x2+Θ33(1)x3)
h Θ ( x ) = g ( Θ 10 ( 2 ) a 0 ( 2 ) + Θ 11 ( 2 ) a 1 ( 2 ) + Θ 12 ( 2 ) a 2 ( 2 ) + Θ 13 ( 2 ) a 3 ( 2 ) ) { {h}_{\Theta }}(x)=g(\Theta _{10}^{(2)}a_{0}^{(2)}+\Theta _{11}^{(2)}a_{1}^{(2)}+\Theta _{12}^{(2)}a_{2}^{(2)}+\Theta _{13}^{(2)}a_{3}^{(2)}) h元器件数据手册
IC替代型号,打造电子元器件IC百科大全!

相关文章