写给程序员的机器学习入门 (十) - 对象识别 Faster-RCNN - 识别人脸位置与是否戴口罩（二）

风晓 2023-12-31 10:06:45  52204 赞同 0 反对 0

分类：资源

接上一篇写给程序员的机器学习入门 (十) - 对象识别 Faster-RCNN - 识别人脸位置与是否戴口罩（一）

根据特征识别分类

接下来就是根据特征识别分类了🥳，处理上与之前的 Fast-RCNN 基本上相同，除了 Faster-RCNN 在生成范围调整参数的时候会针对每个分类分别生成，如果有 5 个分类，那么就会有 5 * 4 = 20 个输出，这会让范围调整变得更准确。

标签分类网络的具体实现架构如下，最终会输出包含对象的范围与各个范围对应的分类，整个 Faster-RCNN 的处理就到此为止了😤。

有一点需要注意的是，标签分类网络使用的分类需要额外包含一个 "非对象" 分类，例如原有分类列表为 [戴口罩人脸，不戴口罩人脸] 时，实际判断分类列表应该为 [非人脸, 戴口罩人脸，不戴口罩人脸]。这是因为标签分类网络的特征截取范围比区域生成网络要大，范围也更准确，标签范围网络可以根据更准确的特征来排除那些区域生成网络以为是对象但实际不是对象的范围。

计算损失

到此为止我们看到了以下的损失：

区域生成网络判断是否对象的损失
区域生成网络的范围调整参数的损失 (仅针对是对象的范围计算)
标签分类网络判断对象所属分类的损失
标签分类网络的范围调整参数的损失 (仅针对是对象，并且可能性最大的分类计算)

这些损失可以通过 + 合并，然后再通过 backward 反馈到各个网络的 CNN 模型与线性模型。需要注意的是，在批量训练的时候因为各个图片的输出范围数量不一样，上面的损失会先根据各张图片计算后再平均。你可能记得上一篇 Fast-RCNN 计算损失的时候需要根据正负样本分别计算，这一篇不需要，Faster-RCNN 的区域生成网络输出的范围比较准确，很少会出现来源特征相同但同时输出 "是对象" 和 "非对象" 结果的情况。此外，如前文所提到的，区域生成网络与标签分类网络应该使用不同的 CNN 模型生成不同的特征，以避免通过损失调整模型参数时发生干扰。

计算范围调整损失的时候用的是 Smooth L1 函数，这个函数我们之前没有看到过，所以我再简单介绍一下它的计算方法：

简单的来说就是如果预测输出和实际输出之间的差距比较小的时候，反过来增加损失使得调整速度更快，因为区域范围偏移需要让预测输出在数值上更接近实际输出 (不像标签分类可以只调整方向不管具体值)，使用 Smooth L1 调整起来效果会更好。

合并结果区域

Faster-RCNN 可能会针对同一个对象输出多个重合的范围，但因为 Faster-RCNN 的精确度比较高，这些重合的范围的重叠率应该也比较高，我们可以结合这些范围得出结果范围：

好了，对 Faster-RCNN 的介绍就到此为止了🤗，接下来我们看看代码实现吧。

使用 Faster-RCNN 识别人脸位置与是否戴口罩

这次的任务是识别图片中人脸的位置，与判断是否有正确佩戴口罩，一共有以下的分类：

非人脸: other
戴口罩: with_mask
没戴口罩: without_mask
戴了口罩但姿势不正确: mask_weared_incorrect

训练使用的数据也是来源于 kaggle，下载需要注册帐号但不用给钱：

https://www.kaggle.com/andrewmvd/face-mask-detection

例如下面这张图片：

如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等，可点击“私信”按钮向作者进行反馈；如作者无回复可进行平台仲裁，我们会在第一时间进行处理！

评价 0 条

相关资源

写给程序员的机器学习入门 (二) - pytorch 与矩阵计算入门（二） 2023-12-31 53478 浏览
接上一篇写给程序员的机器学习入门 (二) - pytorch 与矩阵计算入门（一）
写给程序员的机器学习入门 (一) - 从基础说起（一） 2023-12-31 50682 浏览
目前的机器学习入门大多要不门槛比较高，要不过于着重使用而忽视基础原理，所以我决定开一个新的系列针对程序员讲讲机器学习。这个系列会从机器学习的基础原理开始一直讲到如何应用，看懂这个系列需要一定的编程知识（主要会使用 python 语言），但不需要过多的数学知识，并且对于涉及到的数学知识会作出简单的介绍。
写给程序员的机器学习入门 (五) - 递归模型 RNN，LSTM 与 GRU （二） 2023-12-31 51298 浏览
接上一篇写给程序员的机器学习入门 (五) - 递归模型 RNN，LSTM 与 GRU （一）
写给程序员的机器学习入门 (三) - 线性模型，激活函数与多层线性模型（二） 2023-12-31 51431 浏览
接上一篇写给程序员的机器学习入门 (三) - 线性模型，激活函数与多层线性模型（一）
写给程序员的机器学习入门 (一) - 从基础说起（二） 2023-12-31 51331 浏览
接上一篇写给程序员的机器学习入门 (一) - 从基础说起（一）
写给程序员的机器学习入门 (五) - 递归模型 RNN，LSTM 与 GRU （一） 2023-12-31 51392 浏览
递归模型的应用场景在前面的文章中我们看到的多层线性模型能处理的输入数量是固定的，如果一个模型能接收两个输入那么你就不能给它传一个或者三个。而有时候我们需要根据数量不一定的输入来预测输出，例如文本就是数量不一定的输入，“这部片非常好看” 有 7 个字，“这部片很无聊” 有 6 个字，如果我们想根据文本判断是正面评价还是负面评价，那么就需要使用支持不定长度 (即可以接收 6 个又可以接收 7 个) 输入的模型。时序性的数据数量也是不一定的，例如一个运动中的球，从某个时间点开始的第 0 秒在位置 1，第 1 秒在位置 3，第 2 秒在位置 5，那么正确的模型应该可以预测出第 3 秒在位置 7，如下图所示。当然，时序性的数据可以固定一个窗口（例如最近的 5 条数据）来处理，这样输入数量就是一定的，但灵活性就降低了，窗口设置过小可能会导致没有足够的信息用于预测输出，过大则会影响性能。
写给程序员的机器学习入门 (四) - 训练过程中常用的技巧（一） 2023-12-31 51507 浏览
这篇将会着重介绍使用 pytorch 进行机器学习训练过程中的一些常见技巧，掌握它们可以让你事半功倍。使用的代码大部分会基于上一篇最后一个例子，即根据码农条件预测工资🙀。
写给程序员的机器学习入门 (三) - 线性模型，激活函数与多层线性模型（一） 2023-12-31 50786 浏览
生物神经元与人工神经元在了解神经元网络之前，我们先简单的看看生物学上的神经元是什么样子的，下图摘自维基百科：
写给程序员的机器学习入门 (二) - pytorch 与矩阵计算入门（一） 2023-12-31 50442 浏览
pytorch 是目前世界上最流行的两个机器学习框架的其中之一，与 tensoflow 并峙双雄。它提供了很多方便的功能，例如根据损失自动微分计算应该怎样调整参数，提供了一系列的数学函数封装，还提供了一系列现成的模型，以及把模型组合起来进行训练的框架。pytorch 的前身是 torch，基于 lua，而 pytorch 基于 python，虽然它基于 python 但底层完全由 c++ 编写，支持自动并列化计算和使用 GPU 加速运算，所以它的性能非常好。
写给程序员的机器学习入门 (四) - 训练过程中常用的技巧（二） 2023-12-31 49064 浏览
接上一篇写给程序员的机器学习入门 (四) - 训练过程中常用的技巧（一）

写给程序员的机器学习入门 (十) - 对象识别 Faster-RCNN - 识别人脸位置与是否戴口罩 （二）