盲专网 - 目标检测方法及装置、设备及存储介质

序号	法律状态公告日	法律状态	法律状态信息
1	2021-06-01	授权
2	2019-10-08	实质审查的生效	IPC(主分类): G06K 9/32 专利申请号: 201910364565.0 申请日: 2019.04.30
3	2019-09-06	公开

发明内容

[0004] 有鉴于此，本发明实施例期望提供一种目标检测方法及装置、设备及计算机存储介质。

[0005] 本发明实施例提供的一种目标检测方法，包括：

[0006] 获取n个不同的目标检测器确定的与定位目标相关的n类检测框，其中，所述n个不同的目标检测器能够从同一图像中提取n类不同的图像特征；n为等于或大于2的正整数；

[0007] 基于所述n类检测框，获得整合后的检测框；

[0008] 所述n个不同的目标检测器中的每个目标检测器基于所述整合后的检测框从输入图像中提取图像特征，得到n类图像特征；

[0009] 基于n类图像特征进行图像特征优化，得到优化后的图像特征；

[0010] 根据所述优化后的图像特征，得到优化后的检测框，以对目标进行检测。

[0011] 基于上述方案，所述基于n类图像特征进行图像特征优化，得到优化后的图像特征，包括：

[0012] 在第m次执行所述方法时，利用所述n类图像特征中的n‑1类图像特征，优化所述n类图像特征中的第p类图像特征，得到所述优化后的图像特征；

[0013] 其中，第p类图像特征为所述n类图像特征中除所述n‑1类图像特征之外的一类图像特征；m为大于0的整数，p为大于0小于等于n的整数。

[0014] 基于上述方案，p＝mod(m/n)+1。

[0015] 基于上述方案，所述利用所述n类图像特征中的n‑1类图像特征，优化所述n类图像特征中的第p类图像特征，得到所述优化后的图像特征，包括：

[0016] 对所述n‑1类图像特征中的每一类图像特征进行卷积处理，得到所述n‑1类图像特征中的每一类图像特征的卷积特征；

[0017] 利用所述卷积特征优化所述n类图像特征中的第p类图像特征，得到所述优化后的图像特征。

[0018] 基于上述方案，所述对所述n‑1类图像特征中的每一类图像特征进行卷积处理，得到所述n‑1类图像特征中的每一类图像特征的卷积特征，包括：

[0019] 对所述n‑1类图像特征中的每一类图像特征进行第一卷积处理，得到n‑1类的第一卷积特征；

[0020] 对所述n‑1类的第一卷积特征中的每一类第一卷积特征进行激活处理，得到n‑1类激活特征；

[0021] 对所述n‑1类激活特征中的每一类激活特征进行第二卷积处理，得到所述n‑1类图像特征中的每一类图像特征的卷积特征。

[0022] 基于上述方案，所述根据所述优化后的图像特征，得到优化后的检测框，包括：

[0023] 基于优化后的图像特征进行回归处理，得到所述优化后的检测框。

[0024] 基于上述方案，基于所述n类检测框，获得整合后的检测框，包括：

[0025] 将所述n类检测框中每一类检测框中的概率值不小于概率阈值的检测框合并，得到整合后的检测框。

[0026] 基于上述方案，所述方法第一次执行，获取n个不同的目标检测器确定的与定位目标相关的n类检测框，包括：

[0027] 分别利用n个不同的目标检测器在所述输入图像中检测目标，获得与定位目标相关的n类检测框。

[0028] 基于上述方案，所述方法第k次执行，k为大于1的整数，获取n个不同的目标检测器确定的与定位目标相关的n类检测框，包括：

[0029] 对于n个不同的目标检测器中的每个目标检测器，获取第k‑1次执行所述方法时该目标检测器确定的检测框或者该目标检测器对应的优化得到的检测框。

[0030] 基于上述方案，所述方法还包括：

[0031] 连接视频中多帧图像的所述优化后的检测框，形成同一个目标的动作管道；

[0032] 基于所述动作管道跟踪所述目标。

[0033] 基于上述方案，所述连接视频中多帧图像的所述优化检测框，形成同一个目标的动作管道，包括：

[0034] 基于第q个图像帧的所述优化后的检测框，获得重新检测的图像特征，其中，q为正整数；

[0035] 基于所述重新检测的图像特征进行动作类型识别，并获得指示确定为对应类型动作的概率值；

[0036] 基于所述概率值对所述优化检测框进行平滑过滤，得到平滑过滤后的优化后的检测框；

[0037] 在时域内关联平滑过滤后的优化后的检测框，得到所述动作管道。

[0038] 本发明实施例还提供一种目标检测装置，包括：

[0039] 获取模块，用于获取n个不同的目标检测器确定的与定位目标相关的n类检测框，其中，所述n个不同的目标检测器能够从同一图像中提取n类不同的图像特征；n为等于或大于2的正整数；

[0040] 整合模块，用于基于所述n类检测框，获得整合后的检测框；

[0041] 提取模块，用于所述n个不同的目标检测器中的每个目标检测器基于所述整合后的检测框从输入图像中提取图像特征，得到n类图像特征；

[0042] 第一优化模块，用于基于n类图像特征进行图像特征优化，得到优化后的图像特征；

[0043] 第二优化模块，用于根据所述优化后的图像特征，得到优化后的检测框，以对目标进行检测。

[0044] 基于上述方案，所述第一优化模块，用于在第m次执行图像特征优化时，利用所述n类图像特征中的n‑1类图像特征，优化所述n类图像特征中的第p类图像特征，得到所述优化后的图像特征；其中，第p类图像特征为所述n类图像特征中除所述n‑1类图像特征之外的一类图像特征；m为大于0的整数，p为大于0小于等于n的整数。

[0045] 基于上述方案，p＝mod(m/n)+1。

[0046] 基于上述方案，所述第一优化模块，具体用于：

[0047] 在第m次执行图像特征优化时，对所述n‑1类图像特征中的每一类图像特征进行卷积处理，得到所述n‑1类图像特征中的每一类图像特征的卷积特征；利用所述卷积特征优化所述n类图像特征中的第p类图像特征，得到所述优化后的图像特征。

[0048] 基于上述方案，所述第一优化模块，具体用于：

[0049] 在第m次执行图像特征优化时，对所述n‑1类图像特征中的每一类图像特征进行第一卷积处理，得到n‑1类的第一卷积特征；对所述n‑1类的第一卷积特征中的每一类第一卷积特征进行激活处理，得到n‑1类激活特征；对所述n‑1类激活特征中的每一类激活特征进行第二卷积处理，得到所述n‑1类图像特征中的每一类图像特征的卷积特征；利用得到的所述n‑1类图像特征中的每一类图像特征的卷积特征优化所述n类图像特征中的第p类图像特征，得到所述优化后的图像特征。

[0050] 基于上述方案，所述第二优化模块，具体用于基于优化后的图像特征进行回归处理，得到所述优化后的检测框。

[0051] 基于上述方案，所述整合模块，具体用于将所述n类检测框中每一类检测框中的概率值不小于概率阈值的检测框合并，得到整合后的检测框。

[0052] 基于上述方案，所述获取模块，在第一次执行获取n个不同的目标检测器确定的与定位目标相关的n类检测框时，用于分别利用n个不同的目标检测器在所述输入图像中检测目标，获得与定位目标相关的n类检测框。

[0053] 基于上述方案，所述获取模块，在第k次执行，k为大于1的整数，获取n个不同的目标检测器确定的与定位目标相关的n类检测框时，具体用于对于n个不同的目标检测器中的每个目标检测器，获取第k‑1次执行获取n个不同的目标检测器确定的与定位目标相关的n类检测框时该目标检测器确定的检测框或者该目标检测器对应的优化得到的检测框。

[0054] 基于上述方案，所述装置还包括：

[0055] 连接模块，用于连接视频中多帧图像的所述优化后的检测框，形成同一个目标的动作管道；

[0056] 跟踪模块，用于基于所述动作管道跟踪所述目标。

[0057] 基于上述方案，所述连接模块，具体用于基于第q个图像帧的所述优化后的检测框，获得重新检测的图像特征，其中，q为正整数；基于所述重新检测的图像特征进行动作类型识别，并获得指示确定为对应类型动作的概率值；基于所述概率值对所述优化检测框进行平滑过滤，得到平滑过滤后的优化后的检测框；在时域内关联平滑过滤后的优化后的检测框，得到所述动作管道。

[0058] 本发明实施例还提供一种目标检测设备，包括：

[0059] 存储器，用于存储计算机可执行指令；

[0060] 处理器，与所述存储器连接，用于通过执行所述计算机可执行指令，能够实现前述任意技术方案提供的目标检测方法。

[0061] 一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行之后，能够实现前述任意技术方案提供的目标检测方法。

[0062] 本发明实施例提供的目标检测方法，会利用不同目标检测器分别得到检测框，首先通过检测框的整合，得到基于不同目标检测器的检测框整合后的检测框，相对于基于单一目标检测器的检测框直接进行特征目标跟踪，减少了遗漏和错误框；然后利用至少两种目标检测器分别基于整合后的检测框分别提取至少两类图像特征，再基于至少两类图像特征进行图像特征的优化，减少了图像特征的遗漏和错误；最后基于优化图像特征反推出优化检测框，基于该优化检测框进行目标跟踪或基于目标跟踪的目标分析，相对于任意单一目标检测器都能够减少遗漏和错误。

实施方案

[0070] 以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

[0071] 如图1所示，本实施例提供一种目标检测方法，包括：

[0072] 步骤S110：获取n个不同的目标检测器确定的与定位目标相关的n类检测框，其中，所述n个不同的目标检测器能够从同一图像中提取n类不同的图像特征；n为等于或大于2的正整数；

[0073] 步骤S120：基于所述n类检测框，获得整合后的检测框；

[0074] 步骤S130：所述n个不同的目标检测器中的每个目标检测器基于所述整合后的检测框从输入图像中提取图像特征，得到n类图像特征；

[0075] 步骤S140：基于n类图像特征进行图像特征优化，得到优化后的图像特征；

[0076] 步骤S150：根据所述优化后的图像特征，得到优化后的检测框，以对目标进行检测。

[0077] 本实施例提供的目标检测方法，可以应用于运行有两个能够从同一图像中提取不同的图像特征的目标检测器的设备中。

[0078] 每个目标检测器在一个输入图像中可以提取到一类图像特征，在利用提取到的图像特征检测目标时，可以获得与定位目标相关的一类检测框。

[0079] 所述目标检测器可为能够从同一图像中提取不同的图像特征的的深度学习模型或机器学习模型。

[0080] n个所述目标检测器中的n可为不小于2的正整数，n的具体取值可为2、3或4等取值。

[0081] 所述n类不同的目标检测器的不同之处可以体现在以下任意方面：

[0082] n类不同的目标检测器对应的神经网络的网络结构不同；

[0083] n类不同的目标检测器对应的神经网络的的网络参数；

[0084] n类不同的目标检测器的所遵循的模型算法；

[0085] n类不同的目标检测器提取检测框的方式不同；

[0086] n类不同的目标检测器提取图像特征的方式不同。

[0087] 总之，在本实施例中n类目标检测器对同一个输入图像即便需要获得同一种类型的结果，也可能会因为目标检测器本身的属性和/或参数不同，导致不同目标检测器需要依据图像的不同特征进行处理，这样一个目标检测器所具有的优点可以弥补其他目标检测器的不足之处，从而优化最终的目标检测结果。

[0088] 为了解决单一目标检测器从输入图像中定位目标和/或目标分析产生的不够精确的问题，在本实施例中，会同时利用n个目标检测器分别获得对应的检测框。

[0089] 所述n个目标检测器检测出的检测框可都为矩形框，分别是n个目标检测器直接或间接给出的认定为输入图像中包含目标的区域。

[0090] 在本实施例中，一个所述目标检测器能够从输入图像中提取一类图像特征。

[0091] 在本实施例中，n类目标检测器可具有不同的检测功能，例如，能够提取出不同类型的图像特征。

[0092] 所述目标按照类型分类可包括各种移动对象；该移动对象包括但不限于生物体或非生物体。典型的生物体包括但不限于：人和/或动物；非生物体可包括各种交通工具和/或可自行移动的机器人等。

[0093] 在步骤S120中基于n个目标检测器的检测框，进行整合。此处的整合包括但不限于：不同目标检测器的检测框的合并等，如此，一方面，整合后的检测框可以减少单一目标检测器的检测遗漏导致的目标丢失现象；另一方面，可以减少单一目标检测器定位出错导致的输入图像中包含有目标的区域未被检测框框住导致的目标丢失现象。

[0094] 具体的所述步骤S120可包括但不限于：

[0095] 求所述n个目标检测器输出的检测框的并集，得到所述整合后的检测框；

[0096] 求对应的第一概率值从大到小排序在前M1％的某一个目标检测器的检测框与其他目标检测器的检测框的并集，得到所述整合后的检测框。

[0097] 所述M1为小于100的正整数；例如，M1的取值均可为50或60等取值。

[0098] 在步骤S130中进行特征检测时，各个目标检测器不再是直接基于自身得到的检测框提取图像特征，而是基于整合后的检测框，从输入图像中提取出各自对应的图像特征。

[0099] 例如，假设n为2，则n个目标检测器包括：第一目标检测器和第二目标检测器；将输出第一类检测框，第二目标检测将输出第二类检测框。进一步假设，第一类检测框的个数为S1个，第二类检测框的个数为S2个；将第一类检测框和第二类检测框合并等处理之后，得到S3个整合后的检测框。

[0100] S3小于或等于S1和S2之和；且S3大于或等于S1；或S3大于或等于S2。

[0101] 在步骤S130中，第一目标检测器根据S3个整合后的检测框在输入图像中的位置，分别提取出整合后的检测框所框住图像区域内的第一类图像特征，第二目标检测器根据S3个整合后的检测框，分别提取出整合后的检测框所框住的图像区域内的第二类图像特征。

[0102] 在本实施例中，所述第一类图像特征和第二类图像特征是不同类型的特征，这种不同体现在：

[0103] 由不同的模型所提取的特征；

[0104] 图像特征的特征值对应于图像的不同属性，例如，有的图像特征描述颜色分布状况，有的图像特征描述亮度分布状况；再例如，有的图像特征描述某一个图像对象的外观信息，有的图像特征描述某一图像对象的结构信息。

[0105] 总之，所述第一类图像特征和所述第二类图像特征是不同类型的图像特征。

[0106] 在本实施例中，得到第一类图像特征和第二类图像特征之后，会进一步结合这两类图像特征，得到优化图像特征；此处的优化图像特征能够引入两类图像特征的特征值，和/或，至少减少单一图像特征对目标描述不够精确或错误的现象。

[0107] 在本实施例中，所述步骤S140可包括：融合n个目标检测器基于整合后的检测框得到的各自的图像特征。

[0108] 所述融合包括：线性融合和非线性融合。

[0109] 线性融合为：利用可转换为线性函数的融合算法，融合所述n类图像特征得到所述线性优化图像特征。典型的线性函数包括但不限限于：等比例函数等；

[0110] 非线性融合为：利用不可以转换为线性函数的融合算法，融合所述n类图像特征得到所述线性优化图像特征。典型的非线性函数可包括：分段函数和/或包含卷积运算的卷积函数。

[0111] 例如，接续前述实施例，以n为2为例进行说明，第一目标检测器输出的第一类图像特征和第二目标检测器输出的第二类图像特征的融合可如下：

[0112] 线性融合所述第一类图像特征和所述第二类图像特征，得到线性优化图像特征；

[0113] 非线性融合所述第一类图像特征和所述第二类图像特征得到非线性优化图像特征。

[0114] 拼接所述第一类图像特征和第二类图像特征，得到第一类拼接特征；在拼接过程中，例如，第一类图像特征为W1*H1*C1的图像特征，第二类图像特征为：W2*H1*C1；该第一类拼接特征可为(W1+W2)*H1*C1的图像特征；

[0115] 将第一类图像特征通过进一步处理之后，转换为可以与第二类图像特征进行拼接的图像特征之后，得到第二类拼接特征。

[0116] 在还有一些实施例中，所述步骤S140还可包括：

[0117] 根据第一类图像特征中第m个位置的特征值的第一置信度与第二类图像特征第m个位置的特征值的第二置信度进行比较；

[0118] 若所述第一置信度大于第二置信度，则将第一类图像特征中第m个位置的特征值作为优化图像特征的第m个位置的特征值；

[0119] 和/或，

[0120] 若第二置信度大于或等于第二置信度，将第二类图像特征中第m个位置的特征值作为优化图像特征的第m个位置的特征值。

[0121] 在一些实施例中，所述步骤S130可利用如下函数关系得到所述优化图像特征：

[0122] 其中，为第m次执行优化后的第一类图像特征；为第m次执行由第一目标检测器提取的优化前的第一类图像特征；为第m次执行由第二目标检测器提取的第二类图像特征；f1为第一优化函数。

[0123] 或者，

[0124] 其中，为第m次执行优化后的第二类图像特征；为第m次执行由第二目标检测器提取的优化前的第二类图像特征；为第m次执行由第一目标检测器提取的第一类图像特征；f2为第二优化函数。

[0125] 上述仅是基于第一类图像特征和第二类图像特征得到优化后的图像特征的举例，具体实现方式有多种，此处就不一一举例了。

[0126] 总之，由于优化后的图像特征是基于两种不同的图像特征得到的，可以减少单一目标检测器提取图像特征导致目标的特征丢失或错误的现象，减少目标丢失或目标跟踪错误的现象，提升了目标跟踪和/或目标分析的精确度。

[0127] 进一步地，在得到所述优化后的图像特征之后，会基于优化后的图像特征反推出检测框，即得到所述优化后的检测框。

[0128] 例如，将所述优化后的图像特征作为回归器的输入得到回归器输出的检测框的信息，此时得到的检测框即为所述优化后的检测框；该优化后的检测框相对于直接利用第一目标检测器提取第一类检测框和/或第二目标检测器直接提取的第二类检测框，包含所需追踪目标的概率大大提升了，采用本实施例提供的目标检测方法，即便被追踪的目标被部分遮挡和/或快速运动都能够被精准的追踪到，从而具有追踪成功率高的特点，提升了目标检测的精确度和鲁棒性。

[0129] 在一些实施例中，所述步骤S140可包括：

[0130] 在第m次执行所述方法时，利用所述n类图像特征中的n‑1类图像特征，优化所述n类图像特征中的第p类图像特征，得到所述优化后的图像特征；

[0131] 其中，第p类图像特征为所述n类图像特征中除所述n‑1类图像特征之外的一类图像特征；m为大于0的整数，p为大于0小于等于n的整数。

[0132] 本发明实施例中所述步骤S110至步骤S150可执行一次，就能够实现目标跟踪成功率的提升。但是在本实施例中为了进一步提升跟踪效果，本实施例所述的方法会执行多次，实现多次优化。

[0133] 故在本实施例中，所述m可为正整数。在每一次进行图像特征优化时，可以随机从n个目标检测器中挑选一个目标检测器对该目标检测器提取的图像特征或者该目标检测器对应的被优化后的图像特征进行优化。

[0134] 为了实现优化效果，可以按照一定顺序，例如，按照p＝mod(m/n)+1的顺序逐一优化每一类图像特征，得到对应类的优化图像特征。

[0135] 例如，若n为2，则第一次，利用第二类图像特征对第一目标检测器提取的第一类图像特征进行优化，得到优化后的图像特征，则第二次会，利用优化后的图像特征对第二目标检测器提取的第二类图像特征进行优化。

[0136] 若n为3，则可进行2次或3次以上的执行，第一次，利用第二类图像特征(由第二目标检测器提取的)及第三类图像特征(由第三目标检测器提取的)，对第一目标检测器提取的第一类图像特征进行优化，得到优化后的图像特征，则第二次，利用第一次优化后的图像特征及第三类图像特征，对第二目标检测器提取的第二类图像特征进行优化，得到第二次优化后的图像特征；进一步地的第三次，利用第一次优化后的图像特征和第二次优化后的图像特征对第三类图像特征进行优化。进一步地，

[0137] 所述步骤S140进一步可包括：

[0138] 对所述n‑1类图像特征中的每一类图像特征进行卷积处理，得到所述n‑1类图像特征中的每一类图像特征的卷积特征；

[0139] 利用所述卷积特征优化所述n类图像特征中的第p类图像特征，得到所述优化后的图像特征。

[0140] 在本实施例中利用卷积这种非线性计算提取出n类图像特征进行互补以进行图像特征的优化，相对于线性计算的特征融合，具有效果更佳的特点。

[0141] 具体的进行卷积处理时，可以利用连接不同目标检测器的卷积通道来实现。

[0142] 在一些实施例中，所述对所述n‑1类图像特征中的每一类图像特征进行卷积处理，得到所述n‑1类图像特征中的每一类图像特征的卷积特征，可具体包括：

[0143] 对所述n‑1类图像特征中的每一类图像特征进行第一卷积处理，得到n‑1类的第一卷积特征；

[0144] 对所述n‑1类的第一卷积特征中的每一类第一卷积特征进行激活处理，得到n‑1类激活特征；

[0145] 对所述n‑1类激活特征中的每一类激活特征进行第二卷积处理，得到所述n‑1类图像特征中的每一类图像特征的卷积特征。

[0146] 也就是说要对n‑1类图像特征中的每一类图像特征先进行一次卷积处理，然后对卷积处理的结果进行一次激活处理，再对激活处理的结果进行一次卷积处理。

[0147] 在本实施例中，所述第一卷积处理和第二卷积处理可以是相同的卷积处理或者不同的卷积处理。

[0148] 例如，以n为2为例进行说明，对所述n‑1类图像特征中的每一类图像特征进行卷积处理，得到所述n‑1类图像特征中的每一类图像特征的卷积特征；利用所述卷积特征优化所述n类图像特征中的第p类图像特征，得到所述优化后的图像特征，可包括：

[0149] 利用卷积传输通道对所述第一类图像特征进行卷积处理，得到第一类卷积特征；并利用所述第一类卷积特征优化所述第二类图像特征，得到优化后的第二类图像特征；

[0150] 或者，

[0151] 利用卷积传输通道对所述第二类图像特征进行卷积处理，得到第二类卷积特征；并利用所述第二类卷积特征优化所述第一类图像特征，得到优化后的所述第一类图像特征。

[0152] 在本实施例中，在进行第一类图像特征和第二类图像特征的融合处理，得到所述优化图像特征时，优先采用的是卷积传输通道进行卷积处理，实现的是第一类图像和第二类图像的非线性融合。

[0153] 本实施例中所述卷积传输通道为包含有卷积操作的传输通道；若图像特征通过卷积传输通道进行传输，则进入该卷积传输通道的图像特征通过至少一次卷积操作之后再输出。

[0154] 在本实施例中，利用卷积传输通道对第一类图像特征进行卷积之后得到第一类卷积特征，利用第一类卷积特征对第二类图像特征进行优化，得到所述优化后的图像特征，此次优化后的图像特征为优化后的第二类图像特征。

[0155] 在本实施例中，所述卷积传输通道可以对所述第一类图像特征进行一次或多次卷积处理后，得到第一类卷积特征。

[0156] 同样地，所述卷积传输通道也可以对第二类图像特征进行一次或多次卷积处理后，得到第二类卷积特征。

[0157] 在一些实施例中，第一类图像特征和第二类图像特征利用相同的卷积传输通道进行卷积处理，如此，第一类图像特征和第二类图像特征可以共用相同的卷积传输通道，简化了深度学习模型或机器学习模型的模型结构。

[0158] 在本实施例中利用卷积这种非线性计算提取出两类图像特征进行信息互补从而进行图像特征的优化，相对于线性计算的特征融合，具有效果更佳的特点。

[0159] 上述实施例中的卷积通道可以包括：

[0160] 第一卷积层，用于对输入的图像特征进行一次卷积处理得到一次卷积特征，其中，所述输入的图像特征为所述第一类图像特征或所述第二类图像特征；

[0161] 激活层，与所述第一卷积层连接，用于将所述一次卷积特征进行激活处理，得到激活特征；

[0162] 第二卷积层，与所述激活层连接，用于将所述激活特征进行二次卷积处理得到所述第一类卷积特征或所述第二类卷积特征。

[0163] 在本实施例中，所述第一卷积层对输入的图像特征进行卷积处理，此处的第一卷积层的卷积核可为1*1的卷积核，如此，输入的图像特征经过第一卷积层处理之后，输出的一次卷积特征与输入的图像特征的维度相同。

[0164] 所述激活层可为按照各类型激活函数设置的网络层。在本实施例中，所述激活层可为：线性整流函数(Rectified Linear Unit，ReLU)提供的网络层。

[0165] 通过线性整流函数对所述一次卷积特征进行特征映射，得到输入到第二卷积层的激活特征。

[0166] 第二卷积层可为卷积核与第一卷积层的卷积核相同或不同的卷积层。在本实施例中，所述第二卷积层的卷积核同样可为：1*1的卷积核，如此，通过第二卷积层的二次卷积处理后得到的第二类卷积特征的维度相对于输入到第二卷积层的输入特征的维度也保持不变。

[0167] 例如，第二卷积特征的维度可以与其需要优化的图像特征的维度保持一致。

[0168] 图2A所示为基于第一类图像特征和第二类图像特征得到优化图像特征的一种示意图，。在图2A中第二类图像特征通过卷积传输通道卷积处理后，与第一类图像特征进行拼接，得到优化后的图像特征，即优化后的第一类图像特征。

[0169] 图2B所示为基于第一类图像特征和第二类图像特征得到优化图像特征的另一种示意图。在图2B中所述第一类图像特征通过卷积传输通道卷积处理后，与第二类图像特征进行拼接，得到优化后的图像特征，即优化后的第二类图像特征。

[0170] 其中，第一目标检测器确定第一检测框，第二目标检测器确定第二检测框，将第一检测框和第二检测框整合后得到第三检测框，第一目标检测器根据第三检测框从输入图像中提取第一类图像特征，第二目标检测器根据第三检测框从输入图像中提取第二类图像特征。

[0171] 该卷积通道也可以用于n为3或3以上取值时，对n‑1类图像特征的卷积处理。

[0172] 进一步地，所述步骤S150可包括：

[0173] 基于优化后的图像特征进行回归处理，得到所述优化后的检测框。

[0174] 在本实施例中，进行优化后的图像特征与检测框之间的相互依赖关系，通过反向推导等回归方式，可以得到所述优化后的检测框。

[0175] 本实施例中，获得优化后的检测框的方式有多种，此处提供一种实现简便的方式，具体的实现过程不局限本实施例。

[0176] 以n为2进行举例，则所述步骤S150可包括：基于优化后的第一类图像特征，得到优化后的第一类检测框；或者，基于优化后的第二类图像特征，得到优化后的第二类检测框。

[0177] 在本实施例中，若步骤S140中是利用第二类图像特征优化(即增强)第一类图像特征，得到优化后的第一类图像特征，则对应的在步骤S150中得到的优化后的第一类检测框。若在步骤S150中是利用第一类图像特征优化(即增强)第二类图像特征，得到优化后的第二类图像特征，则对应的在步骤S150中得到优化后的第二类检测框。

[0178] 故在本实施例中，优化检测框可分为两种，一种是优化后的第一类检测框，另一种是优化后的第二类检测框。

[0179] 其中，第一类检测框由第一目标检测器确定，第二类检测框由第二目标检测器确定。

[0180] 在一些实施例中，所述步骤S120还可包括：将所述n类检测框中每一类检测框中的概率值不小于概率阈值的检测框合并，得到整合后的检测框。

[0181] 如此，该概率值可为该类检测框准确框住目标的概率，是一种置信度值。

[0182] 在本实施例中，通过与概率阈值的比较，过滤掉概率值低于概率阈值的检测框之后合并，可以减少概率值低的框被添加到整合后的检测框中，减少步骤S140中基于整合后的检测框不必要的图像特征的检测，减少不必要的计算量。

[0183] 在一些实施例中，不同目标检测器所输出的检测框的概率阈值可相等或不等。例如，以n为2为例，则这两个目标检测器分别输出的检测框所对一个的概率阈值可可为0.5或0.6等取值，也可以一个为0.5而另一个为0.6。继续以n＝2为例进行说明，所述步骤S120具体可包括：

[0184] 合并第二类检测框和第一概率值大于第一概率阈值的第一类检测框得到所述整合后的检测框，其中，所述第一概率值为所述第一类检测框内包含所述目标的概率值；

[0185] 或者，

[0186] 合并所述第一类检测框和第二概率值大于第二概率阈值的第二类检测框，得到所述整合后的检测框；其中，所述第二概率值为所述第二类检测框内包含所述目标的概率值。

[0187] 在本实施例中，所述第一概率值为所述第一目标检测器在输出所述第一类检测框时同步输出的，所述第二概率值为所述第二目标检测器在输出所述第二类检测框时同步输出的。

[0188] 在本实施例中，为了减少不必要的合并，会将第二类检测框中概率值较高部分，与第一类检测框进行合并；此处的合并包括但不限于求并集，得到所述整合后的检测框；如此，一方面通过第一概率值与第一概率阈值的比较，去除了第一类检测框包含目标的概率值较低的部分，而这一部分的去除对补强第二类检测框不会有负面影响或者较大的负面影响；另一方面，减少了整合后的检测框的数目，如此后续在步骤S140中的图像特征提取的过程中可减少了不必要的计算量，可以提升计算效率并节省计算资源。同理，若整合后的检测框是利用第一概率值大于第一概率阈值的第一类检测框得到的，也具有上述特点。

[0189] 在一些实施例中，在步骤S120中基于第一类检测框和第二类检测框得到所述整合后的检测框时，可以采用非极大值抑制(Non‑Maximum Suppression，NMS)算法，利用滑动窗口将输入图像的不同图像区域中的概率值为极大值的检测框提取出来，用于与另一目标检测器提取出的检测框进行合并，得到所述整合后的检测框。例如，利用NMS算法选择部分第一类检测框与所有第二类检测框合并，得到所述整合后的检测框；或者，利用NMS算法选择部分第二类检测框与所有第一类检测框合并得到所述整合后的检测框。

[0190] 总之，步骤S120中基于第一类检测框和第二类检测框获得所述整合后的检测框的方式不止一种，具体实现不限于上述举例。

[0191] 在一些实施例中，利用两个目标检测器相互补强的操作，可以在执行一次的情况下，也能够实现相对于单一目标检测器实现目标跟踪或目标分析的精确度提升。

[0192] 在另一些实施例中为了实现目标跟踪或目标分析的精确度和鲁棒性的再次提升，会进行第一目标检测器和第二目标检测器相互补强的多次迭代，也就是多次执行本发明实施例提供的方法。此处的迭代可以分为多次执行，每一次执行可包括：第一类检测框和第二类检测框合并得到整合后的检测框；基于整合后的检测框的两类图像特征的提取，优化图像特征的得到及优化检测框的确定。

[0193] 如此以n为2进行举例，进行多次执行本发明实施例提供的方法时所述步骤S110可包括：

[0194] 若第一次执行本发明实施例提供的方法，则利用所述第一目标检测器在所述输入图像中检测目标获得所述第一类检测框，并利用所述第二目标检测器在所述输入图像中检测目标获得所述第二类检测框。

[0195] 在第一次执行本发明实施例提供的方法时，第一类检测框是由第一目标检测器从输入图像中检测得到的，第二类检测框是由第二目标检测器从输入图像中检测得到的。

[0196] 如此，第一次执行过程中的第一类检测框和第二类检测框为尚未经过优化的检测框。

[0197] 对应的在步骤S120中会将第一目标检测器和第二目标检测器分别输出的不同类型的检测框直接合并，或通过概率值与概率阈值的比较，基于比较的结果进行两种检测框的合并，得到所述整合后的检测框。

[0198] 在一些实施例中，例如，所述第一目标检测器和第二目标检测器可为快速R‑CNN网络的不同处理分支。所述R‑CNN可为区域卷积神经网络。第一目标检测器对应的第一分支检测得到的建议区域(Proposal Region)即为所述第一类检测框，第二目标检测器对应的第二分支检测得到的建议区域即为所述第二类检测框。

[0199] 当n为大于1的整数时，所述方法第一次执行，步骤S110可包括：

[0200] 分别利用n个不同的目标检测器在所述输入图像中检测目标，获得与定位目标相关的n类检测框。

[0201] 此时，进行优化的检测框都是由目标检测器检测得到的。

[0202] 进一步地，所述方法第k次执行，k为大于1的整数，获取n个不同的目标检测器确定的与定位目标相关的n类检测框，包括：

[0203] 对于n个不同的目标检测器中的每个目标检测器，获取第k‑1次执行所述方法时该目标检测器确定的检测框或者该目标检测器对应的优化得到的检测框。

[0204] 第k次执行为非首次执行，则至少一个目标检测器的检测框是上一次执行得到的优化后的检测框。

[0205] 继续以n＝2为例，在本实施例中由于采用迭代优化以得到多次迭代优化后的检测框，故在一些实施例中，所述步骤S110可包括：

[0206] 若当前执行为第次n执行，获取所述第一目标检测器在第n‑1次执行检测或优化得到后第一类检测框，并获取第二目标检测器在第n‑1次执行检测或优化得到的第二类检测框；其中，所述n为等于或大于2的正整数。

[0207] 例如，当前是第二次执行，则步骤S110中获取第一类检测框为：第一次执行本申请实施例提供的方法时检测得到的检测框或者优化得到的检测框；获取的第二类检测框为：第一次执行时优化得到的检测框或检测得到的检测框。具体如，若第一次执行时得到的优化后的检测框为优化后的第一类检测框，则在第二执行时步骤S110中获取的第一类检测框即为第一次执行时得到的优化后的第一类检测框，而第二次执行时步骤S110中获取的第二类检测框依然是第一次执行时由第二目标检测器直接从输入图像中检测得到第二类检测框。若第一执行时得到的优化后的检测框为优化后的第二类检测框，则在第二次执行时步骤S110中获取的第二类检测框即为第一次执行时获得的优化后的第二类检测框，而第二次执行时步骤S110中获取的第一类检测框依然是第一执行时由第一目标检测器直接从输入图像中检测得到第一类检测框。

[0208] 再例如，当前是第k(k大于2)次执行本申请实施例提供的方法时，则步骤S110中获取第一类检测框为：第k‑1次执行检测得到的检测框或者优化得到的检测框；获取的第二类检测框为：第k‑1次执行优化得到的检测框或检测得到的检测框。具体如，在第三次执行时步骤S110中获取的第一类检测框即为第一次执行时获得的优化后的第一类检测框，获取的第二类检测框即为第二次执行时获得的优化后的第二类检测框；或者，在第三次执行时步骤S110中获取的第一类检测框即为第二次执行时获得的优化后的第一类检测框；获取的第二类检测框即为第一次执行时获得的优化后的第二类检测框。

[0209] 如此，通过多次执行本申请实施例提供的目标检测方法可以实现检测框的逐步优化。

[0210] 在一些实施例中，执行次数可为至少两次，具体可为偶数个。如此，在多次执行中，实现第一类检测框和第二类检测框的交叉迭代优化，以再次提升检测框的优化效果。

[0211] 在一些实施例中，若当前第一类检测框和第二类检测框都是前序执行优化后的检测框，则在步骤S120中直接求取第一类检测框和第二类检测框的并集，得到优化后的整合后的检测框。

[0212] 在一些实施例中，所述步骤S130可包括：若前一次执行利用所述第一类图像特征优化所述第二类图像特征，则在本次执行利用所述第二类图像特征优化所述第一类图像特征。

[0213] 在本实施例中为了实现不同模型的交叉迭代补强，若前一次执行是利用第一类图像特征优化第二类图像特征，则在本次执行就利用第二类图像特征优化第一类图像特征，减少多次执行都是由一个目标检测器补强另一个目标检测器在多次处理之后容易导致某些图像特征的丢失的现象；以进一步提升图像特征和检测框的迭代优化效果。

[0214] 例如，若在第2*p‑1次执行时利用第一类图像特征补强(即优化)第二类图像特征，则在第2*p次执行时利用第二类图像特征补强(即优化)第一类图像特征。此处的p为正整数；如此，实现不同模型之间图像特征的交叉迭代优化。

[0215] 通过不同模型之间图像特征的交叉迭代优化，可以实现不同模型的检测框的交叉迭代优化。

[0216] 在一些实施例中，所述第一类图像特征为颜色图像特征，所述第二类图像特征为光流图像特征；或者，所述第一类图像特征为光流图像特征，所述第二类图像特征为颜色图像特征。

[0217] 在另一些实施例中，还可以使用颜色图像特征、光流图像特征、深度图像特征、图像分割特征中的至少两种进行交叉迭代优化。

[0218] 具体如，所述颜色图像特征可为RGB特征或YUV特征；此处的颜色图像特征可为RGB或YUV的颜色直方图等，保留了目标的表观信息，例如，保留人体成像的五官信息。

[0219] 所述光流图像特征可为光流(Optical flow)算法从图像中提取出光流图像特征。此处的光流图像特征是基于运动对象在短时间内保持不变和/或在邻区内速度向量场保持不变的特性提取出的表征目标表面和/或边缘运动状况的运动特征。

[0220] 在本实施例中，利用颜色图像特征和光流图像特征相互补强，减少单一的颜色图像特征或光流图像特征在目标追踪或目标追踪进行的目标分析中所导致的误差，提升了目标追踪和/或目标分析的精确度。

[0221] 参考图3所示，所述迭代可以包括4次执行，每一次执行均包括检测框合并，基于合并后的检测框进行图像特征优化，基于优化后的图像特征得到优化检测框。

[0222] 在第一执行进行检测框合并时，采用函数其中，等式右侧的为第一目标检测器从输入图像中提取的第一类检测框；为第二目标检测器从输入图像中提取的第二类检测框；等式左侧的为第一执行得到的整合后的检测框；分别基于整合后的检测框得到两类图像特征之后进行特征优化，得到优化后的第一类图像特征然后基于优化后的第一类图像特征的回归处理，进一步地得到第一次执行时的优化后的第一类检测框

[0223] 在第二次执行进行检测框合并时，采用函数其中，为第一次执行时得到的优化后的第一类检测框；为第二目标检测器从输入图像中提取的第二类检测框；为第二执行得到的整合后的检测框；分别基于整合后的检测框得到两类图像特征之后进行特征优化，得到优化后的第二类图像特征然后基于优化后的第二类图像特征的回归处理进一步地得到第二执行时的优化后的第二类检测框

[0224] 在第三次执行进行检测框合并时，采用函数其中，为第二次执行时得到的优化后的第二类检测框；为第一执行时得到的优化后的第一类检测框；为第三次执行时得到的整合后的检测框；分别基于整合后的检测框得到两类图像特征之后进行特征优化，得到优化后的第一类图像特征然后基于优化后的第一类图像特征的回归处理，进一步地得到第三次执行时的优化后的第一类检测框

[0225] 在第四次执行进行检测框合并时，采用函数其中，为第三次执行时得到的优化后的第一类检测框；为第二次执行时得到的优化后的第二类检测框；为第四次执行得到的整合后的检测框；分别基于整合后的检测框得到两类图像特征之后进行特征优化，得到优化后的第二类图像特征然后基于优化后的第二类图像特征的回归处理，进一步地得到第四次执行时的优化后的第二类检测框

[0226] 在一些实施例中，所述方法还包括：

[0227] 连接视频中多帧图像的所述优化后的检测框，形成同一个目标的动作管道；

[0228] 基于所述动作管道进行所述目标跟踪。

[0229] 在本实施例中，所述动作管道可为基于时序排序形成的管道。

[0230] 例如，视频包括T帧，按照第1帧到第T帧的排序，将同一个目标所对应的优化后的检测框进行排序，得到动作管道。

[0231] 如此，基于动作管道再分别从第1帧到第T帧中提取出所需的图像特征进行目标跟踪。或者，直接基于动作管道中表征同一个目标在输入图像中的图像坐标和/或所占图像面积进行计算，实现所述目标跟踪。

[0232] 例如，针对于一个静止的摄像头，若摄像头的景深不变，则目标距离该摄像头越近，在对应图像帧中所占图像面积就越大；目标距离该摄像头越远，在对应图像帧所占图像面积就越小。所述优化后的检测框的表述方式有多种，以下提供两种可选方式：

[0233] 利用优化后的检测框在图像坐标系内的四个顶点的坐标进行表示；

[0234] 利用优化后的检测框在图像坐标系内的中心点的坐标、优化后的检测框的长度及优化后的检测框的宽度进行表示。

[0235] 优化后的检测框的面积与目标在图像中所占的面积成正比。

[0236] 如此，通过图像面积可以估算出摄像头与目标之间的距离变化，从而确定目标移动的速度等，进而能够进一步实现目标跟踪。

[0237] 在另一些实施例中，由于动作管道中的优化后的检测框都定位出了目标在对应图像帧中的位置，在进行目标行为分析时，可以根据优化后的检测框从对应的图像帧中提取出图像特征进行目标行为分析。

[0238] 例如，在道路交通领域，可以利用这种方式进行行人道路行为分析、车辆的道路行为分析，从而可以监控行人或车辆是否有违规行为。

[0239] 在一些实施例中，如图4所示，所述连接视频中多帧图像的所述优化后的检测框，形成同一个目标的动作管道，包括：

[0240] 步骤S210：基于第q个图像帧的所述优化后的检测框，获得重新检测的图像特征，其中，q为正整数；

[0241] 步骤S220：基于所述重新检测的图像特征进行动作类型识别，并获得指示确定为对应类型动作的概率值；

[0242] 步骤S230：基于所述概率值对所述优化检测框进行平滑过滤，得到平滑过滤后的优化后的检测框；

[0243] 步骤S240：在时域内关联平滑过滤后的优化后的检测框，得到所述动作管道。

[0244] 在本实施例中所述重新检测的图像特征，可以前述的n类图像特征都不同，也可以与前述n类图像特征的一个或多个相同。例如，所述重新检测的图像特征同样可为光流图像特征或颜色图像特征。

[0245] 具体如在步骤S220中利用二分类器通过动作分类，判别目标在对应图像帧是否有执行预定动作，在交通道路领域识别车辆是否有闯红灯或者压线的违规动作的分类，而动作类型识别可包括：违规动作和合规动作的判别。

[0246] 再具体如，在步骤S220中可以利用多分类器进行多种动作的识别，利用对分类器识别出合规动作和违规动作，并且对违规动作的违规类型进行细分。例如，违规动作的类别包括但不限于：交通信号灯违规动作、交通指示线违规动作、交通肇事相关的违规动作。

[0247] 在本实施例中利用分类器进行动作类型的识别之后，还会得到识别的概率值。

[0248] 在本实施例中，通过平滑过滤可以过滤掉图像噪声，剔除掉包含目标概率比较低的优化后的检测框，得到再次优化后的检测框。

[0249] 具体如，所述步骤S230可包括但不限于：过滤掉所述多帧图像中概率值小于所述平滑概率的优化后的检测框，得到未被过滤掉的优化后的检测框；则步骤S240可包括：在时域连接未被过滤的优化后的检测框得到所述动作管道。在一些实施例中，该平滑过滤包括但不限于所述上述概率值的平均值。此处是对基于上述概率值对优化后的检测框进行平滑过滤的一种举例，具体实现不局限于上述举例。

[0250] 如图5所示，本实施例提供一种目标检测装置，包括：

[0251] 获取模块110，用于获取n个不同的目标检测器确定的与定位目标相关的n类检测框，其中，所述n个不同的目标检测器能够从同一图像中提取n类不同的图像特征；n为等于或大于2的正整数；

[0252] 整合模块120，用于基于所述n类检测框，获得整合后的检测框；

[0253] 提取模块130，用于所述n个不同的目标检测器中的每个目标检测器基于所述整合后的检测框从输入图像中提取图像特征，得到n类图像特征；

[0254] 第一优化模块140，用于基于n类图像特征进行图像特征优化，得到优化后的图像特征；

[0255] 第二优化模块150，用于根据所述优化后的图像特征，得到优化后的检测框，以对目标进行检测。

[0256] 在一些实施例中，所述获取模块110、整合模块120、提取模块130、第一优化模块140及第二优化模块150，均可为程序模块；该程序模块被处理器执行后，能够实现前述该模块所对应的功能。

[0257] 在另一些实施例中，所述获取模块110、整合模块120、提取模块130、第一优化模块140及第二优化模块150，均可为软硬结合模块，该软硬结合模块可包括各种可编程阵列；该可编程阵列包括但不限于现场可编程阵列或复杂可编程阵列。

[0258] 在还有一些实施例中，所述获取模块110、整合模块120、提取模块130、第一优化模块140及第二优化模块150，均可为纯硬件模块，该纯硬件模块可包括但不限于专用集成电路。

[0259] 在一些实施例中，所述第一优化模块140，用于在第m次执行图像特征优化时，利用所述n类图像特征中的n‑1类图像特征，优化所述n类图像特征中的第p类图像特征，得到所述优化后的图像特征；其中，第p类图像特征为所述n类图像特征中除所述n‑1类图像特征之外的一类图像特征；m为大于0的整数，p为大于0小于等于n的整数。

[0260] 在一些实施例中，p＝mod(m/n)+1。

[0261] 在一些实施例中，所述第一优化模块140，具体用于在第m次执行图像特征优化时，对所述n‑1类图像特征中的每一类图像特征进行卷积处理，得到所述n‑1类图像特征中的每一类图像特征的卷积特征；利用所述卷积特征优化所述n类图像特征中的第p类图像特征，得到所述优化后的图像特征。

[0262] 在一些实施例中，所述第一优化模块140，具体用于在第m次执行图像特征优化时，对所述n‑1类图像特征中的每一类图像特征进行第一卷积处理，得到n‑1类的第一卷积特征；对所述n‑1类的第一卷积特征中的每一类第一卷积特征进行激活处理，得到n‑1类激活特征；对所述n‑1类激活特征中的每一类激活特征进行第二卷积处理，得到所述n‑1类图像特征中的每一类图像特征的卷积特征；利用得到的所述n‑1类图像特征中的每一类图像特征的卷积特征优化所述n类图像特征中的第p类图像特征，得到所述优化后的图像特征。

[0263] 在一些实施例中，所述第二优化模块150，具体用于基于优化后的图像特征进行回归处理，得到所述优化后的检测框。

[0264] 在一些实施例中，所述整合模块120，具体用于将所述n类检测框中每一类检测框中的概率值不小于概率阈值的检测框合并，得到整合后的检测框。

[0265] 在一些实施例中，所述获取模块110，在第一次执行获取n个不同的目标检测器确定的与定位目标相关的n类检测框时，用于分别利用n个不同的目标检测器在所述输入图像中检测目标，获得与定位目标相关的n类检测框。

[0266] 在一些实施例中，所述获取模块110，在第k次执行，k为大于1的整数，获取n个不同的目标检测器确定的与定位目标相关的n类检测框时，具体用于对于n个不同的目标检测器中的每个目标检测器，获取第k‑1次执行获取n个不同的目标检测器确定的与定位目标相关的n类检测框时该目标检测器确定的检测框或者该目标检测器对应的优化得到的检测框。

[0267] 在一些实施例中，所述装置还包括：

[0268] 连接模块，用于连接视频中多帧图像的所述优化后的检测框，形成同一个目标的动作管道；

[0269] 跟踪模块，用于基于所述动作管道跟踪所述目标。

[0270] 在一些实施例中，所述连接模块，具体用于基于第q个图像帧的所述优化后的检测框，获得重新检测的图像特征，其中，q为正整数；基于所述重新检测的图像特征进行动作类型识别，并获得指示确定为对应类型动作的概率值；基于所述概率值对所述优化检测框进行平滑过滤，得到平滑过滤后的优化后的检测框；在时域内关联平滑过滤后的优化后的检测框，得到所述动作管道。

[0271] 以下结合上述实施例提供一个具体示例：

[0272] 示例1：

[0273] 本示例提供的目标检测方法，利用信息传递的方法可以把有用信息从一个模型传递到另外一个模型，从而利用不同模型所提取特征之间的互补性提高模型的提取特征的能力。利用一个模型产生的定位提名去帮助另外一个模型更准确地实现图像中目标的定位。

[0274] 通过以上两种方法在特征和产生定位提名的层次上充分地利用不同模型之间的互补信息。

[0275] 本示例提供的目标检测方法，可基于深度学习框架的动作定位模型对多个动作目标进行定位。

[0276] 具体如，利用本申请实施例提供的方法进行视频动作定位，可分为以下几个步骤。

[0277] 首先，使用Faster‑RCNN算法对视频当前帧的RGB图像以及光流图像生成动作定位的提名以及提取对应的特征。此处的RGB图像为提取的第一类图像特征；光流图像为提取的第二类图像特征。

[0278] 然后，利用信息传递的方法把互补信息从一个模型的特征传递到另一个模型，同时融合不同模型生成的动作定位提名从而获得互补的提名。此处的互补信息可为利用卷积传输通道对一种图像特征进行卷积处理后得到的用于补强另一种图像特征的图像特征。

[0279] 接着，使用新产生的特征和动作定位提名对当前帧进行动作分类与定位。

[0280] 最后，使用常见的连接策略把每一帧的动作定位串联起来得到包含动作起始与结束时间点以及动作在每一帧空间位置等信息的动作定位结果。

[0281] 此处的定位提名对应于前述的检测框。

[0282] 以上步骤中的不同模型的信息在特征与动作定位提名互相帮助的过程可以进行多次迭代，从而加强最后生成结果的准确性。

[0283] 本示例包含动作检测以及时序连接。

[0284] 用于动作检测的动作检测模型的输入可以为：视频当前帧的RGB图像以及光流图像；该动作检测模型的输出为：视频当前帧可能发生动作的检测框以及对应的动作类别。

[0285] 具体处理过程分为以下几个步骤：

[0286] 使用Faster‑RCNN算法对RGB图像以及光流图像分别确定对应的检测框以及动作类别。

[0287] 把两种不同模型产生的检测框做成合集并使用每一个检测框分别提取对应位置的RGB以及光流特征。把一个模型的特征(如光流)经过两层1x1的卷积(信息传递)加到另外一个模型的特征(如RGB)上，从而得到更强的特征。

[0288] 基于前述步骤得到的检测框合集以及改善后的特征使用分类器与回归器进行进一步的分类与回归，得到更加准确的检测框。

[0289] 进行多次迭代(如4次或4次以上的迭代)从而提高最后产生的检测框的准确性。

[0290] 所述时序连接步骤的输入为：所有帧生成的检测框以及对应动作类别；所述时序连接步骤的输出为：由检测框连接而成的动作管。

[0291] 最后基于动作管道进行目标追踪或目标行为分析。

[0292] 动作管道的连接可包括：

[0293] 使用连接策略把视频通过动作检测模型产生的检测框在时间域上连接起来产生动作管。

[0294] 利用动作管中的每一个检测框提取对应位置的特征，然后进行二分类判别在该检测框范围内是否有动作发生并产生动作发生的概率。

[0295] 使用中位数过滤器对动作管中每一个检测框的动作发生概率进行平滑过滤操作。把动作发生概率低于阈值的检测框去除掉，从而得到最终的动作管。

[0296] 如图6所示，本申请实施例提供了一种目标检测设备，包括：

[0297] 存储器，用于存储计算机可执行指令；

[0298] 处理器，分别与显示器及所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现前述一个或多个技术方案提供的目标检测方法，例如，如图1及图4所示的目标检测方法中的至少之一。

[0299] 该存储器可为各种类型的存储器，可为随机存储器、只读存储器、闪存等。所述存储器可用于信息存储，例如，存储计算机可执行指令等。所述计算机可执行指令可为各种程序指令，例如，目标程序指令和/或源程序指令等。

[0300] 所述处理器可为各种类型的处理器，例如，中央处理器、微处理器、数字信号处理器、可编程阵列、数字信号处理器、专用集成电路或图像处理器等。

[0301] 所述处理器可以通过总线与所述存储器连接。所述总线可为集成电路总线等。

[0302] 在一些实施例中，所述终端设备还可包括：通信接口，该通信接口可包括：网络接口、例如，局域网接口、收发天线等。所述通信接口同样与所述处理器连接，能够用于信息收发。

[0303] 在一些实施例中，所述终端设备还包括人机交互接口，例如，所述人机交互接口可包括各种输入输出设备，例如，键盘、触摸屏等。

[0304] 在一些实施例中，所述目标检测设备还包括：显示器，该显示器可以显示各种提示、采集的人脸图像和/或各种界面。

[0305] 本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被执行后，能够实现前述一个或多个技术方案提供的目标检测方法，例如，如图1及图4所示的目标检测方法中的至少之一。

[0306] 在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

[0307] 上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

[0308] 另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

[0309] 本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read‑Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

[0310] 以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

有效性	有效专利	专利类型	发明专利
申请号	CN201910364565.0	申请日	2019-04-30
公开/公告号	CN110210474B	公开/公告日	2021-06-01
授权日	2021-06-01	预估到期日	2039-04-30
申请年	2019年	公开/公告年	2021年
缴费截止日
分类号	G06K9/32 、G06K9/46	主分类号	G06K9/32
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	23
权利要求数量	24	非专利引证数量	1
引用专利数量	1	被引证专利数量	0
非专利引证	1、2012.04.19XINGYU ZENG等《.Gated Bi-directionalCNN for Object Detection》《.ECCV2016》.2016,第354-369页. 方路平等《.目标检测算法研究综述》《.计算机工程与应用》.2018,第54卷(第13期),第11-18,33页.;
引用专利	US2012093407A	被引证专利
专利权维持	3	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人	北京市商汤科技开发有限公司	第一申请人	北京市商汤科技开发有限公司
专利权人	北京市商汤科技开发有限公司	当前专利权人	北京市商汤科技开发有限公司
发明人	苏锐、欧阳万里、周泸萍、徐东	第一发明人	苏锐
地址	北京市海淀区中关村东路1号院3号楼7层710-712房间	邮编	100084
申请人数量	1	发明人数量	4
申请人所在省	北京市	申请人所在市	北京市海淀区

首页 > 专利 > 北京市商汤科技开发有限公司 > 目标检测方法及装置、设备及存储介质专利详情

目标检测方法及装置、设备及存储介质 0 0

技术领域

背景技术

发明内容

实施方案

附图说明