天津建设银行东丽网站,青海seo技术培训,一天一元网站建设,网站专题建设合同【人体姿态估计】#xff08;一#xff09;原理介绍
一、背景
人体姿态估计本质上是一个关键点检测的项目#xff1b;
关键点检测在生活中的应用十分广泛#xff0c;包括人脸识别、手势识别#xff0c;而人体姿态估计则是对身体的关键点进行检测#xff1b;
本文将介…【人体姿态估计】一原理介绍
一、背景
人体姿态估计本质上是一个关键点检测的项目
关键点检测在生活中的应用十分广泛包括人脸识别、手势识别而人体姿态估计则是对身体的关键点进行检测
本文将介绍一些常见的数据集、评价指标以及比较经典的算法
二、数据集和评估指标
首先关键点的评估指标参考以下文章
COCO数据集评价指标 —— Keypoints - 简书 (jianshu.com)
COCO官方评价指标
其本质是通过点之间的欧式距离关系进行指标评估的
其中要重点注意一个参数
v 0 : 未标注点
v 1 : 标注了但是图像中不可见例如遮挡
v 2 : 标注了并图像可见最常见的人体姿态数据集为MPII和COCO数据集其中COCO数据集如下图所示 标注文件中需要重点关注categories部分 其中keypoints代表种类skeleton代表的是连线的规则
三、Top Down算法
简介一种自顶向下的方法本质是先找人后找点 其中最经典的网络为Mask RCNN其步骤为先找人——实例分割——关键点检测
下面看一下Mask RCNN和传统二阶段检测算法的区别 从上图中可以看出相比于传统二阶段检测网络增加了mask branch的模块
详细如下图所示 对检测到的图像ROI进行降维特征提取输出的通道数为需要检测的关键点数量
单独将每一通道的图取出可以看出是一个Heatmap又称为热力图
四、Bottom Up算法
简介一种自底向上的方法先找点后进行归纳 其中最经典的算法为OpenPose
源码https://github.com/CMU-Perceptual-Computing-Lab/openpose
论文[1812.08008] OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields (arxiv.org)
原理
主要分为两个步骤Parts Detection点的预测和Parts Association点的连接 其中先通过特征提取网络得到特征图转换得到每个关键点的热力图
其次关键在于通过PAF计算两个点的关联度 上图表示了两个点之间的得分如何计算首先通过点是否在真实连线的区间范围内来判断两点的关联性其次计算得分
想了解算法细节的可以看后续的代码讲解部分
五、前沿算法
1、MSPN
论文地址https://arxiv.org/pdf/1901.00148.pdf 上图为主要的结构模块
从结构上看优化了单个stage的结构采用了降采样到上采样的两个过程类似于U-Net
具体看其中的关键结构 在降采样和上采样的过程中会造成大量的特征信息丢失因此采用上图所示的相邻阶段的特征聚合以增强特征信息传播降低训练难度对于一个降采样过程输入包括三个部分上阶段中相同size的降采样特征经过1*1卷积编码后的特征、上个阶段中相同size的升采样特征经过1 * 1卷积编码后的特征以及当前stage的降采样特征
下面是对每个stage输出的优化策略 采用了由粗到细的多分支监督的方式来优化stage的能力如上图所示对于每个stage的特点采用不同的kernel-size的高斯核制作标签
2、HRNet
参考刷新三项COCO纪录姿态估计模型HRNet开源了中科大微软出品 | CVPR (qq.com)
简介高分辨率网络High-Resolution Net的缩写在表征学习的整个过程中都能够保持高分辨率表征因此为模型设计了并联结构把不同分辨率的子网络用新的方式连在一起 上图是现有的一些方法
a对称结构先下采样再上采样同时使用跳层连接恢复下采样丢失的信息b级联金字塔c先下采样转置卷积上采样不使用跳层连接进行数据融合d扩张卷积减少下采样次数不使用跳层连接进行数据融合 上图是HRNet的结构主要有两个特点并行连接高分辨率子网和重复的多尺度融合
相比于传统的下采样特征提取该网络通过上采样和下采样并且在特征提取过程中融合不同形状的特征
补充信息
对于关键点的开源代码和论文可以参考这个地址Keypoint Detection | Papers With Code
几种IOU的总结一文读懂目标检测中的各种IoU损失函数 - 知乎 (zhihu.com)