聊⼀聊视频分类
1.什么是视频分类
视频分类是指给定⼀个视频⽚段,对其中包含的内容进⾏分类。类别通常是动作(如做蛋糕),场景(如海滩),物体(如桌⼦)等。其中⼜以视频动作分类最为热门,毕竟动作本⾝就包含“动”态的因素,不是“静“态的图像所能描述的,因此也是最体现视频分类功底的。
2.公开数据集
熟悉深度学习的朋友们应该清楚,深度学习是⼀门数据驱动的技术,因此数据集对于算法的研究起着⾮常重要的作⽤。⽹络上虽然有⼤量⽤户上传的视频数据,但这些数据⼤多数缺少类⽬标签,直接⽤于算法的训练会导致效果⽋佳。在学术界,通常有⼀些公开的、已经经过完整标注的数据集,是算法训练的好帮⼿。具体到视频分类领域,主要有两种数据集,trimmed和untrimmed。Trimmed是指视频经过剪辑,使其只包含待识别类别的内容;untrimmed是指视频未经过剪辑,包含了动作/场景/物体之外的很多信息。Untrimmed通常在视频分类的算法之外,还要加上动作检测算法。这不在今天的话题当中,有空我们可以再聊聊这⼀块的算法。
那么trimmed video的数据集⽐较常见的有UCF101,HMDB51,Kinetics,Moments in time。Untrimmed video的数据集⽐较常见的有ActivityNet,Charades,SLAC。部分数据集的⽐较见下表:
视频分类常⽤数据集
数
据
集
名
称
数据集规模类别概览
HM DB 5151类动
作,6849段王晓男
trimmed视频
1. 常见的⾯部表情动作:如微笑,咀嚼,说话等;
2. 和物体交互有关的⾯部动作:如吃东西,喝饮网页游戏 排行
料,抽烟等;3. 常见的肢体动作:如⿎掌,爬楼梯,跑步,潜⽔,坐下等;4. 和物体交互有关的肢
体动作:如洗头,打⾼尔夫,骑⾃⾏车,射击,打篮球等;5. 和⼈交互有关的肢体动作:如拥抱,
亲吻,击剑,拳击等。
金智秀个人资料UC F1 01101类动
作,13320段
trimmed视频
运动员激励语10个字1. ⼈与物体交互相关的动作:如画眼线,呼啦圈,拖地,打字等;
2. 肢体动作:如打太极,引体向
上,俯卧撑等;3. ⼈与⼈交互相关的动作,如剪头发,阅兵, 萨尔萨舞等;4. 演奏乐器:如打⿎,
弹吉他,演奏钢琴等;5. 运动:如潜⽔,跳⾼,举重等。
Mo me nts in Tim e 1000000段
trimmed视
频,每个视频
长度相同
(3s)
这个数据集⽐较有意思的是动作主体不仅可以是⼈,还可以是动物,物体乃⾄⾃然现象。想看⼩狗
跳舞吗?
Acti vity Net 200类动
作,20000段
untrimmed视
频
1. 和吃喝有关的动作:如喝咖啡,制作三明治,洗碗等;
2. 和运动有关的动作:如打曲棍球,掷铁
饼等; 3.和社交/休闲/娱乐有关的动作:如跳舞,演奏乐器,跳房⼦游戏等;4. 和个⼈护理有关
的动作:如化妆,刮胡⼦,纹⾝等;5. 和家庭⽇常活动有关的动作:如包装礼物,和宠物玩耍,修
剪草坪等。
需要指出的是,从上表中我们可以看出视频分类的数据集实际上⽐图像分类的数据集的规模⼩得多。这是因为在视频上进⾏标注远⽐对图像进⾏标注要费时费⼒。trimmed视频还好些,基本标注时间等于视频时长。如果是untrimmed视频,需要在视频中⼿⼯标注动作的起始和结束时间,根据测试,需要花费视频长度的 4 倍时间。
3.研究进展
在视频分类中,有两种⾮常重要的特征:表观特征(appearance)和时序特征(dynamics)。⼀个视频分类系统的性能很⼤程度上取决于它是否提取并利⽤好了这两种特征。但是提取这两种特征并不那么容易,会遇到诸如形变/视⾓转换/运动模糊等因素的影响。因此,设计对噪声鲁棒性强且能保留视频类别信息的有效特征⾄关重要。
根据ConvNets(深度卷积神经⽹络)在图像分类上取得的成功,很⾃然地,我们会想到把ConvNets⽤到视频分类中。但是,ConvNets本⾝是对⼆维图像的表观特征的建模,⽽对于视频来说,除了表观特征,时序特征也很重要。那么如果把时序特征⽤起来呢?通常有三种思路:LSTM,3D-ConvNet和Two-Stream。
1. LSTM系列
LRCNs[1]是LSTM和ConvNet结合进⾏视频分类的⽅法。这种结合很⾃然,已经在图像分类任务上训练好的ConvNet分类器,可以很好地提取视频帧的表观特征;⽽对于时序特征的提取,则可以通过直接增加LSTM层来实现,因为LSTM能够将多个时刻的状态作为当前时刻的输⼊,从⽽允许时间维度上的信息得以保留。
李敏镐感谢粉丝image
image
关于实验效果,C3D在UCF101上的精度为82.3%,并不⾼,其原因在于C3D的⽹络结果是⾃⼰设计的简单结构(只有11层),⽽没有借鉴或预训练于其他成熟的ConvNets结构。
因此针对这⼀点,有很多学者提出了改进。
I3D[3] 是 DeepMind 基于 C3D 作出的改进,值得⼀提的是 I3D 这篇⽂章也是发布 Kinetics数据集的⽂章。其创新点在于模型的权重初始
长城是谁建的image
3. Two-Stream Network及其衍⽣系列
Two Stream[5]是VGG组的⼯作(不是UGG哦),其基本原理是训练两个ConvNets,分别对视频帧图像(spatial)和密集光流(temporal)进⾏建模,两个⽹络的结构是⼀样的,都是2D ConvNets,见下图。两个stream的⽹络分别对视频的类别进⾏判断,得到class score,然后进⾏分数的融合,得到最终的分类结果。
可以看出Two-Stream和C3D是不同的思路,它所⽤的ConvNets都是2D ConvNets,对时序特征的建模体现在两个分⽀⽹络的其中⼀⽀上。Two-Stream的实验结果,在UCF101上达到88.0%的准确率。
发布评论