消费级视频 AI 到底能做什么?

2017-10-12 11:45 [复制链接] 49 0

Video++专注于消费级视频领域 AI 和场景应用,它通过为流量平台提供视频 AI、视频电商、视频互娱广告等系统应用, 以视觉识别和大数据为基础, 来实现广告自动投放和电商自动投放,打破传统视频商业模式。公司已经和芒果 TV、乐视、搜狐、熊猫直播、斗鱼直播等各大视频网站进行了合作,月独立 UV 量已达 2.8 亿。
在上游,Video++合作的是视频网站、卫视台、直播平台等流量平台,为这些流量平台提供技术系统进行视频电商和互娱广告的流量增值,可能将来还有游戏。
VideoAI 运营系统后台截图(客户可以选择所要分析的要素和场景,生成相关的数据报告。)
Video AI 是 Video++推出的视频自动识别+投放系统。该系统会首先识别出视频中的人物(明星)、物体(手机、电脑等)等等,然后给出一些列标签报告,客户可以查看这些明星、手机出现的点位。这些点位以坐标轴的方式呈现,横坐标是时间,纵坐标是相似度。接下来是广告投放。比如一个化妆品广告主,想投所有跟女性相关的场景,就可以选择所有跟女性相关的关键词,然后系统就会给出相应的点位,来投放广告。比如说某个视频场景中有情侣在亲吻,就有杜蕾斯的自然呈现,如果视频中出现了阳光和沙滩,就推防晒霜的广告,这种情况下观众不觉得违和。
VideoAI 运营系统后台自动识别过程截图一
选好点位后接着是选择广告类型,比如互娱应用、投票、红包、视频内电商等等。比如在爸爸去哪儿的节目中,当『阿拉蕾』出场时,会有一个「你最喜欢阿拉蕾戴那副眼镜」的投票,眼镜由品牌赞助商提供。此外,之前的植入广告是在电视剧上映之前就敲定的,这种方式有个缺点,广告主并不知道这部剧能不能火,所以广告效果也是未知性非常高。现在是在电视剧上映之后植入广告,此时电视剧的火爆程度都是已知的,广告主可以较为放心的投广告。比如人民的名义播完前几集,收视率很高,这个时候广告主就能根据收视率出价了。
Video AI 运营系统后台自动识别过程截图二
而这些视频内的广告类型还可以做灵活组合与运行,其靠的是一个特别的轻量级视频操作系统。一般的操作系统有四层,硬件层、交互层,然后到逻辑层、应用层,视频操作系统在交互层后多了一个内容层。在内容层上,首先要通过人工智能技术把视频中的人脸、物体等非结构化数据结构化,分析出人物、地点、品牌、动作等等不同的维度。接着是逻辑层,通过不同的组件,比如说直播、点播等等,组成相关的应用。最后到顶层,应用层,这一层有不同的功能和主题,以及互动应用。
Video++视频智能化解构过程系统架构截图
「没有任何技术是有真正意义上的壁垒的,技术只能给予先发优势。而先发优势可以在资源上逐渐形成后天的壁垒。」金证济苍画出一张系统架构图,底层是 AI 算法、数据,中间层是逻辑层、工程化,最上层是产品化、用户互动、和创建场景。从技术系统来说,整体架构是最难的,即把视频中的非结构化数据转化为结构化数据,并以此为基础将逻辑组件进行组合,呈现给观众最终上层的应用、广告、电商、游戏。据金证济苍介绍,这套架构在过去的三四年中,重构了多次,迭代了八个版本。此外这些架构本身非常复杂,但是为了让它能很轻量级地输出到平台的 SDK 中去,做了优化工作,让它的操作非常简易。芒果、乐视、浙江卫视、搜狐、斗鱼直播、熊猫直播、战旗直播、PPTV、风行、暴风影音、梨视频等都是 Video++的客户,这些客户对于操作系统的轻量级和稳定性要求很高。打个比方,比如某个客户的 App 已经 30Mb 了,SDK 经过反复优化要小于 1Mb,那么对于用户要下的 App 基本大小才是一样的。
除了视频广告外,电商也是其瞄准的另一个市场。目前 Video++上线了电商系统, 提供一站式视频内电商互动、无打扰加购、订单管理、商品管理、主播平台分成系统, 并且提供多样式主播自定义的直播间电商互动销售工具, 帮助主播便捷进行商品推荐和用户互动提升销量, 同时可以供货物流售后服务一站式解决, 极大降低直播平台运营成本。直播平台与主播自建电商系统的优势又在于:在直播页面和 app 中形成完整闭环, 无需跳转到淘宝京东;所有流水进平台, 和以前只拿淘宝客返点比优势明显;同时其电商故事可以为直播平台带来更大的估值空间, 丰厚的资本收益。
针对消费级视频设计的特别算法系统
Video++ 在消费级视频中主要采用的是对象识别和检测跟踪这两个技术。检测与跟踪又可以分为通用和具体两个类别。通用的检测不针对具体类别,比如任何想要关注的对象或者 logo 都可以用通用的方法。据 Video++首席算法工程师张奕博士介绍,具体的检测方法用的最多的就是人脸。
Video++的人脸识别技术中用到了几个模块。首先是对视频做一个切分,就是镜头切换与检测模块。做完镜头切换后,要对单一镜头中的人脸进行检测和跟踪,生成一个人脸的轨迹。然后对轨迹上每一帧的人脸做图像质量评估,找出评分高也就是画质好的人脸帧,再将这些帧送入人脸识别模块中,识别完之后对每一个帧上面的识别结果进行融合,得到一个整体轨迹的识别结果。
消费级视频与常见的监控视频有一些区别。消费级视频中的场景是各种各样的,不固定的,有很多场景的变化和镜头的切换以及光照的变化,这些都会对识别结果产生巨大的影响。
因此 Video++的这套人脸识别算法系统的整个构架都是针对消费级视频的特点来设计的。加入一些专门的步骤来提升它的识别效果。它有以下四个设计要点:
首先是加入了镜头切换的检测模块,这些在监控视频的识别中是不需要的,因为监控视频的镜头是固定的,不存在镜头切换。
其次在对象检测跟踪模块中,针对识别率的精度做了很多工作。消费级的视频数据量很大,要做到实时甚至超过实时的分析速度,对算法的速度要求非常高,一方面要考虑速度,另一方面也要保证精度。因此采用的是交替进行的检测跟踪。
第三,在获得对象图像轨迹之后,加入质量评估模块。加入这个模块是因为在消费级视频中会经常出现很多干扰因素,比如光照的变化,对象运动会带来运动的模糊,让每一帧的图像质量下降。一个人脸轨迹由多个帧组成,有的质量好,有些质量差,那些质量较差的帧的识别结果通常是不可信的,如果把所有帧都拿来识别,那些质量比较差的帧的识别结果会对整个的识别结果造成很大的影响。加入一个图像质量评估的模块后,可以把质量较低的图像剔除,保留质量高的图像进入识别模块,这样一来就可以提高识别结果的可信度。
最后,把挑出来的高质量图像送入识别模块,得到一个人脸轨迹上的质量比较好的帧的整体识别结果,用一个融合模块把轨迹上的所有帧的识别结果推理到整个轨迹的识别结果。
据张奕博士介绍,目前 Video++的人脸识别在图像数据集中的准确率达到了 99%。由于在视频中测试的,经过各个模块流程的后,每个模块都会对最后的准确率产生一定的影响,举个例子来说,在人脸检测中,其准确率为 90%,经过后面几个模块后,最终的识别准确率可能只有 80%。而达到 80% 以上,就能实现比较好的用户体验了。此外,与静态的图像识别不同,消费级视频识别在业界和学术界还没有建立起公共数据集,所以很难去比较不同算法的识别率高低。

使用道具 举报 只看该作者 回复
最新评论 | 正序浏览
只看楼主|楼层直达:
*滑动验证:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|站点地图|Video++ ( 沪ICP备14042830-6号

Powered by video++

快速回复 返回顶部 返回列表