数字视网膜技术及其标准化进展
2023-02-13 来源:中国智能交通协会
高 文
中国工程院院士
北京大学信息科学与工程学院博雅讲席教授、院长
在ITS这样一个城市大脑中,视觉感知和计算有哪些挑战和机遇?边云协同的时候,视频特征、视频网络,摄像机网络应该怎么协调工作,模型应该是怎样的?将数字视网膜应用于ITS,其本身作为一个系统,也需要构建相应的标准体系,来实现互通互联。数字视网膜技术已有了一些应用实践,已在局部工作了,如何在全局发挥作用是关键。
一、城市大脑中的视觉感知与计算:挑战与机遇
城市大脑是智慧城市的核心,是算力和数据的汇聚地,整个生产力、生产资料等等东西都是在城市大脑里面。不管什么样的数据或者最终计算的决策,都需要一个算力底座,因此,强有力的算力底座是城市大脑的核心。要想做好一个智慧交通系统,城市大脑面临着非常大的挑战,能不能把真正的数据汇聚到这里,而不要让没有用的数据凑热闹,或者冲淡计算,这是非常关键的。城市数据包括时间的数据、空间的数据,而且时间和空间的尺度有多大,就有多大尺度的数据。这些数据结合在一起,就会非常庞大,因此需要在不同层次对这些数据进行划分、储存、使用和管理。
智慧交通管理系统里面,最大的数据量是视频,视频的数据量在整个监控系统里面,或者说城市大脑里面占了70%到90%,而且随着摄像头越来越多,分辨率越来越高,这些数据量还在增加。这个增加导致了整个系统非常的臃肿,处理起来效果特别低,而且不停地往里丢钱来增加存储能力、处理能力,这就带来了整个系统不堪重负,性能和投入相比不成比例,问题出在数据的处理模式上。
目前数据处理的典型模式分为两类,一类是数据压缩了以后直接送给云、云解开、抽取需要的东西、再处理分析事件;另外一类是利用智能摄像头输出识别结果,有没有违章,有没有逃犯,但是这些东西对城市交通管理没有太大的用处,真正有用的是数数,要数一分钟或者十分钟这条路上通过了多少车,这些车都是什么类型的车,至于这个车违章没有违章,那是交警部门的事儿,管理系统你数数就好,有了数就可以把系统优化到最好,但是恰恰数数这个事情目前做起来没有那么好,因为随着时间的推移,车的外形、形状、颜色不停的变化,原来的数数没有那么灵光了,因为把算法做到摄像头里面,摄像头如果不升级就适应不了新的情况,所以真正的智能是放在云端,所有的东西放在云上不行,所有的东西放在摄像头上也不行,怎么调整好是一个很重要的事情。
现在很多大数据处理,很多地方是条块分割的,交通系统有自己的处理中心,处理的是交通管理方面的东西,交警又有自己的一套系统,城市管理又有城市管理的一套系统,不同的系统各自分割运行,无法形成一个非常好的最终的决策,对一个城市来说,需要把所有的场景、需求、数据的来源统统统一到一个云上才能比较有效。
目前的数据处理模式基本上是摄像头直接把数据要么丢到云上,要么处理完给云一个结果,这两种模式都对整个城市大脑比较有害,好比我们人类,小时候人的神经网络系统是全连接,从最终端的传感器到大脑都有连接,但是随着不停的学习,神经系统剪枝,有一些连接越来越粗壮,有一些没有连接了,就慢慢的变成了神经网络有选择的连接,真的重要的事件来临的时候会立刻触发,告诉大脑来了一个什么事情,平时是不触发的。而自闭症的孩子注意很随机,盯着一个东西看着,旁边发生什么事儿转移不了,他就盯着一个事情,更大的事情刺激他没有响应,就是说他整个的神经网络有问题了,我们现在的城市大脑或者ITS的系统千万不能出这种事情,要么盯着一件事情其他的事情不管不顾,要么什么事儿都感兴趣,必须只对重大事件、重要的东西感兴趣,所以整个分工必须非常明确,而且要协调。所以现在要做的ITS系统,一定要想法能够不掉入“自闭症”的状态。
要做到这点,最重要的是把有用的信息给到决策,其他的信息不乱传。现在整个视频的监控系统采用视频压缩,它把图象或者视频里面每个象素后面带来的信息都编码压缩之后送到云端处理,这种方式对广播电视特别友好,当摄像机拍了一个东西,不能根据某一些人的喜好把这个东西给模糊掉、那个东西裁掉,因为每个人看问题,观察的角度不一样,所以必须要有一个对大多数人把有用信息保留下来的方案,那个方案就是每个象素都要好好处理,总体来讲不一定是最优,但是对每个像素一定是最好的,这通常叫图象编码或者视频编码。 但是作为交通管理不是对所有的东西感兴趣,而是路上跑的车,车和车之间的距离等特征,并且需要把特征从摄像头送到云端。所以比较理想的系统,既要送图象、送视频,同时把特征交给决策系统。
二、数字视网膜:边云协同计算架构
根据人的视觉感知系统设计比较理想的城市大脑,具体设计了一个模型——数字视网膜,和常规的现在的城市里面的监控、摄像机网络区别是,现在城市的监控、摄像机网络只传视频流,中间的流叫模型流,最上面的流是特征流,特征流就是决策时最需要用的那些东西,所以云端同时接受了视频流和特征流。模型流更多的是从云端往摄像头推,当车型变化了,车的颜色变化了等等,这些东西变化了以后会把对象特征的模型修改,所以模型流实际上从云往摄像头推使得模型及时更新。
在整个系统里面有几个特征比较重要,第一个是全局统一的时空识标,首先要有一个空间的ID,就是北斗或者GPS,摄像头到底准确的地理位置在哪,同时还要有时间,要有时钟,这个时钟是世界时钟,不是系统启动的时候设定的时钟,经常有时候现在的监控系统用着用着就乱了,因为都是摄像头自己的时钟,启动的时候对一下,对完了之后摄像头挂在那一两年之后就飘了,有的差十几分钟,有的差半个小时,这个摄像机传回来的信息带着自己的时标,每个标识可能差十几分钟,那么网络怎么工作?所以一定需要全局统一的时标。
第二个是数据表达的方式要双流,要有视频流和特征流,宏观决策系统使用的特征流非常重要。这两个流不是随便编两个流推出去就可以了,这两个流之间一定要有联合优化。当视频流损失到一定程度的时候,特征流精度再高也没有意义,反过来也一样,所以一定要把这两个通过联合优化函数,使得它们两个精度同步,这样才有意义。
近几年自动驾驶、无人驾驶非常火,自动驾驶里面的视觉系统原来主要靠激光雷达,现在马斯克的公司抛弃了激光雷达,直接用摄像系统做自动驾驶,这件事情其实就是非常典型的任务是整个图象的处理不是给人看的,而是给计算机做判断的,就是视频流,面向计算机的视频编码,我们以前的视频编码面向人的视觉系统,现在要做的是面向计算机做识别用的编码体系,这是完全一套新的体系。当然,面向机器视觉的编码体系不仅对ITS和无人驾驶非常有用,在所有的工业智能,流水线上的处理都是用的这套体系,所以这套体系从现在开始应该是做视频处理中一个新的分支,非常重要的分支,也请大家关注。
配合着这套思路,国际上相关的标准化工作也在开展,包括视频编码,面向机器的编码国内也有团队做,所以这条体系应该说都比较完整,接下来要做边端云怎么系统,编码的东西很多是在摄像头端完成的,但是对已经架在架子上的摄像头全部换下来成本太高了,前期投入的城市也不愿意干,因此可以把上面的信号引下来,在边缘端通过加上一些边缘服务器的办法把刚才的功能做了,然后把特征流做出来送上去。所以如何做好边端云三个不同决策的协同是整个系统设计的重点。
数字视网膜非常重要的一块功能设计,是设计了视觉计算协作的框架结构,其中里面三个重要的东西:可调节注意力,通过提升表示能力,数字视网膜可以自适应调整关注感兴趣的事件(异常事件)和整个城市的目标(例如,嫌疑人)的轨迹,从而挖掘低密度的数据价值;软件可定义,为我们提供了足够的灵活性优化整个传感基础设施;隐私保护,在数字视网膜,在公共基础设施中流通的用于分析的可视化数据依赖于提取的特征,而不是原始图像和视频,当特征已经脱敏,视觉信号不能以高保真反向还原,而现城市大脑系统中,图像和视频的系统仅有信号级压缩,欠缺隐私保护性。
第一个使能技术是智能视频编码。现在国内在视频编码的标准方面,已经从原来追赶到并跑到现在已经领跑了,现在我们的标准,编码的效率或者说编码的能力已经比国外的标准超前了差不多一年半左右。
最新的编码AVS3,已经在中央电视台8K电视里面使用,支撑了中央电视台冬奥会8K时时转播,这是奥运会历史上第一次时时的8K转播,这是国际上的第一次。而且这个工作是领先于国外的H.266一年半的时间,同时标准和芯片都完成了。因为这个工作比较领先,所以现在欧广联,也第一次把AVS3作为欧广联新一代的体系里面的视频编码的选项,是很大的进步。
第二个使能技术是特征编码。以前搞识别的是系统采用什么样的特征,特征和系统配合起来识别率就高,没有规定统一的特征规范,但是想大面积推广,就需要把特征做成规范和标准的东西,这是非常有挑战的东西。
第三个使能技术就是模型压缩。从云端往下送的模型流,当东西变了的时候,云端重新把模型训练学习完之后,把模型推回来,来适应新的变化。这个模型很复杂,参数量相当大,一弄就是多少兆、百兆、千兆的模型,把模型从云端往摄像头上推可能要花十几、二十分钟,摄像头在接收模型的时候不工作,万一出事了怎么办。因此利用一套压缩和增量更新的办法,模型本身就压缩了,然后只更新非常少的一点信息,这样摄像头更新的时候不会停止正常工作。
第四个使能技术是视频与特征编码的联合优化。视频和特征流之间进行优化,有常规的优化技术,可以通过优化模型优化计算最后算出来一兆的码流分多少给视频和特征,这叫联合优化。现在在联合优化的基础上又对一些特殊的对象进行了特别的优化,降低传输的流的数量。
以上是最主要的挑战问题和技术问题。
三、数字视网膜技术标准体系建设
数字视网膜标准化体系,第一部分系统结构、第二部分端子系统、第三部分是边子系统、第四部分是云子系统、第五部分算法模型仓库、第六部分存储系统、第七部分边端云协同、第八部分安全与隐私保护、第九部分接口、第十部分测试规范、十一部分是系统的存储与评价、十二部分是应用指南。这十二部分基本上把整个数字视网膜的标准化体系涵盖了。最早2019年3月份开始投入工作,现在基本上相当一批已经完成了,最终将到2026年全部完成。先从团标起步,然后国标,然后走向国际标准。参与标准化工作的单位很多,鹏城实验室、北京大学、中科院计算所、清华大学、中山大学、东南大学、西北工业大学,海康卫视、海信、华为、中兴、腾讯、平安、还有很多单位都参与了标准体系的构建。
四、智能体系统应用实践
(一)高效数字视网膜主动感知网络
现在这个系统已经在深圳的某一些区域布局并进行了实验的验证,包括一些跨时空的、重识别的问题,交通流量、城市流量的感知等等,对整个系统已经可以进行演示了。
另外对特征的编码工作,也是面向特定的对象目标又进行了优化,比如说对公交司机是不是注意力集中,是不是在好好开车还是在和别人聊天,马上就可以识别了,这种行为分析很多厂家都可以做,但是在数字视网膜的框架下做起来速度更快一些。
另外很多对人的行为的分析,现在的采数据比较难,从开始用大量数据的学习到现在慢慢的推进使用一些无监督的深度学习变化、对学习网络的感知和方法上都在做深化。特别是对行人重识别,深圳巴士集团几千辆车每天跑,同一个人在哪一站上来,哪一站下去的,什么时间上来,什么时间下去,通过把这个规律统计出来就可以计划什么时候发公交车,就有了依据。还有,鹏程实验室周边既有公交车站又有地铁站,住的人又比较密集,经过分析统计分析可以开一辆中巴车,可以从地铁口出发,招手就停,后来发现这个比正常开公交车赚钱多了,正常的公交车固定时间,赶不上就不坐了,这个一两分钟发一辆,一块钱车票,对很多人来说比公交车更好。整个像这样的系统对城市交通会有很大的帮助。
(二)鹏程-大圣视觉模型
鹏程-大圣视觉模型,通过大数据对对象的分类和行为分析做的非常的精准。所有这些事儿都是基于鹏城云脑II,性能特别强,算力非常大,按照当量算相当于50万台服务器,任何大模型分析在这上面做起来得心应手。这和国际上英伟达的芯片比较起来也是相当的,这个大模型现在不管是规模还是精度,整个都是经过了很多的验证,都是相当不错的,和其他的模型比较起来都有一些优势。
我们也做imageNET21K的工作,也是用大数据处理解决了一些问题。自建了一些数据库,有了基础的数据库拿出来和其他的数据混在一起训练速度比较快,另外训练的方法采用并行化,加速比非常高,可以通过增强学习的办法,增强模块的变化对反复训练的东西每次不用重复再来,加一些东西就可以使性能提高,比如说原来的系统性能上做大模型加载之后,车型识别可以提高7.4%,雾天场景检测1.6%的提高,行人识别5%的提高。
(三)数字视网膜端-边-云系统智能优化
这个模型可以对整个应用提高性能非常快,今后包括大模型本身,包括运用这些模型进行搜索,行为的分析,边端云的分析还会继续做下去。
具体的应用除了在深圳某一些区域使用,对整个边端云智能优化也在同步的做,已经发表了一批边端云智能优化的论文,使得数字视网膜系统+大算力,整个系统方面都有比较好的结果出来。
鹏城云脑II已经成为多维度主动感知的底座,可以做全域感知协同计算和智能调度,对流调也可以有帮助,在车道及混合交通精细化时时感知用这个系统也比常规的方法提高一些效率,对停车也会有一些帮助。
五、小结
现有的城市大脑以云计算为核心的系统,感知系统非常重要,这套系统的效率高低除了云要非常好以后,感知系统非常关键,数字视网膜给城市大脑的感知提供了一个新的方案,不是一定要用,但是有一个方案可以供你选择,这套方案应该说从标准体系到初步的验证都在推进,大概再有几年就会全部完成。