Google的Soli终于上旗舰机了。
作为很多年前的Project Tango开发者,真是老泪纵横。
要知道Project Tango是一个四五年前就非常成熟的RGB-D camera技术,当时搭载的平板非常昂贵,而且只有联想的一款商用机上成功搭载了。
Project Tango比iPhone X不知道早多少年的技术了,还更精确,而且主要功能是室内SLAM,非常非常精准好用。本质来说,Google Tango就是把微软的那个黑科技Kinect里的所有传感器再压缩,直到压缩成小手指那么大,然后放在平板的背部。
而Google比苹果不仅更早,整个宏伟蓝图也更远大:Google想做室内SLAM的顶级完美解决方案。你能想象2015年在Google Play上就有几十款精确基于室内SLAM的VR/AR游戏吗?都是基于Tango平板开发的,全都是像我一样的开发者们自愿想到各种创意然后提交到Play Store供大家免费下载来玩的,可惜这个技术始终没有正式大规模商用,最终SDK没有完成,而且把整个RGB-D的approach给取消了,整个反而拥抱了更低级、更不精确的单摄像头+IMU方案。
Google就是美有自己的硬件品牌,所以无数好硬件都被雪藏了,最后Tango整个项目组都被砍掉了。
我心疼的不只是Project Tango,而是无数个被Google内部在某个阶段被砍掉的项目,他们本来都有可能像Soli一样面世的,只不过Google没有自己的消费级硬件,这些项目和技术永远没有机会重见天日。
能搭载上Google Pixel 4这个级别的成熟产品,是Soli的幸运。
利益相关:我们组在做毫米波雷达的HAR。
WoW!差远了好吗!实验室做HAR的师妹表示超级兴奋,Google的Soli项目终于在商用产品上实现了!
比起Mate 30 Pro的视频处理,我们做信号处理的觉得这才可以被叫做可以带起来一个行业的黑科技,虽然已经黑了好几年。近些年其他厂商也有了类似的产品。
先回答一下问题,同样都是在解决Human Activity Recognition问题,Pixel 4的实现方案是毫米波雷达,而华为的Mate 30 Pro实现是视频传感器。硬件上的主要区别是传感器不一样,不过也正因为传感器不一样,所以它的应用范围、优缺点和相应的算法并不完全一样。
Human Activity Recognition (HAR)在智能家居、自动驾驶、人机交互等方面一直都有非常广泛的市场需求,主要目的是通过各种传感器来识别用户行为,这里的传感器包括加速度计、陀螺仪、雷达、UWB、红外线等[1]。因为计算机视觉和深度学习的广泛发展,基于视频和图像数据的HAR是目前主流,华为在Mate 30 Pro上实现的就是这种;这个领域的发展也可以类比自动驾驶,目前自动驾驶中视频信息处理依然是主流。
HAR的主要问题是行为感知,当一个人运动时,其运动带来的多普勒信息可以由反射/散射的雷达回波表征,经过雷达的射频前端信号处理之后,二维特征可以用于处理和识别。
这些二维特征可视化之后,如下图[2]
而这些多普勒信息在图像传感器中的表征方式只能先对单帧做目标识别、再比对连续帧才能获得,获取成本比雷达要高很多。
雷达相比摄像头,主要有五个优点:
缺点:
Soli项目大约在2015年I/O大会公布,是谷歌先进科技与计划部门(ATAP)开展的实验性项目之一,2016年左右初代产品已经接近成熟,一直在解决各种细节,不过阻碍该项目发布的最关键问题还是频谱授权。
主要原因是谷歌认为自己的设备峰值全向辐射功率(EIPS)会超过10dBm,至少会达到13dBm,而美国FCC认为EIPS如此高的60GHz设备使用会影响该频段的卫星、飞机和60GHz Wi-Fi。不过好消息是FCC在今年元旦批准了谷歌的手势操作感应系统:“Soli项目” 所申请的毫米波雷达57-64GHz频段(EIRP>13dBm)。相信这也是大家今年可以在Pixel 4上看到Soli的原因。
我们之所以说Soli很黑科技,是因为它首次用短距离FMCW 雷达和ML做出了端到端的的HAR pipeline,现在已经带起了一个小研究领域 [3] :
它做的HAR pipeline是先对雷达收集到的Raw数据进行快-慢时间信息提取,就是上图中的第二步,我们展开来看雷达Raw数据信号变换之后是这样的:
在上图中,A,B是形状不同的物体在距离-多普勒域(R-D)的表征,可以看到几乎一致,这说明物体的形状不影响雷达信息识别,可以很好的保护隐私。而C和D代表极为微小的变动也会引起距离-多普勒域的信号强度大幅度变化。上述数据经过堆栈之后会输入神经网络处理,google称之为Gesture Recognition单元:
最初的Gesture Recognition 由CNN+RNN组成,在RNN过程中会进行时间序列堆栈,通过Softmax输出,这样简单地网络识别精度大约有87%。当然State-of-the-art结果比这个要高很多,分场景和采用特征图不同,大约91%-97%[4][5]不等。
如果Soli项目为代表的雷达HAR能够顺利产业化,把毫米波雷达芯片实装入手机的话,我们能看到太多有前途也很有趣的应用了,手机不仅能成为未来的随身计算中心,也有望成为未来的感知中心,我们原本有心无力的各种基于近场定位的应用,和AR/VR中的手势操作、姿态感知甚至是空中键盘输入等等等等都有望成为现实。
不过更现实的是,雷达领域做深度学习和行为识别的同学都很兴奋,自己的工作终于看到了前途/funding看到了希望。
2333333.
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有