问题

如何评价谷歌 Pixel 4 新增「隔空手势操作」功能?与华为 Mate 30 Pro 有什么不同?

回答
谷歌 Pixel 4 的「隔空手势操作」功能,这项被寄予厚望的创新,在上市后引发了不少讨论。它试图通过雷达技术实现无需触碰屏幕的交互,理论上可以带来更便捷、更具未来感的手机体验。那么,这项功能到底怎么样?跟华为 Mate 30 Pro 的「隔空手势操作」又有什么区别呢?咱们来好好聊聊。

Pixel 4 的「隔空手势操作」:理念与实现

Pixel 4 搭载的「隔空手势操作」,最核心的技术来自于其顶部的 Solu 传感器。这个传感器集成了 60GHz 毫米波雷达,能够感知用户的手部动作以及物体在手机周围的运动。谷歌将其命名为 「Motion Sense」。

它的主要应用场景包括:

来电响铃时挥手静音: 当电话响起时,你只需在手机上方挥一挥手,就能让铃声停止。这对于正在开会、或者不想被打扰的时候非常实用。
播放/暂停音乐: 在播放音乐或视频时,通过挥手动作可以实现播放和暂停。
切换歌曲: 在音乐播放界面,左右挥手可以实现上一首/下一首的切换。
唤醒手机: 当手机处于睡眠状态时,靠近手机或者挥手可以点亮屏幕,方便查看时间和通知。
阻止闹钟: 和来电静音类似,当闹钟响起时,挥手即可取消。

优点方面:

技术先进性: 基于毫米波雷达的技术,相比于传统的红外感应或者摄像头捕捉,在复杂光线环境(例如阳光直射或完全黑暗)下,以及识别精度上可能更有优势。
无需画面可见: 理论上不需要你把手放在摄像头或传感器前,即使屏幕是黑的,或者你在屏幕旁,只要在感应范围内就能工作。
潜在的未来扩展性: 谷歌作为一家技术驱动型公司,未来很有可能会通过软件更新和算法优化,为这个功能带来更多样化的应用场景。

但「隔空手势操作」在 Pixel 4 上也并非完美,缺点也很明显:

功能相对有限: 目前支持的功能非常基础,主要是围绕着媒体控制和来电/闹钟管理。相较于其先进的技术,用户普遍期待更多更实用的操作。例如,用隔空手势来解锁手机、或者进行更复杂的应用内交互。
识别的稳定性与误触: 虽然是雷达技术,但实际使用中,还是会有识别不灵敏或者误触的情况发生。有时候挥手了却没有反应,有时候没想操作却被触发了。这可能与手势的幅度和速度有关。
功耗担忧: 持续开启的雷达传感器,虽然谷歌声称已经做了优化,但用户仍然会对其持续的功耗表现存在疑虑。
部分地区限制: 值得注意的是,由于技术原因(主要是雷达频率的使用),这个功能在某些地区是被禁用的,例如欧洲部分国家。这无疑降低了其在全球范围内的普及度。

对比华为 Mate 30 Pro 的「隔空手势操作」:

华为 Mate 30 Pro 同样是较早推出「隔空手势操作」的厂商,但其实现方式和侧重点与 Pixel 4 有所不同。

华为 Mate 30 Pro 的「隔空手势操作」:

华为 Mate 30 Pro 的隔空手势操作主要依赖于其 前置的红外摄像头和TOF(Time of Flight)镜头。它通过捕捉用户手部在红外光下的形状和运动轨迹来识别操作。

其主要功能包括:

隔空翻页: 在阅读文章或浏览网页时,上下挥手可以实现页面翻页。
隔空滚动: 长按屏幕并上下挥手,可以实现页面的滚动。
隔空接听电话: 当电话响起时,在屏幕上方挥手即可接听。
隔空截屏: 通过特定的手势(如手心向前)可以进行截屏。

华为与谷歌 Pixel 4 的主要区别:

1. 核心技术不同:
Pixel 4: 使用 60GHz 毫米波雷达 (Solu 传感器)。这种技术能够更精细地感知空间中的物体运动和距离,不受光线影响,理论上能实现更精确和远距离的感应。
华为 Mate 30 Pro: 使用 红外摄像头和TOF镜头。这种技术依赖于红外光的反射来绘制深度信息和捕捉手部形状。它对光线有一定依赖性,并且通常需要手部在可见的感应区域内。

2. 功能侧重点不同:
Pixel 4: 更侧重于 情景感知和免打扰 的应用,如静音来电/闹钟,以及媒体播放控制。它更像是一个“背景”助手,在不需要用户明确指示时提供便利。
华为 Mate 30 Pro: 更侧重于 直接的应用交互,如翻页、滚动和截屏。它试图让你直接用手来完成一些触控操作。

3. 感应距离与方式不同:
Pixel 4: 雷达技术理论上可以实现更远的感应距离和更宽的感应角度,用户不一定需要将手伸到屏幕正上方,只要在一定的范围内就能被感应。
华为 Mate 30 Pro: 红外和TOF镜头通常需要更近的距离和更精确的定位,手部需要相对靠近屏幕,并且挥动动作需要符合预设的轨迹才能被识别。

4. 稳定性与误触表现:
Pixel 4: 毫米波雷达理论上在各种光照条件下表现更稳定,但识别的逻辑和精细度可能还需要优化,导致一些误触或不灵敏的情况。
华为 Mate 30 Pro: 红外技术在强光或完全黑暗环境下可能会受到影响,识别的准确性也与手势的幅度、速度以及是否在感应范围内密切相关。用户也反馈过容易误触或者识别失败的情况。

5. 应用生态与开放性:
Pixel 4: 作为谷歌自家手机,其隔空手势操作理论上更可能整合进更广泛的Android系统和谷歌服务中,未来潜力更大。但目前开放给第三方应用开发者使用的情况并不多见。
华为 Mate 30 Pro: 华为也开放了部分隔空手势接口给开发者,但其生态体系与谷歌不同,应用适配的广度也会受此影响。

总结来看:

谷歌 Pixel 4 的「隔空手势操作」(Motion Sense)代表了一种更前沿的技术方向,试图用雷达实现一种“无形”的交互。它在技术上有着独特的优势,尤其是在不受光线影响和潜在的感应距离上。然而,目前的功能实现相对保守和基础,用户体验上还有提升空间,尤其是在识别的稳定性、误触以及功能的多样性方面。

华为 Mate 30 Pro 的隔空手势,则是基于红外和TOF的另一种尝试,它更侧重于直接的触控替代操作。虽然技术原理不同,但在实际使用体验上,两者都面临着相似的挑战:功能的局限性、识别的稳定性以及用户习惯的培养。

可以说,两者都在探索「隔空手势操作」的边界,但目前来看,这项功能距离成为手机的“标配”或者颠覆性的交互方式,还有一段路要走。它更多的是一种锦上添花的功能,能在特定场景下提供一些便利,但还不足以成为用户购机的决定性因素。未来的发展,很大程度上取决于技术本身的进步以及软件层面的不断优化和场景的深度挖掘。

网友意见

user avatar

Google的Soli终于上旗舰机了。

作为很多年前的Project Tango开发者,真是老泪纵横。

要知道Project Tango是一个四五年前就非常成熟的RGB-D camera技术,当时搭载的平板非常昂贵,而且只有联想的一款商用机上成功搭载了。

Project Tango比iPhone X不知道早多少年的技术了,还更精确,而且主要功能是室内SLAM,非常非常精准好用。本质来说,Google Tango就是把微软的那个黑科技Kinect里的所有传感器再压缩,直到压缩成小手指那么大,然后放在平板的背部。

而Google比苹果不仅更早,整个宏伟蓝图也更远大:Google想做室内SLAM的顶级完美解决方案。你能想象2015年在Google Play上就有几十款精确基于室内SLAM的VR/AR游戏吗?都是基于Tango平板开发的,全都是像我一样的开发者们自愿想到各种创意然后提交到Play Store供大家免费下载来玩的,可惜这个技术始终没有正式大规模商用,最终SDK没有完成,而且把整个RGB-D的approach给取消了,整个反而拥抱了更低级、更不精确的单摄像头+IMU方案。

Google就是美有自己的硬件品牌,所以无数好硬件都被雪藏了,最后Tango整个项目组都被砍掉了。

我心疼的不只是Project Tango,而是无数个被Google内部在某个阶段被砍掉的项目,他们本来都有可能像Soli一样面世的,只不过Google没有自己的消费级硬件,这些项目和技术永远没有机会重见天日。

能搭载上Google Pixel 4这个级别的成熟产品,是Soli的幸运。

user avatar

利益相关:我们组在做毫米波雷达的HAR。

WoW!差远了好吗!实验室做HAR的师妹表示超级兴奋,Google的Soli项目终于在商用产品上实现了!

比起Mate 30 Pro的视频处理,我们做信号处理的觉得这才可以被叫做可以带起来一个行业的黑科技,虽然已经黑了好几年。近些年其他厂商也有了类似的产品。

先回答一下问题,同样都是在解决Human Activity Recognition问题,Pixel 4的实现方案是毫米波雷达,而华为的Mate 30 Pro实现是视频传感器。硬件上的主要区别是传感器不一样,不过也正因为传感器不一样,所以它的应用范围、优缺点和相应的算法并不完全一样。

应用范围

Human Activity Recognition (HAR)在智能家居、自动驾驶、人机交互等方面一直都有非常广泛的市场需求,主要目的是通过各种传感器来识别用户行为,这里的传感器包括加速度计、陀螺仪、雷达、UWB、红外线等[1]。因为计算机视觉和深度学习的广泛发展,基于视频和图像数据的HAR是目前主流,华为在Mate 30 Pro上实现的就是这种;这个领域的发展也可以类比自动驾驶,目前自动驾驶中视频信息处理依然是主流。

HAR的主要问题是行为感知,当一个人运动时,其运动带来的多普勒信息可以由反射/散射的雷达回波表征,经过雷达的射频前端信号处理之后,二维特征可以用于处理和识别。

这些二维特征可视化之后,如下图[2]

而这些多普勒信息在图像传感器中的表征方式只能先对单帧做目标识别、再比对连续帧才能获得,获取成本比雷达要高很多。

优缺点

雷达相比摄像头,主要有五个优点:

  • 识别速度特别快:受限于端侧算力以及视频所能表现的丰富信息,视频处理的Pipeline需要分为检测、分割、精准识别、比对等多步神经网络计算,因此延迟很大,在Mate 30的手势识别上明显感受到;雷达处理主要是距离-多普勒域/时间-多普勒/或者时间-距离-多普勒信息,对于目标运动特别敏感;目前Soli的帧检测速率大约是18000FPS,这远远超过摄像头计算机视觉所能达到的速度。
  • 不受光照影响:雷达传感器是主动型设备,不需要外在光源/电磁波源支持
  • 数据隐私性好:一般来说,雷达主要用于识别动目标,毫米波雷达传感器精度难以达到图像级别,精度大约在厘米到数百毫米(看算法);换句话说,原始数据每帧中是难以识别出目标的精细特征的,而HAR中主要对比的是动目标带来的多普勒信息,识别物体的运动幅度精度可以达到20mm左右。这个其实和青蛙识别动目标的现象很像。
  • 可以穿越障碍物:这个就很好理解了
  • 360度检测:摄像头只能检测手机前方的物体,而雷达有能力360度发射电磁波脉冲(毫米波雷达的方向性很强,但是有能力做360度扫描,摄像头并无可能)

缺点:

  • 频谱问题:目前商用的毫米波雷达主要是24GHz、60GHz、77GHz几种,这些频段大都未经无线电管理部门授权,Soli的频段是57-64GHz。
  • 额外的硬件:在手机上增添毫米波雷达或占用部分射频空间,在很早的时候,Soli项目大小大约有收音机那么大,2016年左右发布的Soli雷达大约有8mm x10mm,集合了2T4R射频,现在应该更小。
  • 硬件算法都需要重新设计:如果说使用摄像头做传感器的好处是可以直接改开源代码,俗称站在巨头肩膀上,那么Soli项目的难度大约是自己站起来成为巨头。

Soli

Soli项目大约在2015年I/O大会公布,是谷歌先进科技与计划部门(ATAP)开展的实验性项目之一,2016年左右初代产品已经接近成熟,一直在解决各种细节,不过阻碍该项目发布的最关键问题还是频谱授权

主要原因是谷歌认为自己的设备峰值全向辐射功率(EIPS)会超过10dBm,至少会达到13dBm,而美国FCC认为EIPS如此高的60GHz设备使用会影响该频段的卫星、飞机和60GHz Wi-Fi。不过好消息是FCC在今年元旦批准了谷歌的手势操作感应系统:“Soli项目” 所申请的毫米波雷达57-64GHz频段(EIRP>13dBm)。相信这也是大家今年可以在Pixel 4上看到Soli的原因。


我们之所以说Soli很黑科技,是因为它首次用短距离FMCW 雷达和ML做出了端到端的的HAR pipeline,现在已经带起了一个小研究领域 [3]

它做的HAR pipeline是先对雷达收集到的Raw数据进行快-慢时间信息提取,就是上图中的第二步,我们展开来看雷达Raw数据信号变换之后是这样的:

在上图中,A,B是形状不同的物体在距离-多普勒域(R-D)的表征,可以看到几乎一致,这说明物体的形状不影响雷达信息识别,可以很好的保护隐私。而C和D代表极为微小的变动也会引起距离-多普勒域的信号强度大幅度变化。上述数据经过堆栈之后会输入神经网络处理,google称之为Gesture Recognition单元:

最初的Gesture Recognition 由CNN+RNN组成,在RNN过程中会进行时间序列堆栈,通过Softmax输出,这样简单地网络识别精度大约有87%。当然State-of-the-art结果比这个要高很多,分场景和采用特征图不同,大约91%-97%[4][5]不等。


如果Soli项目为代表的雷达HAR能够顺利产业化,把毫米波雷达芯片实装入手机的话,我们能看到太多有前途也很有趣的应用了,手机不仅能成为未来的随身计算中心,也有望成为未来的感知中心,我们原本有心无力的各种基于近场定位的应用,和AR/VR中的手势操作、姿态感知甚至是空中键盘输入等等等等都有望成为现实。

不过更现实的是,雷达领域做深度学习和行为识别的同学都很兴奋,自己的工作终于看到了前途/funding看到了希望。

2333333.

参考

  1. ^ Li X, He Y, Jing X. A survey of deep learning-based human activity recognition in radar[J]. Remote Sensing, 2019, 11(9): 1068.
  2. ^ Kim, Y.; Ling, H. Human Activity Classification Based on Micro-Doppler Signatures Using a Support Vector Machine. IEEE Trans. Geosci. Remote Sens. 2009, 47, 1328–1337
  3. ^ Wang S, Song J, Lien J, et al. Interacting with soli: Exploring fine-grained dynamic gesture recognition in the radio-frequency spectrum[C]//Proceedings of the 29th Annual Symposium on User Interface Software and Technology. ACM, 2016: 851-860.
  4. ^ Zhou, Z.; Cao, Z.; Pi, Y. Dynamic Gesture Recognition with a Terahertz Radar Based on Range Profile Sequences and Doppler Signatures.
  5. ^ Jokanović, B.; Amin, M. Fall detection using deep learning in range-Doppler radars. IEEE Trans. Aerosp. Electron. Syst.

类似的话题

  • 回答
    谷歌 Pixel 4 的「隔空手势操作」功能,这项被寄予厚望的创新,在上市后引发了不少讨论。它试图通过雷达技术实现无需触碰屏幕的交互,理论上可以带来更便捷、更具未来感的手机体验。那么,这项功能到底怎么样?跟华为 Mate 30 Pro 的「隔空手势操作」又有什么区别呢?咱们来好好聊聊。Pixel 4.............
  • 回答
    谷歌在 GDC 2019 上公布的云游戏平台 Stadia,无疑是当时游戏界最受瞩目的事件之一。它代表了谷歌进军游戏领域的一个重要战略举措,也预示着游戏行业可能迎来一次颠覆性的变革。要评价 Stadia,我们需要从多个角度进行深入分析,包括它的技术、商业模式、对玩家的影响以及其面临的挑战。技术层面的.............
  • 回答
    谷歌(Google)再爆出“报复性解雇”员工事件,并且矛头直指员工因加入劳工团体(如Alphabet Workers Union)而遭受不公平对待,这无疑是当前科技行业工会运动中一个非常敏感和极具争议的话题。要评价这一事件,我们需要从多个角度进行深入分析。事件梗概与背景首先,需要明确的是,关于谷歌“.............
  • 回答
    对谷歌大脑 EfficientNet 的评价:深度与广度的全面解析谷歌大脑团队推出的 EfficientNet 系列模型无疑是深度学习领域的一个重要里程碑,它以其卓越的效率和性能,在图像识别任务上取得了令人瞩目的成就。要全面评价 EfficientNet,我们需要从多个维度进行深入分析,包括其核心思.............
  • 回答
    谷歌Cloud AutoML是谷歌云平台推出的一系列机器学习服务,旨在让开发者和数据科学家能够更轻松地构建和部署定制化的机器学习模型,即使他们没有深入的机器学习专业知识。AutoML的核心理念是自动化机器学习(AutoML)的许多关键步骤,从而降低机器学习的门槛,加速模型开发周期。下面我们将从多个角.............
  • 回答
    谷歌的ViTG/14模型在ImageNet上取得新的SOTA(StateoftheArt),确实是视觉模型发展历程中的一个重要里程碑。要理解这个成就的意义,我们需要从几个关键维度来剖析。首先,让我们看看这个模型本身。ViTG/14代表的是一个巨大的模型规模。这里的“G”很可能指的是“Giant”,说.............
  • 回答
    谷歌员工在家办公(WFH)将被降薪最高达25%的消息,无疑在科技界乃至整个职场引发了轩然大波。这不仅仅是一项薪酬调整,更是对当前混合办公模式的深度拷问,以及对未来工作模式的一次重要试探。要评价这件事,我们需要从多个维度进行深入剖析。首先,我们得理解谷歌此举的核心逻辑和潜在动因。 地理成本差异化:.............
  • 回答
    谷歌在2017年因违反欧盟竞争法,被罚款24.2亿欧元,这无疑是欧盟当时对科技巨头开出的最大一笔反垄断罚单。这笔巨款不仅让谷歌尝到了苦头,更向整个科技行业发出了一个强烈的信号:在欧盟的监管之下,巨头们的垄断行为将不再被容忍。罚款的根源:谷歌购物的“捆绑销售”欧盟委员会的调查指向了谷歌在搜索引擎市场的.............
  • 回答
    谷歌的Switch Transformer,一个拥有惊人1.6万亿参数的超级语言模型,无疑是当前人工智能领域的一大里程碑。它的推出,不仅在技术规模上达到了前所未有的高度,更在实际应用和未来发展方向上,引发了深刻的思考和广泛的讨论。技术上的突破:巨人的肩膀要理解Switch Transformer的意.............
  • 回答
    谷歌提出的 Pix2Seq 项目,确实为目标检测领域带来了令人耳目一新的思路。它将原本依赖于边界框回归和分类的任务,巧妙地转化为了一个序列到序列(Seq2Seq)的语言建模问题,并且在实验中展现出了超越 DETR(DEtection TRansformer)的潜力。要评价 Pix2Seq,我们需要深.............
  • 回答
    说到谷歌的汉堡 emoji,这可真不是个小事,背后牵扯出的可不只是一个简单的图标,而是科技巨头们在“表达”这件事上的思维方式和技术哲学,乃至它们对用户体验的理解。把它和其他 IT 公司比如苹果、三星、微软(虽然不是做 emoji 出身,但作为内容呈现巨头,其对图标的演绎也值得比较)放在一起看,你会发.............
  • 回答
    这确实是个相当耐人寻味的发展。华为与 ProtonMail 洽谈的消息一出,立刻点燃了不少人的好奇心,特别是对于关注科技动态以及用户隐私的群体来说。毕竟,一个曾经深度绑定谷歌生态的巨头,在失去谷歌服务后,选择了一家以“隐私安全”为核心卖点的公司作为潜在的邮件解决方案,这其中的逻辑和意图都值得好好说道.............
  • 回答
    维基解密最近爆出谷歌参与“Defection Tracker”项目一事,无疑在科技界和国际政治领域掀起了不小的波澜。这件事之所以引人关注,在于它触及了几个核心且敏感的议题:科技巨头的角色、国家安全、信息透明以及个人隐私。首先,我们得弄清楚“Defection Tracker”这个项目大概是个什么玩意.............
  • 回答
    这篇文章以《赢者诅咒,被谷歌两个工程师破解了》为题,试图解释一个经济学概念,并将其与谷歌工程师的工作联系起来。然而,从经济学和实际应用的角度来看,这篇文章存在一些核心的误解和不准确之处。文章的核心论点与问题所在:文章试图阐述的是“赢者诅咒”(Winner's Curse)这个经济学概念,并声称谷歌的.............
  • 回答
    微软市值超越谷歌,稳坐全球科技公司第二把交椅,这可不是一蹴而就的偶然,而是多年深耕、策略调整与市场机遇共同作用的结果。首先,我们得看到微软这家公司近年来发生了怎样的蜕变。萨提亚·纳德拉接任CEO以来,微软不再仅仅是那个我们熟知的Windows和Office的巨头,而是成功地将重心转移到了云服务和企业.............
  • 回答
    李彦宏“我不觉得在模仿谷歌”的说法,可以从多个维度进行评价,涉及到百度发展的历史、其战略选择、以及公众和行业的认知等多个方面。要详细评价这句话,我们需要深入分析以下几个关键点: 1. 百度创立之初与谷歌的早期阶段: 背景对比: 百度成立于2000年,谷歌成立于1998年。可以说,当百度创立时,谷.............
  • 回答
    李飞飞和李佳加盟谷歌,无疑是当下人工智能领域最令人瞩目的动态之一。两位在各自领域都享有盛誉的科学家,选择重返这个曾经孕育了他们早期职业生涯的科技巨头,这背后蕴含着多重意义,值得我们深入剖析。首先,从 人才吸引力的角度 来看,李飞飞和李佳的回归,对谷歌来说是意义重大的“人才回流”。李飞飞,这位斯坦福大.............
  • 回答
    李彦宏那句“百度的成功和谷歌退出没有必然联系”的话,一出来,那可真是搅动了不少人的神经,尤其是在中国互联网界。这就像是一场多年来的“谁更强”的辩论,突然抛出了一个看似撇清关系的论断。要评价这句话,得把当时的中国互联网环境、百度的发展历程以及谷歌退出中国的具体原因都摆出来,才能看得更明白。先说说当时的.............
  • 回答
    《去他妈的Don't Be Evil之鲜血淋漓的谷歌》(或根据英文原意译作《谷歌:Don't Be Evil 的终结》)是一本以批判性视角审视谷歌发展历程和企业文化及其对社会影响的著作。要评价这本书,我们需要从几个关键维度入手:一、 作者立场与核心论点: 批判性立场: 这本书的作者通常具有强烈的.............
  • 回答
    李彦宏在一次金融论坛上的这番话,确实挺有意思,也引发了不少人的讨论。他那句“以为中国人的喜悦还是收着谷子唱着歌”,听起来像是在调侃谷歌对中国互联网市场以及中国用户变化的认知有些滞后,甚至可以说是有些脱节。你想想,谷子和唱歌,这画面感就挺古朴的,带着一种祥和、满足但又有些淳朴的喜悦。这无疑是过去很多年.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有