百科问答小站 logo
百科问答小站 font logo



有没有关于元宇宙系统的介绍的视频或者书籍推荐一下? 第1页

  

user avatar   jin-tian-33-40 网友的相关建议: 
      

本篇解读两个比较经典的方法,一个是VIBE,一个是PARE,后者现在应该是非常SOTA的方法了。很多博客上来就是复制粘贴VIBE的【震惊】文,既没有对论文的仔细品读,也没有实际跑代码之后给出的使用结论。我一般喜欢看结论,不喜欢看震惊体,不管多么完美方法,从不同的角度总是可以发现它的缺点。

人体3D Pose这几年看上去感觉已经做到头了,这一脉领域的新的东西很少,无外乎就是时序、花式SMPL、各种fitting来降低拟合误差,但不管是哪种方法,放到工业落地上,就会有它的局限性。然而实际上这个方法还是有着巨大的提升空间和潜力,也蕴含着巨大的商业空间,很多做的好的工作既不放paper,也不开源,所以很容易管中窥豹,看不到全貌。本文尝试从VIBE和PARE来做切入点,带你进入元宇宙的大门。


VIBE


先来看结论吧,VIBE最大的优点就是通过temporal的信息以及AMASS大数据的加成,通过一套对抗的训练方式,让模型具有了更好的泛化性能。




可以看到非常直观的效果对比,VIBE比TemporalHMR的效果更好:



用原论文的话来说,主要的贡献就是:

  • 合理的使用了AMASS数据集,使得对抗训练成为可能,这使得回归的姿态倾向于更加自然;
  • 在motion判别器中使用了一种注意力机制,使得模型超越了baseline;
  • 对比了多种temporal的方法,VIBE取得了比较好的结果。


从VIBE的代码角度来看,其实它里面的东西还挺多的,抛开训练代码不讲,但预测推理部分就做了很多文章,以至于我都怀疑它的效果是否跟后面的cam fitting以及body fitting有很大关系,毕竟这种套路现在在刷榜上很有用,但是无疑是非常慢的。DynBOA也是类似的思路,最终目的也是为了解决wild数据集下模型不可能全部都能预测的很好,有一些domin gap较大的场景基本上是100%跪。


总结起来,VIBE是很经典的工作,在所有尝试使用temporal的方法中,也是比较优秀的存在,但是从代码来看,各种优化骚操作非常之多,使用起来难免有一种“挂羊头卖狗肉”之感,不是特别的clean。

比如说,在做SMPL回归的时候会有类似于这样的操作:


       camera_optimizer = torch.optim.LBFGS(camera_opt_params, max_iter=self.max_iter,                                      lr=self.step_size, line_search_fn='strong_wolfe') for i in range(self.num_iters):     def closure():         camera_optimizer.zero_grad()         betas_ext = arrange_betas(body_pose, betas)         smpl_output = self.smpl(global_orient=global_orient,                                 body_pose=body_pose,                                 betas=betas_ext)         model_joints = smpl_output.joints                           loss = temporal_camera_fitting_loss(model_joints, camera_translation,                                             init_cam_t, camera_center,                                             joints_2d, joints_conf, focal_length=self.focal_length)         loss.backward()         return loss          camera_optimizer.step(closure)     

不过这种操作倒是无可厚非,但就是速度慢。


PARE

同一作者的工作,主要解决的问题是遮挡问题, 遮挡应该是单目RGB做3D Pose估计最大的阻力了。PARE就充分的体现了它的进化的地方:解决遮挡问题。





PARE的核心内容是:

  • 一种可视化的方式来研究到底遮挡是如何影响global pose预测的;
  • 提出了一种part-driven attention framework的身体分快拟合思路,减少对全局特征的依赖;


此外PARE提到了一个很重要的观点,也就是在当今的方法范式中,不管是通过2D output经过SMPL得到shapes, poses,verts还是将SMPLify融合进入到训练的循环中,使之实现类似于半监督的学习方式,都存在一个很大的弊端:很难处理遮挡。





PARE提出了一套方法论,如何分析遮挡的敏感性。上图展示了SPIN不同关节点处的遮挡敏感值。




通过对敏感性的分析,PARE提出了一套拆解的方法,利用一个2D的分割i信息,分别提取出P和F,然后通过PartAttention来生成最终合成的参数。

这意味着,PARE的整个流程需要一个2D的分割的作为辅助输入。





从PARE的结果可以看出,效果显著。





一些qualitative results,和SPIN 对比,可以看到拟合的却是更高,而且对遮挡效果显著。



总结


似乎通过不断的把模型复杂化,比如temporal,各种GNN,各种transformer,速度慢的跟屎一样的研究思路,倒不如返璞归真,把问题回归到最本质的问题上,最本质的还是缺数据以及泛化能力,PARE这篇论文思路就很不错,哪怕是增加了一个label,也可以从中得到比较大的收益。这也给我们研究、处事与生活提供了一个思考方式:返璞归真,找到问题的本质去解决,而不是本末倒置,不断的滋生新的问题。




  

相关话题

  如果在距离十光年之外的宇宙中放置一面镜子,用望远镜观察镜子,是不是就能看到自己二十年之前的样子了? 
  如果地球像火星那么小,从地球产生起就这样。那现在的地球会怎样? 
  把北京这样大的城市改造成一座宇宙飞船,人类还需要努力多少年? 
  物理学家或者数学家自杀是不是因为发现了宇宙真谛? 
  一个质量很小的恒星有可能像行星一样围绕着一颗大质量恒星公转吗,宇宙中存在这样的体系吗? 
  给你自由穿越宇宙空间的能力,但代价是你会负债一亿美金并且你会只剩下十年寿命,你会接受吗? 
  如何看待科学家研究花生酱对地球自转的影响? 
  在暗物质直接探测实验中,为什么不能使用人造屏蔽体屏蔽宇宙射线干扰?或者说使用既有人造屏蔽体有什么劣势? 
  太阳系假如在30年后穿过一片厚厚的星云人类会面临什么? 
  地球上,人类肉眼可见恒星是否全部在银河系? 

前一个讨论
化妆品工程师真的是生化环材最好的归宿吗?
下一个讨论
python的numpy向量化语句为什么会比for快?





© 2024-12-22 - tinynew.org. All Rights Reserved.
© 2024-12-22 - tinynew.org. 保留所有权利