百科问答小站 logo
百科问答小站 font logo



现在互联网公司还有做特征工程的工作吗? 第1页

  

user avatar   huangzhe 网友的相关建议: 
      

不仅有,而且这两年还Feature Store还兴起了。

Feature Store国内又翻译成特征平台,各家对Feature Store的定义不完全一样,但总体来说,这是一个完全托管的专用存储库,用于存储、更新、检索和共享机器学习特征。

可能新手并不了解,会想:Feature(特征)直接在Jupyter Notebook里定义,几行代码一写不就完了吗?对于试验来说,这么做无妨,但对于一个产品化的机器学习系统,这么做会使得特征难以维护。

所以Feature Store是干嘛的?我们最近也刚开始研究,这里不敢太贸然发表自己看法,就借助参考[1]一文中讲到的吧。这篇文章中,讲到Feature Store(特征平台)的作用从低层到高层分别为:

最底层是访问(access)的需求。这一层需求包括特征可读取、特征转换逻辑透明和特征血缘可溯。它们使得特征能被发现、分享和复用,减少重复。
其次是服务(serving)的需求。这一层的核心需求是为线上服务提供高吞吐、低延迟的特征读取能力,而无需通过 SQL 去数据仓库读取。其它需求还包括:与已有的离线特征存储集成,使得特征能够从离线特征存储同步到在线特征存储(例如 Redis);实时的特征转换等。
诸准确(integrity)需求。最常见的需求是最小化 train-serve skew,确保特征在训练和服务环境下是一致的。另一个常见需求是 point-in-time correctness(又称 time-travel),以确保历史特征和标签被用于训练和评估时不存在 data leaks。
再往上,是便利的需求。特征平台需要足够简单好入手,例如提供简单直观的接口、易交互、易 debug 等,才能让大家采纳和受益。
最后是自治(autopilot)的需求,包括自动回填特征、对特征的分布进行监控和报警等。我知道有些公司有做这一层的事情,但我没怎么读到相关材料。

大家可以看到,其实Feature Store这个东西,从技术并没有新东西,更多的是把特征的创建这个过程单独提出来,从而满足利益相关方的需求,无论是业务方还是技术方,都用同一套基础架构;同时,特征平台的离线计算,可以减少在线计算的压力。

所以总结下。现在不仅还有做特征工程的,而且还有把特征这件事真正做成工程的。

参考

  1. ^特征平台需求层次理论 https://www.infoq.cn/article/83sxswlgqvejae7f9vut



  

相关话题

  中国人为什么没有诸如韩国人坚定抵制日本消费的骨气? 
  人工智能会产生真正的感情吗? 
  deepmind发表的neural processes(神经过程),这个是怎么实现的呢? 
  如果不考虑收入和贵贱,你想做什么工作? 
  你所在的公司工位是什么样的? 
  很多人类以为的惊天妙手在AI处被证实为很普通甚至更差。为何那么多人都看不出皇帝的新装? 
  毕业两年考了一千公里外的公务员到底去不去? 
  如何看待最近一段时间旷视科技Face++、阿里、小米、京东、科大讯飞和地平线等相继在南京建立研发中心? 
  如何评价 Kaiming He 在 ICCV 2017 上拿下双 Best 的 paper? 
  卷积神经网络中卷积核是如何学习到特征的? 

前一个讨论
为什么nn的较大问题是会陷入局部最优时,不选用凸函数作为激活函数?
下一个讨论
微软亚洲研究院 (MSRA) 的实习体验如何?





© 2024-05-18 - tinynew.org. All Rights Reserved.
© 2024-05-18 - tinynew.org. 保留所有权利