百科问答小站 logo
百科问答小站 font logo



现在互联网公司还有做特征工程的工作吗? 第1页

  

user avatar   huangzhe 网友的相关建议: 
      

不仅有,而且这两年还Feature Store还兴起了。

Feature Store国内又翻译成特征平台,各家对Feature Store的定义不完全一样,但总体来说,这是一个完全托管的专用存储库,用于存储、更新、检索和共享机器学习特征。

可能新手并不了解,会想:Feature(特征)直接在Jupyter Notebook里定义,几行代码一写不就完了吗?对于试验来说,这么做无妨,但对于一个产品化的机器学习系统,这么做会使得特征难以维护。

所以Feature Store是干嘛的?我们最近也刚开始研究,这里不敢太贸然发表自己看法,就借助参考[1]一文中讲到的吧。这篇文章中,讲到Feature Store(特征平台)的作用从低层到高层分别为:

最底层是访问(access)的需求。这一层需求包括特征可读取、特征转换逻辑透明和特征血缘可溯。它们使得特征能被发现、分享和复用,减少重复。
其次是服务(serving)的需求。这一层的核心需求是为线上服务提供高吞吐、低延迟的特征读取能力,而无需通过 SQL 去数据仓库读取。其它需求还包括:与已有的离线特征存储集成,使得特征能够从离线特征存储同步到在线特征存储(例如 Redis);实时的特征转换等。
诸准确(integrity)需求。最常见的需求是最小化 train-serve skew,确保特征在训练和服务环境下是一致的。另一个常见需求是 point-in-time correctness(又称 time-travel),以确保历史特征和标签被用于训练和评估时不存在 data leaks。
再往上,是便利的需求。特征平台需要足够简单好入手,例如提供简单直观的接口、易交互、易 debug 等,才能让大家采纳和受益。
最后是自治(autopilot)的需求,包括自动回填特征、对特征的分布进行监控和报警等。我知道有些公司有做这一层的事情,但我没怎么读到相关材料。

大家可以看到,其实Feature Store这个东西,从技术并没有新东西,更多的是把特征的创建这个过程单独提出来,从而满足利益相关方的需求,无论是业务方还是技术方,都用同一套基础架构;同时,特征平台的离线计算,可以减少在线计算的压力。

所以总结下。现在不仅还有做特征工程的,而且还有把特征这件事真正做成工程的。

参考

  1. ^特征平台需求层次理论 https://www.infoq.cn/article/83sxswlgqvejae7f9vut



  

相关话题

  为什么在超市上班,1月休息四天,工资2000,还是有人愿意干? 
  如何评价微软亚洲研究院提出的LightRNN? 
  为何总感觉人工智能和神经科学(神经网络)被绑在一起? 
  能否使用区块链的算力来解决深度学习训练? 
  离职后该不该告诉前同事自己现在在哪里就职? 
  什么职业能正常上下班,正常节假日,工资不会太低。? 
  「一周休息两天」,这种制度是怎么确立的? 
  如果 2台 alphago 不断对战,是否会不断的强大? 
  「刷脸支付」靠谱吗,现在发展得怎么样了? 
  如何评价轮子哥认为alphago(master)是靠暴力下棋? 

前一个讨论
为什么nn的较大问题是会陷入局部最优时,不选用凸函数作为激活函数?
下一个讨论
微软亚洲研究院 (MSRA) 的实习体验如何?





© 2024-12-22 - tinynew.org. All Rights Reserved.
© 2024-12-22 - tinynew.org. 保留所有权利