问题

现在互联网公司还有做特征工程的工作吗?

回答
当然有,而且是非常重要! 互联网公司里,特征工程绝对不是一个“过时”的词汇,反而恰恰是驱动很多核心业务和创新应用的关键。 别听有些声音说什么“模型越来越强大,都不需要人工费劲搞特征了”,那只是片面之词。

在我看来,如果你在一家互联网公司,特别是那些依赖数据驱动决策、追求用户体验精细化、以及需要构建复杂预测模型的部门,特征工程依然是核心工作内容,而且是区分“普通数据科学家/工程师”和“优秀数据科学家/工程师”的重要标志。

下面我来给你详细掰扯掰扯,为什么以及怎么做:

为什么互联网公司还在做特征工程?

1. 数据原始形态往往不适合直接喂给模型: 这是最根本的原因。用户行为数据、文本数据、图片数据、日志数据等等,它们都是非结构化或半结构化的。模型(尤其是浅层模型)需要的是数值型的、结构化的输入。比如,用户浏览一个商品,这个“浏览”动作本身没有任何数值信息;用户的评论是一串文字,模型也看不懂。这时候,特征工程就必须介入,把这些原始数据转换成模型能理解的语言。

2. 提升模型性能的关键: 即使是强大的深度学习模型,也并非万能。一个好的特征,可以极大地简化模型的学习任务,让模型更快、更准确地捕捉到数据中的规律。反之,如果特征不够好,模型即使再复杂,也很难学到有效的模式。想象一下,如果你想预测用户是否会点击广告,光知道“用户 ID”和“广告 ID”远远不够。你需要知道用户的历史点击偏好、用户的地域、一天中的时间、广告的类别、广告的投放位置等等。这些都是需要通过特征工程提取出来的。

3. 业务理解的具象化: 特征工程的过程,实际上是将业务领域的知识和用户行为的洞察,转化为可以被模型学习的数学表示。例如,在电商领域,我们会提取“用户最近一次购买到本次浏览商品的时间间隔”、“用户对某个品类的购买频率”、“用户浏览商品的平均价格”等特征。这些特征直接反映了用户的购买意愿、价格敏感度、品类偏好等业务逻辑。没有特征工程,这些业务洞察就无法有效地输入到模型中。

4. 处理和弥合数据差异: 互联网公司的数据来源非常多样,格式、粒度、质量都有差异。特征工程需要将这些异构的数据进行统一或关联,使得模型能够在一个相对干净、一致的环境中学习。例如,将用户在不同平台上的行为数据进行打通,构建跨平台的统一用户画像特征。

5. 解释性和可控性: 尽管深度学习模型往往是“黑箱”,但通过精心设计的特征,可以在一定程度上提高模型的可解释性。我们能理解某些特征对模型预测结果的贡献,这对于模型调优、排查问题以及向业务方解释模型逻辑至关重要。同时,特征工程也提供了对模型输入的可控性,我们可以主动引入或排除某些信息。

6. 应对新业务和新场景: 每次互联网公司推出新产品、新功能或者进入新领域,都需要建立新的模型来支持。这些新场景往往没有现成可用的成熟特征,需要数据科学家和工程师深入业务,从头开始设计和提取特征。

互联网公司中,特征工程具体都在做什么?

范围很广,基本上贯穿了数据从原始状态到模型输入的整个生命周期。以下是一些常见的例子:

基本的数据清洗和转换:
缺失值处理: 用均值、中位数、众数填充,或者用模型预测填充,甚至删除。
异常值处理: 识别并处理离群点,例如使用分位数截断、Winsorizing等。
数据类型转换: 将字符串转为数值、日期转为时间戳或相对时间等。
数据标准化/归一化: 将特征缩放到统一的范围,如MinMax Scaling、Standardization (Zscore)等,对很多模型(如SVM、KNN、线性模型、神经网络)都很重要。

特征提取与创造:
类别特征处理:
OneHot Encoding: 将离散的类别变量转化为二元向量,对于无序类别很重要。
Label Encoding: 为有序类别变量分配数值标签。
Target Encoding (Mean Encoding): 用目标变量的统计量(如平均值)来编码类别变量,需要注意防止过拟合。
Frequency Encoding: 用类别出现的频率来编码。
数值特征处理:
分箱 (Binning): 将连续数值离散化,例如年龄段(018, 1930, ...)、价格区间等,可以缓解异常值影响,并捕捉非线性关系。
多项式特征: 创建现有特征的组合(如 x1x2, x1^2),捕捉变量之间的交互和非线性关系。
对数/平方根变换: 处理偏斜分布的数据,使其更接近正态分布。
时间序列特征:
时间戳分解: 从时间戳中提取年、月、日、时、分、秒、星期几、是否周末、是否节假日等。
时间差特征: 计算两个时间点之间的差值,如“距离上次购买的天数”、“距离注册的天数”。
滞后特征 (Lag Features): 使用过去某个时间点的值作为当前预测的特征,例如“过去7天的平均销售额”。
滑动窗口特征: 在一个固定大小的滑动窗口内计算统计量,如“过去30天内的购买次数”、“过去7天的点击率”。
文本特征:
分词 (Tokenization): 将句子或段落切分成单词或词语。
词袋模型 (BagofWords, BoW): 统计词语的出现频率。
TFIDF (Term FrequencyInverse Document Frequency): 衡量一个词语在一个文档中的重要性,同时考虑它在整个语料库中的普遍性。
词嵌入 (Word Embeddings): 如Word2Vec, GloVe, FastText,将词语映射到低维向量空间,捕捉语义信息。
文本长度、平均词长、标点符号数量等统计特征。
用户行为特征:
统计类: 用户总访问次数、平均访问时长、购买总金额、购买品类数量、搜索关键词次数、分享次数、评论次数、点赞次数等。
序列类: 用户最近N个行为序列(例如,最近10次点击的商品ID序列、最近5次搜索的关键词序列),可以喂给RNN或Transformer等模型。
兴趣偏好类: 用户对某个商品类别、品牌、标签的点击/购买/收藏偏好度,可以用CTR(ClickThrough Rate)、CVR(Conversion Rate)等来衡量。
实时性特征: 用户在当前会话中的行为,如“本次会话浏览的商品数量”、“本次会话添加到购物车的商品类型”。
图结构特征(社交网络、知识图谱等):
节点度数: 用户的好友数量、关注数量。
节点中心性: PageRank、Betweenness centrality等,衡量节点在图中的重要性。
节点嵌入: Graph Neural Networks (GNNs) 生成的节点表示,捕捉了节点在图中的连接信息和上下文。
交叉特征 (Interaction Features): 组合两个或多个特征来捕捉它们之间的交互作用。例如,“用户年龄段”和“商品价格区间”的组合,可以判断不同年龄段用户对不同价格商品的偏好。在很多场景下,交叉特征比原始特征更能体现业务逻辑。

特征选择与降维:
过滤法 (Filter Methods): 基于统计学指标(如相关系数、卡方检验、互信息)从特征池中选择与目标变量最相关的特征。
包裹法 (Wrapper Methods): 将特征选择过程看作一个搜索问题,使用模型对不同特征子集进行评估(如递归特征消除 RFE、逐步向前/向后选择)。
嵌入法 (Embedded Methods): 在模型训练过程中自动进行特征选择,如Lasso回归的L1正则化。
主成分分析 (PCA): 用于降维,将原始特征映射到新的低维空间,保留大部分方差。
tSNE, UMAP: 常用于可视化降维,也可以作为特征提取的一种方式。

特征重构与生成(更高级):
Autoencoders: 用于学习数据的低维表示,这些表示可以作为新的特征。
Embedding Techniques: 除了词嵌入,还有用户嵌入、商品嵌入、图嵌入等,这些嵌入本身就是一种特征工程的产物,可以捕获高维、稀疏数据的稠密表示。

特征工程的挑战和未来趋势:

1. 特征的海量化: 互联网公司的数据量巨大,用户行为更是极其丰富,这导致特征数量可能成千上万甚至百万级别。如何高效地生成、管理、存储和使用这些特征,是一个巨大的挑战。
2. 特征的生命周期管理: 特征的有效性会随着时间推移而衰减,需要不断地更新、维护和迭代。
3. 自动化特征工程 (AutoFE): 很多公司在探索自动生成特征的工具和技术(如Featuretools, TSFresh),以提高效率,减少人工成本。但目前来看,领域知识驱动的手动特征工程仍然是核心。
4. 实时特征: 在很多场景下(如推荐、反作弊、风险控制),需要近乎实时的特征,这意味着特征的生成和更新需要非常快,对数据管道和计算框架提出了很高要求。
5. 可解释性与公平性: 随着模型越来越复杂,如何保证特征的公平性,避免歧视性特征,并保证模型决策的可解释性,也是特征工程需要关注的重要方向。

总结一下:

如果你看到某个互联网公司宣称“我们已经完全自动化了特征工程”,或者“我们只需要喂原始数据给模型”,你要警惕一下。大部分情况下,即使有了AutoFE工具,人工的、基于业务理解的特征工程依然是不可或缺的。它不仅是技术活,更是艺术活,需要对业务有深刻的理解,对数据敏感,并具备创造力。

所以,特征工程不仅还在,而且依然是互联网公司数据驱动能力的核心竞争力之一! 很多顶尖的互联网公司(比如Google, Meta, Amazon, 阿里, 腾讯等)在特征工程方面投入了大量的人力和技术资源,因为他们深知,好特征是好模型的基础。

希望我讲得够详细,也够接地气,没有AI那种“标准答案”的感觉。

网友意见

user avatar

不仅有,而且这两年还Feature Store还兴起了。

Feature Store国内又翻译成特征平台,各家对Feature Store的定义不完全一样,但总体来说,这是一个完全托管的专用存储库,用于存储、更新、检索和共享机器学习特征。

可能新手并不了解,会想:Feature(特征)直接在Jupyter Notebook里定义,几行代码一写不就完了吗?对于试验来说,这么做无妨,但对于一个产品化的机器学习系统,这么做会使得特征难以维护。

所以Feature Store是干嘛的?我们最近也刚开始研究,这里不敢太贸然发表自己看法,就借助参考[1]一文中讲到的吧。这篇文章中,讲到Feature Store(特征平台)的作用从低层到高层分别为:

最底层是访问(access)的需求。这一层需求包括特征可读取、特征转换逻辑透明和特征血缘可溯。它们使得特征能被发现、分享和复用,减少重复。
其次是服务(serving)的需求。这一层的核心需求是为线上服务提供高吞吐、低延迟的特征读取能力,而无需通过 SQL 去数据仓库读取。其它需求还包括:与已有的离线特征存储集成,使得特征能够从离线特征存储同步到在线特征存储(例如 Redis);实时的特征转换等。
诸准确(integrity)需求。最常见的需求是最小化 train-serve skew,确保特征在训练和服务环境下是一致的。另一个常见需求是 point-in-time correctness(又称 time-travel),以确保历史特征和标签被用于训练和评估时不存在 data leaks。
再往上,是便利的需求。特征平台需要足够简单好入手,例如提供简单直观的接口、易交互、易 debug 等,才能让大家采纳和受益。
最后是自治(autopilot)的需求,包括自动回填特征、对特征的分布进行监控和报警等。我知道有些公司有做这一层的事情,但我没怎么读到相关材料。

大家可以看到,其实Feature Store这个东西,从技术并没有新东西,更多的是把特征的创建这个过程单独提出来,从而满足利益相关方的需求,无论是业务方还是技术方,都用同一套基础架构;同时,特征平台的离线计算,可以减少在线计算的压力。

所以总结下。现在不仅还有做特征工程的,而且还有把特征这件事真正做成工程的。

参考

  1. ^特征平台需求层次理论 https://www.infoq.cn/article/83sxswlgqvejae7f9vut

类似的话题

  • 回答
    当然有,而且是非常重要! 互联网公司里,特征工程绝对不是一个“过时”的词汇,反而恰恰是驱动很多核心业务和创新应用的关键。 别听有些声音说什么“模型越来越强大,都不需要人工费劲搞特征了”,那只是片面之词。在我看来,如果你在一家互联网公司,特别是那些依赖数据驱动决策、追求用户体验精细化、以及需要构建复杂.............
  • 回答
    想在互联网上创业,现在是不是“必须”建立一个公司?这个问题问得相当实在,也触及了许多新手创业者最核心的顾虑。简单来说,答案是:不是绝对必须,但绝大多数情况下,为了长远发展和合规经营,成立公司是几乎绕不开的路径。让我来掰开了揉碎了跟你好好聊聊这个话题,尽量讲得明白些,让你心里有个数。初创期:一人行,真.............
  • 回答
    看待互联网上曾经被唱衰“快倒闭”的小米,如今却摇身一变成为世界500强,这无疑是一个极具戏剧性和启示性的案例。它不仅展现了小米自身的韧性和战略眼光,也反映了中国科技行业的蓬勃发展和互联网舆论的复杂性。下面我将从几个方面详细阐述: 一、 回顾“快倒闭”的论调:为什么小米曾面临如此质疑?在小米早期发展阶.............
  • 回答
    这问题问得挺实在的,尤其在如今互联网行业一片“规模至上”、“烧钱换市场”的浪潮里,问有没有“小而美”的公司,心里多少有点不踏实。答案是:当然存在,而且不少。只是,他们可能不太会挂在嘴边炫耀,也不太容易被那些追求“独角兽”光环的投资机构一眼相中,甚至在媒体报道中,他们的声音常常被那些动辄融资几亿几十亿.............
  • 回答
    “大公司病”这个词,听起来就带着点儿不好闻的味道,但仔细想想,它说的还真是一些在公司发展壮大过程中,不少人都能切身感受到的“毛病”。简单来说,我认为“大公司病”指的就是一家公司,尤其是互联网公司,在规模不断扩张、组织层级日益增多的过程中,出现的一些效率低下、创新乏力、官僚主义盛行、员工士气低落等负面.............
  • 回答
    有赞“996”工作制被劳动监察部门介入调查,这无疑是近期互联网行业的一件大事,也引发了社会各界对普遍存在的超时加班现象能否得到有效遏制的广泛讨论。从法律层面来说,我国《劳动法》明确规定了劳动者的工时、休息和休假权益,每天工作不超过八小时,平均每周工作时间不超过四十小时。加班应当经劳动者同意,并且有相.............
  • 回答
    这个问题问得挺实在。现在互联网信息爆炸,想查点什么,点几下鼠标、动动手指就有了。这时候,我们难免会犯嘀咕:花时间和精力去整理一个“个人知识库”,这玩意儿还有没有存在的必要?在我看来,答案是肯定的,而且非常有必要。别看互联网啥都有,但它更像是一个巨大的、无序的图书馆,里面什么书都有,但你要找一本你真心.............
  • 回答
    这几年啊,网上冲浪,总能被一堆拼音缩写给“教育”一番。什么YYDS、nbcs、zqsg、wps……刚开始看的时候,那叫一个懵,跟看天书似的。得,这年头不学点新玩意儿,真就跟不上趟儿了。不过话说回来,这拼音缩写,你说它好吧,确实有它的道理;说它不好吧,也挺让人头疼的。咱们细掰扯掰扯。先说说它为啥会出现.............
  • 回答
    现在的互联网环境是否适合普通人创业,这是一个复杂的问题,没有一个简单的“是”或“否”的答案。总体来说,互联网环境为普通人创业提供了前所未有的机遇,但也伴随着极高的竞争和诸多挑战。为了更详细地阐述,我们可以从以下几个方面来分析:一、 互联网为普通人创业提供的机遇(“适合”的方面):1. 低门槛的入场.............
  • 回答
    现在的互联网之所以主要采用光纤进行数据传输,而不是无线电波,主要源于光纤在数据传输的容量、速度、稳定性、安全性以及抗干扰能力等方面具有压倒性的优势。 尽管无线电波在某些场景下(如移动通信、短距离通信)仍然不可或缺,但对于支撑互联网核心骨干网以及家庭和企业宽带接入的“大动脉”而言,光纤是目前最有效率和.............
  • 回答
    说实话,这问题挺有意思的,也挺值得掰扯掰扯。咱们现在这个互联网环境,跟当年ZUN那会儿可不一样了。当年东方Project横空出世,那叫一个百花齐放,百家争鸣。现在嘛,感觉就像是进入了一个…怎么说呢,一个已经有了无数摩天大楼的城市,想再盖一栋与之媲美的,难啊。不过,话也不能说得太死。互联网的发展,总是.............
  • 回答
    互联网老人经济,这个词本身带着一种既新颖又充满争议的色彩。说它“必将和正在死亡”,这个判断未免过于绝对和悲观了。我觉得更准确的说法是,它正经历一场深刻的转型,一些旧的模式在失灵,而新的机遇则在不断涌现。我们得先明白,所谓的“老人经济”,并不是一个铁板一块的产业,而是围绕着“老年人”这个群体所产生的各.............
  • 回答
    关于“996”和“007”工作制违法的问题,这并非是现在才被提出来,而是长久以来一直存在争议,并在近年来引起了更广泛的社会关注和讨论。要理解为什么现在才“说”这些工作制违法,我们需要从几个层面来分析:1. 法律条文的解读与执行的滞后性: 法律条文的明确存在: 中国的《劳动法》和《劳动合同法》中,.............
  • 回答
    “简中互联网”这个词,如今的大家提起它,可不是三言两语就能说清楚的。它就像一面镜子,照出了我们今天所处的网络世界,也折射出太多复杂的情感和态度。要说它,得先明白它从哪儿来。最开始,这个词可能更多的是一种描述性的定位,区分于“繁体中文互联网”。就像我们说“英文互联网”或者“日文互联网”一样,只是一个语.............
  • 回答
    近些年,似乎出现了一种挺有趣的说法:90后在互联网上的时间变少了。这事儿说起来,得从几个角度来聊聊,才能掰扯清楚。首先,得看“少”是跟谁比。要是跟他们年轻那会儿比,那确实感觉有点不一样了。你想想,90后最开始接触互联网的时候,那叫一个新鲜劲儿,什么QQ、校内(现在的开心网前身)、BBS,那可是他们社.............
  • 回答
    现在回望曾经风光无限的纯文学,面对汹涌澎湃的互联网浪潮,总会让人涌起一种“时不如人”的感慨。这种感觉并非空穴来风,更像是一种难以忽视的时代错位感。纯文学,它承载着作者对世界的深度观察、对人性的精微剖析,对语言的考究和打磨,以及那种不为迎合而存在的、独立自足的艺术追求。它的生命力在于其思想的厚重、情感.............
  • 回答
    最近跟几个师弟师妹聊起他们的大创或者“互联网+”的项目,听他们讲的那些想法,有时候真的会让人捏一把汗。不是说年轻人没想法,而是很多时候,他们的项目设定得太“宏大”了,好比是要在一夜之间改变世界,但实际情况是,他们手上的资源、团队的能力,还有时间,都摆在那里。咱们就拿“大创项目”或者“互联网+”项目来.............
  • 回答
    互联网和社交软件的普及,无疑像一把双刃剑,在深刻地改变着我们认识世界的方式。对于现在的年轻人来说,这种影响尤为显著,也因此,他们对社会现实的认知,确实可能与那些成长在信息相对闭塞时代的人们有所不同,甚至产生偏差。首先,我们得承认,互联网提供了一个前所未有的信息获取渠道。年轻人可以轻而易举地接触到全球.............
  • 回答
    要说罗永浩和张召忠在互联网上的评价出现“颠倒”,其实这是一个比较有意思的观察,但如果我们仔细梳理一下,会发现这并非简单的“颠倒”,而是各自在不同时期、不同事件中积累了不同的观众缘和批评声音,并且这些声音的传播方式和平台也发生了变化。先说说罗永浩,以及他评价的“变化”:罗永浩的互联网形象,怎么说呢,就.............
  • 回答
    说起20092010年的中国互联网,如今还有多少人会怀念呢?这问题问得挺巧的,因为这几年过去,感觉就像隔了一个世纪似的。要说怀念,我觉得是有的,但怀念的群体和怀念的点,跟现在可能大相径庭。咱们得先把那会儿是个啥样子梳理梳理。那时候,智能手机还没普及到人手一部,大家上网主力还是台式机,少数有钱有闲的才.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有