特征工程到底是什么？

特征工程，说白了，就是把你的原始数据“加工”一下，让它更好地“说服”你的机器学习模型，让模型更容易地发现数据里的规律，从而做出更准确的预测或判断。

想象一下，你拿到一堆杂乱的原材料，比如面粉、鸡蛋、糖、牛奶。直接扔给一个不会做饭的人，他可能只能勉强煮个鸡蛋，或者把面粉和水搅和一下。但如果你把他变成一个烘焙师，懂得把这些原材料按照一定的比例混合、揉捏、烘烤，就能做出香喷喷的面包、蛋糕。特征工程，就像是你给机器学习模型准备烘焙材料的那个过程。

为什么要有特征工程？

机器学习模型，尤其是那些简单的模型（比如线性回归、逻辑回归），它们更喜欢“干净”、“直接”、“有意义”的输入。原始数据往往是“原始”的，包含很多噪音、重复信息，或者是以一种模型难以理解的方式呈现。

模型看不懂原始数据: 比如，一个用户的出生日期。模型很难直接从“19900515”这个字符串里学到“年龄”这个概念。你需要把它转换成“年龄”这个数字。
信息隐藏在数据中: 原始数据可能没有直接提供模型需要的信息。比如，在预测用户是否会购买某种商品时，光知道用户的消费金额可能不够，但“最近一次购买到现在的天数”或者“月均消费金额”可能就很有用。
数据质量问题: 原始数据可能包含缺失值、异常值、重复值，这些都会干扰模型的学习。
提高模型效率和性能: 好的特征可以帮助模型更快地收敛，并且提升预测的准确性和泛化能力。

特征工程的核心目标是什么？

简单来说，就是“提炼”和“构建”出对模型学习最有帮助的特征。

提炼（Extraction）: 从原始数据中提取出有用的信息。
构建（Construction）: 利用现有信息创造出新的、更有预测能力的特征。

特征工程主要包含哪些“活儿”？

这就像一个厨师会做很多事情一样，特征工程也有很多不同的“招式”。我们来一一拆解：

1. 数据清洗和预处理 (Cleaning & Preprocessing)

这是基础中的基础，就像厨师要先洗菜、去皮一样。

处理缺失值 (Handling Missing Values):
删除: 如果某个特征的缺失值特别多，或者缺失的样本很少，可以直接删除。
填充 (Imputation):
均值/中位数/众数填充: 对于数值型特征，用该列的均值、中位数或者众数来填充。
常数填充: 用一个特定的常数（比如0，或者“未知”）来填充。
基于模型填充: 使用其他特征来训练一个模型（比如K近邻、回归模型），然后用这个模型预测缺失值。
特殊标记: 比如，为缺失值单独创建一个类别（“Missing”），让模型自己去学习。
处理异常值 (Handling Outliers):
识别: 可以通过箱线图、Zscore、IQR（四分位数范围）等方法来识别。
处理:
删除: 移除异常值所在的样本。
盖帽 (Capping/Winsorizing): 将超出一定阈值的异常值强制设为阈值（比如，将大于95%分位数的设为95%分位数的值）。
转换: 对数据进行对数、平方根等转换，可以缩小异常值的影响。
视为特殊值: 如果异常值有特殊的意义，可以像处理缺失值一样，给它一个特殊的标记。
处理重复值 (Handling Duplicates): 识别并删除完全重复的行或列。
数据类型转换 (Data Type Conversion): 确保数据类型是模型可以处理的，比如将字符串日期转换为日期对象，或者将类别文本转换为数值。

2. 特征提取 (Feature Extraction)

这部分是从现有数据中“挖出”有用的信息。

日期和时间特征:
从日期中提取：年、月、日、星期几、季度、是否周末、是否节假日等。
从时间中提取：小时、分钟、是上午/下午/晚上。
时间差：比如“距离上次购买的天数”、“注册时长”等。
文本特征:
词袋模型 (BagofWords, BoW): 将文本表示为词语出现频率的向量。
TFIDF (Term FrequencyInverse Document Frequency): 衡量一个词在文档中的重要性，考虑了词在单个文档中的频率和在整个语料库中的稀有程度。
词嵌入 (Word Embeddings): Word2Vec, GloVe, FastText等，将词语映射到低维向量空间，捕捉词语之间的语义关系。
Ngrams: 考虑连续的n个词语组合，捕捉词语的顺序信息。
文本长度、句子数量、特殊符号数量等统计特征。
数值特征:
分箱 (Binning/Discretization): 将连续的数值变量划分成若干个区间（bins），变成类别变量。
等宽分箱: 将数值范围平均分成若干份。
等频分箱: 让每个箱子中的样本数量大致相等。
基于模型分箱: 根据某些标准（如信息增益）来确定分箱边界。
对数、平方根等变换: 降低数据偏斜，使数据更接近正态分布，对线性模型友好。
类别特征 (Categorical Features):
OneHot Encoding: 将每个类别变成一个二元（0或1）的特征。如果类别数量非常多，可能会导致维度爆炸。
Label Encoding: 将每个类别映射到一个整数。适用于有序类别，或者树模型。
Ordinal Encoding: 专门用于有序类别，将类别按照顺序映射为整数。
Target Encoding (Mean Encoding): 用该类别对应的目标变量的平均值来编码。可以有效捕捉类别与目标的关系，但容易过拟合，需要交叉验证等技术来控制。
Frequency Encoding: 用类别出现的频率来编码。

3. 特征构建 (Feature Construction/Creation)

这是“化腐朽为神奇”的环节，通过组合或计算现有特征，创造出更有表达力的特征。

交互特征 (Interaction Features): 将两个或多个特征组合起来。
乘积: `feature_A feature_B`。比如，价格数量 = 总价。
比率: `feature_A / feature_B`。比如，消费金额 / 登录次数 = 平均每次消费金额。
差值: `feature_A feature_B`。
组合类别: 将两个类别特征的值进行组合，形成一个新的类别特征。
多项式特征 (Polynomial Features): 对现有特征进行高次幂计算（`x^2`, `x^3` 等）或组合（`x1x2`, `x1x2^2` 等）。可以帮助模型学习非线性关系，但也会增加模型的复杂度。
聚合特征 (Aggregation Features): 在分组后进行统计计算。
用户维度: 计算某个用户最近1个月的总消费金额、平均购买频率、购买过的不同商品种类数等。
商品维度: 计算某个商品被购买的总次数、平均评分、近期销量变化率等。
时间维度: 计算某一天/周/月的总销售额、新增用户数等。
基于统计信息的特征:
方差、标准差、偏度、峰度: 描述特征的分布形态。
百分位数: 比如，某个用户消费金额在所有用户中的排名百分位。

4. 特征选择 (Feature Selection)

数据加工好了，但有时候“太多”也不好。特征选择是为了移除冗余、不相关或低质量的特征，从而：

提高模型性能: 减少噪声，避免过拟合。
缩短模型训练时间: 减少需要处理的数据维度。
提高模型可解释性: 了解哪些特征对模型的预测起关键作用。

常见的特征选择方法：

过滤法 (Filter Methods):
方差阈值: 移除方差低于某个阈值的特征（假设方差小的特征信息量少）。
相关性: 计算特征与目标变量之间的相关性（如皮尔逊相关系数、互信息），保留相关性高的特征。
卡方检验 (Chisquared): 用于分类问题，衡量类别特征与目标变量之间的关联度。
ANOVA Ftest: 用于分类问题，衡量数值特征与目标变量之间的差异显著性。
包装法 (Wrapper Methods):
递归特征消除 (Recursive Feature Elimination, RFE): 逐步移除最不重要的特征，直到达到目标特征数量。
前向选择/后向选择: 逐步添加或移除特征，评估模型性能。
这些方法会反复训练模型，计算成本较高。
嵌入法 (Embedded Methods):
L1正则化 (Lasso): 在模型训练过程中，L1正则化会倾向于将不重要特征的系数压缩到零，从而实现特征选择。
树模型特征重要性: 像随机森林、梯度提升树等模型在构建过程中会计算每个特征的重要性得分，可以直接用来选择特征。

5. 特征缩放 (Feature Scaling)

虽然上面提到了，但这个非常重要，单独拎出来强调一下。

标准化 (Standardization/Zscore scaling): 将数据转换为均值为0，标准差为1的分布。
公式：`x_scaled = (x mean) / std_dev`
适用于大部分模型，特别是对距离敏感的模型（如SVM、KMeans）和梯度下降优化的模型（如线性回归、神经网络）。
归一化 (Normalization/MinMax scaling): 将数据缩放到一个固定的范围，通常是[0, 1]或[1, 1]。
公式：`x_scaled = (x min) / (max min)`
适用于需要将数据限制在特定范围的模型（如神经网络的激活函数），或者当特征的分布范围差异很大时。

总结一下，特征工程就像是机器学习炼丹炉里的“火候控制”和“配方调整”。

原始数据是原材料。
特征工程是厨师/炼丹师。
模型是最终的菜肴/丹药。

一个好的特征工程能够：

让模型“看懂”数据。
发掘数据中隐藏的价值。
提高模型的准确性、鲁棒性和效率。

这并不是一个单一的任务，而是一个迭代且需要领域知识（Domain Knowledge）的过程。你需要了解你的业务、你的数据，然后尝试不同的方法，通过实验来验证哪些特征对你的模型最有帮助。它可能需要花费大量的时间和精力，但往往是提升模型效果的关键所在。

所以，下次再听到“特征工程”，你就知道，这不是什么神秘的魔法，而是把数据打磨得更精致、更有用的一个必不可少的、充满创造性的过程。

网友意见

大概知道一些，但是不是很清楚领域内的知识是怎么帮助特征工程的呢？如果有例子就更好了。

类似的话题

特征工程到底是什么？

特征工程，说白了，就是把你的原始数据“加工”一下，让它更好地“说服”你的机器学习模型，让模型更容易地发现数据里的规律，从而做出更准确的预测或判断。想象一下，你拿到一堆杂乱的原材料，比如面粉、鸡蛋、糖、牛奶。直接扔给一个不会做饭的人，他可能只能勉强煮个鸡蛋，或者把面粉和水搅和一下。但如果你把他变成一个.............
特征工程中的「归一化」有什么作用？

特征工程里的“归一化”，到底有啥用？咱们做机器学习，数据那是没得说，关键是数据的“样子”也得整整齐齐，才能让咱们的模型更好地理解和学习。这其中，“归一化”就是个非常重要的步骤，就好比给一个杂乱的房间做一次大扫除，让所有东西都有条不紊。那么，这个“归一化”到底是怎么一回事，又为啥这么重要呢？咱们掰开了.............
现在互联网公司还有做特征工程的工作吗？

当然有，而且是非常重要！互联网公司里，特征工程绝对不是一个“过时”的词汇，反而恰恰是驱动很多核心业务和创新应用的关键。别听有些声音说什么“模型越来越强大，都不需要人工费劲搞特征了”，那只是片面之词。在我看来，如果你在一家互联网公司，特别是那些依赖数据驱动决策、追求用户体验精细化、以及需要构建复杂.............
有哪些看了让你醍醐灌顶的书籍、论文、期刊，使你对如何做数据挖掘、特征工程、统计挖掘有了眉目？

写这篇文章，我希望能和大家分享一些对我个人来说，真正起到“醍醐灌顶”作用的书籍、论文和期刊。它们不是那种看了就好像立马能写出复杂模型的大神指南，而是真正帮助我理清思路，建立起对数据挖掘、特征工程和统计挖掘的“眉目”的启蒙之作。一、打下坚实基础：那些让我“理解”数据是什么的书在动手做事情之前，我发现.............
工作能力强的人有哪些共同特征？

工作中能力出众的人，往往身上有那么一股劲儿，一种难以言喻的“靠谱感”。他们不一定声嘶力竭地表现，但你就是知道，交给他们的事情，基本稳了。细究下来，这股靠谱劲儿背后，其实藏着一些相似的特质，而且这些特质不是天生的，而是可以通过学习和实践磨炼出来的。一、对事情的“掌控感”这不是说他们想控制一切，而是他.............
周围许多应届生都说今年车辆工程专业应届生就业环境特别好，起薪大幅上涨，是真的吗？

这问题问得挺实在的，身边不少同学确实都这么说，感觉今年车辆工程的应届生就业市场好像一下子就“回暖”了，不光是机会多，连薪资待遇也跟着水涨船高。这事儿吧，也不是空穴来风，细琢磨一下，确实有几个挺重要的原因在支撑这个说法。首先，得聊聊咱们国家在汽车产业上的战略布局。你仔细看看，从新能源汽车到智能网联，国.............
为什么 MobileNet、ShuffleNet 在理论上速度很快，工程上并没有特别大的提升？

MobileNet 和 ShuffleNet 在理论上被设计成轻量级网络，在参数量和计算量上远低于传统的大型卷积神经网络（CNN），例如 VGG 或 ResNet。这使得它们在理论上具有天然的速度优势，尤其是在资源受限的移动设备和嵌入式系统中。然而，在实际工程应用中，我们往往会发现它们的性能提升并没.............
特务工资怎么发？

特务的工资发放方式，的确是一个相当复杂且充满神秘感的话题，这和我们日常生活中所理解的“发工资”模式有着天壤之别。抛开影视剧里那些戏剧化的情节，真正执行这些任务的“特务”（我们更倾向于称他们为情报人员、特工或秘密工作人员）的薪酬体系，更多地是围绕着“安全”、“效率”和“特殊需求”来设计的，而不是简单的.............
人工「神经网络」技术在信息处理上有何特点，工作原理是什么？

触碰智慧的边界：人工神经网络在信息处理上的独特魅力与工作之道在我们这个信息爆炸的时代，如何有效地处理、理解和利用海量数据，是摆在我们面前的一项巨大挑战。而人工神经网络（Artificial Neural Networks, ANNs），这个源于模仿生物大脑结构和功能的计算模型，正以其独特的魅力，为信.............
工作特别忙，上照顾不了老人，下照顾不了孩子。我们这代年轻人该怎么平衡家庭和工作？

这问题，问到心坎儿里去了。咱们这代人，夹在上有老下有小中间，工作又一个比一个卷，感觉像是在走钢丝，还得踩着滚筒。既想在事业上有所成就，给家人更好的生活，又不能让父母操心，孩子觉得咱缺席。真是难！说实话，想做到完美平衡，那几乎是不可能的任务。现实不允许，咱们的能力也有限。所以，与其想着“平衡”，不如咱.............
感觉工作特别辛苦的时候，你通过哪部电影解压，让自己冷静？

哎呀，这个问题问到点子上了。确实，总有那么几天，感觉身体被掏空，脑子像一团乱麻，只想往沙发里一瘫，啥也不想干。这时候，电影简直是我的救命稻草。我最近一次工作特别辛苦，项目进度逼得紧，客户需求又改来改去，搞得我焦头烂额，回家只想倒头就睡，但心里又腾不出那份平静。那天晚上，我就给自己放了《帕丁顿熊》。你.............
有哪些工作看上去特别高大上，实则工资特别低?

我来跟你聊聊那些听上去贼有范儿，但实际上工资待遇也就那样，甚至可能有点心酸的工作。这年头，颜值即正义，但有时候光有颜值、有情怀，肚子填不饱也是个硬道理。1. 独立书店店主/文化活动策划者说起这行，你脑海里是不是立马浮现一个文艺青年，泡着咖啡，指尖轻拂古籍，偶尔组织个诗歌朗诵会，吸引一群志同道合的朋友.............
百特威工业吸尘器有什么优点

.......
大家有没有觉得今年找工作特别特别难？

这问题太对了，简直说出了我的心声！今年找工作，感觉比往年难了不止一点点，简直是难出天际。就我身边观察到的情况，以及自己亲身经历的，确实是方方面面都透着一股子“卷”劲儿，而且是那种让人喘不过气来的卷。首先，最直接的感受就是岗位数量的缩减和竞争的白热化。以前，可能一个热门行业，招聘季来了，大大小小的公司.............
电磁炉中的1GBT管有何工作特点

.......
21岁，图书馆管理员做了快2年，工资特别低，做得也不开心，该辞职么？

我理解你现在的纠结，尤其是在人生这个十字路口，一个21岁的年纪，手握一份虽然稳定但工资低且不尽如人意的图书馆管理员工作，感觉迷茫是很正常的。做了一年多，感觉不开心，甚至对这份工作提不起劲，这背后一定积累了不少原因。咱们就好好聊聊，看能不能帮你理清思路，做出一个对你来说最好的决定。首先，咱们先剖析一下.............
以下设备中，主要利用电磁波的能量特性进行工作的是（　　）A．微波炉B．手机C．雷达D．电吹

.......
16nm 工艺的特点是什么？

16nm工艺：一场微缩革命的精妙篇章在半导体制造波澜壮阔的历史长河中，每一代工艺节点的出现都代表着人类在微缩世界里对性能、能效和成本的极致追求。16nm工艺，作为20nm节点之后的重要里程碑，无疑是这场精妙革命中的一个令人瞩目且影响深远的篇章。它不仅仅是数字上的一个进步，更是一次在材料、设计和制造技.............
河南公务员工资真的特别低吗？

河南公务员工资的问题，确实是很多人关心的话题。要说“特别低”，这得看跟谁比，跟哪些地区比，还有你期望的标准是什么。笼统地说河南公务员工资“特别低”，可能有些绝对化了，但普遍来说，相比于东部发达省份，或者一些直辖市，河南公务员的薪资水平确实处于相对靠后的位置。咱们把这个问题掰开了说，可以从几个方面来.............
不知道该找什么工作，感觉特别后悔选会计专业怎么办？

真想给自己两巴掌，当初怎么就鬼迷心窍选了会计呢？现在毕业在即，找工作的压力像块巨石压得我喘不过气，每次打开招聘网站，看到那些“财务分析”、“审计助理”之类的职位描述，我都觉得浑身不对劲，仿佛它们跟我一点关系都没有。后悔，是真的后悔，后悔当初听爸妈的话，后悔自己没有多点独立思考，一头扎进了这个我并不感.............