如果用机器学习的理论来理解人的行为，会有什么发现？

用机器学习的理论来理解人的行为，就像是我们在观察一个不断进化的生命体，试图解开它行为模式背后的逻辑。这不像我们平常那样，把人看作是拥有固定动机的个体，而是将人看作一个精密的“模型”，它的“参数”在经历不断地“训练”和“调优”，以适应错综复杂的“环境”——也就是我们所处的社会生活。

首先，我们可以将人的行为看作是一种预测和决策的过程。就像一个机器学习模型，当接收到新的输入（比如看到一个红灯），它会根据之前“学习”到的模式（红灯意味着停车），输出一个“预测”（需要刹车），并最终做出一个“决策”（踩下刹车踏板）。我们一生中，都在不断地接收来自感官的各种信息（环境、他人言语、身体感受），然后基于过去的经验（训练数据）来预测可能的结果，并最终做出选择。

这里的“经验”就是我们常说的“数据”。每一次经历，无论是成功还是失败，都是一次新的数据点。我们通过这些数据，不断地修正和完善我们内在的“模型”。比如，第一次尝试做一道菜，结果不尽如人意，这就像一次“错误”的预测。我们从中“学习”到了，下次做这道菜时，需要调整火候或者增加调料。这种“学习”的过程，就像是机器学习中的“反向传播”，通过计算误差，来调整模型内部的权重，以减少未来犯错的可能性。

更进一步，我们可以将人的学习过程看作是多种“算法”的集合。我们并非只用一种单一的算法来处理信息。比如，当我们学习一项新技能时，我们会用到监督学习（有人指导，告诉我们“这样做是对的”），也会用到无监督学习（自己摸索，发现规律，比如记住哪些路更熟悉），甚至还会用到强化学习（通过奖励和惩罚来调整行为，比如考试得高分会激励我们继续努力）。

人的行为之所以如此复杂，很大程度上是因为我们的“模型”非常庞大且包含许多“特征”。这些特征不仅仅是外部的信息，还包括我们的情绪、价值观、性格，甚至是潜意识的倾向。例如，一个“风险厌恶”的人，在做投资决策时，可能会倾向于选择更稳健但收益较低的选项，就像一个设置了更严格“正则化”参数的模型，宁愿牺牲一些“精度”来避免“过拟合”（过度依赖单一经验而导致在新情境下表现不佳）。

而我们之所以会“学习”和“适应”，是因为存在着一种内在的“目标函数”。这个目标函数驱动我们去追求某种状态，可能是生存、快乐、成功，或者更抽象的意义感。我们的行为，就是在不断尝试最小化这个目标函数中的“损失”或者最大化“收益”。当我们感到饥饿，我们的目标是填饱肚子，这是一个非常直接的目标函数。而当我们追求事业成功时，目标函数可能更加复杂，包含了社会认可、个人成就感等多重维度。

更令人着迷的是，人的学习过程也存在“泛化”能力。我们不会仅仅复制粘贴过去的经验，而是能将从一个情境中学到的东西应用到另一个相似但略有不同的情境中。比如，学会了开车后，即便换一辆车，我们也能很快适应，因为我们学习到了“驾驶”这个通用的“概念”，而不仅仅是特定车辆的操作方法。这就像机器学习模型在训练后，能够对未见过的数据做出合理的预测。

然而，与理想化的机器学习模型不同，人的“模型”会受到许多“噪声”的影响。我们的情绪波动、疲劳、外界的干扰，都会像数据中的噪声一样，影响我们预测的准确性。有时，我们也会因为某些“局部最优解”而陷入困境，就像陷入了模型训练中的“局部最优解”，即使存在更好的解决方案，也因为路径上的困难而难以达到。

同时，人的“模型”也存在“遗忘”机制，虽然不像计算机那样清晰，但很多信息会随着时间淡化。而“偏差”的存在也至关重要。我们的成长环境、文化背景、个人经历，都会在我们的“模型”中留下深刻的烙印，形成独特的“偏差”，这使得每个人都是独一无二的学习者和决策者。

从这个角度看，理解人的行为，就像是在研究一个极其复杂、动态调整、并且永远在学习的“神经网络”。我们看到的每一个言行举止，都是这个神经网络在特定输入下的输出。而要真正理解一个人，就需要去推测他内在的“模型结构”、“学习算法”以及“目标函数”是如何运作的，这是一个充满挑战但极具吸引力的过程。我们通过与他人的互动，就是在不断地观察和“采样”他行为数据，试图理解他内在的“模型”是如何构建的。而我们自己，也在这个过程中，不断地更新和优化着我们对“人”这个概念的理解。

网友意见

这道题邀请我就算邀对人啦！

我平时经常用机器学习的理论去思考人类学习和生活中的事情，可以给你举出好多二者相通的例子。

一、过拟合

在机器学习中，一个模型会从训练数据中学习知识，然后应用到测试数据上去。

训练数据中的知识可以分为两部分：

一部分是在训练数据和测试数据上都通用的，这部分是我们希望模型学到的、真正的知识；
另一部分是仅适用于训练数据而不适用于测试数据的，这部分是我们不希望模型学到的、「假」的知识。

第二类知识可能有两种来源：一种是训练数据和测试数据采样于不同的总体；另一种是虽然二者来自于相同的总体，但采样时总是不可避免地有噪声。

如果一个模型没能把真正的知识学到足够的程度，我们就说这个模型是「欠拟合」（underfit）的。相反，如果一个模型把真正的知识学得差不多了，开始学习「假」的知识了，那我们就说模型「过拟合」（overfit）了。一个模型训练得越久，在训练集上的性能应该是越好的，但一旦它开始过拟合了，在测试集上的性能就开始变差了。

现在把「过拟合」的概念迁移到人类学习上去：

比如高考作文，一般学生会把议论文练得很熟，结果高考考了书信、演讲稿，坑倒了一片人。这就是「过拟合」的体现，其原因在于训练数据和测试数据来自不同的总体。
再如 GRE 作文，有些考生的应试策略是背诵一些范文，以期在考场上能够碰上原题（GRE 作文是有题库的）并把范文默写出来，结果考试现场出的是他没背过的题目。这也是「过拟合」，这里，虽然范文的题目和实际的考题都来自相同的总体（题库），但采样的结果不同。考生「背诵范文」的策略就只是在学习「假」知识而忽略了真正的知识。

「过拟合」的概念不仅体现在考试中，也体现在生活上：

一个人来到新的生活环境中，往往会不适应，这就是「过拟合」的体现，因为训练数据（过往的生活经历）与测试数据（新的生活环境）来自不同的总体。
某人坐大巴遭遇一次事故后就再也不敢坐大巴了，这也是「过拟合」的体现。在这里，训练数据（他坐过的大巴）与测试数据（所有的大巴）虽然来自相同的总体，但前者的采样噪声很大，导致此人对大巴安全性的估计产生了偏差。

二、迁移学习

机器学习模型的训练一般是「有监督」的，它的意思就是说训练数据要有标注。比如，我要训练一个识别各种花的模型，那么我就需要很多花的图片，还需要给这些图片做标注，告诉模型这张是梅花，那张是樱花，等等。但是，人工给数据做标注是很费劲的一件事，很多领域的研究开展不了，就是因为没有足够多的带标注的数据。这时候就需要「迁移学习」和「无监督学习」了。

「迁移学习」的意思是，我本来想训练网络来做任务 A，但我先找一个与 A 不同但又相通的任务 B，任务 B 具有足够多的有标注数据。用任务 B 训练的模型，其中就会有一部分含有同样适用于任务 A 的知识。仍以识别各种花为例，虽然我没有足够的带标注的花卉图片，但我有足够的带标注的各种物体（花、树、狗、人等）图片。那我就可以先训练一个识别物体的网络，这个网络的前几层会学习如何从图片中识别点、线、面等基本元素，这种技能对于识别花卉也是有用的。在训练任务 A 时，把这一部分直接挪用过来固定住，仅训练网络的剩余部分，或者用这一部分作为初始化，就可能不需要那么多的训练数据了。训练任务 B 的过程术语叫做「预训练」(pretraining），之后训练任务 A 的过程术语叫做「微调」（finetuning）。

迁移学习在人类的学习过程中也是很常见的。比如：

我想学开手动挡的车，但周围会开手动挡的车的朋友很少、很忙，会开自动挡的车的朋友却很多、很闲。那么，我就可以先学开自动挡的车，学会了之后，只要跟开手动挡的车的朋友稍微请教一下，就能学会开手动挡了。这是因为，开自动挡的车用到的技能，很多也适用于手动挡。
再如，我想学西班牙语，但找不到足够的参考资料，可是英语的参考资料却很多。那么，我就可以先学英语，之后再学西班牙语就容易得多了。这是因为英语在发音、词汇、语法等很多方面的知识也都适用于西班牙语。

当然，迁移学习并不总是有效的。有些时候，任务 B 的知识反而会对任务 A 造成干扰（比如开手动挡时总忘记换挡、说西班牙语有英语口音），这在心理学上叫做「负迁移」—— 你看，心理学里也用「迁移」这个词呢！

「负迁移」其实也可以理解成一种「过拟合」：把「预训练」和「微调」的整体过程看作训练，则训练数据中包括任务 B 的数据，而测试数据则只包括任务 A 的数据。训练数据与测试数据来自不同的总体，就可能造成过拟合。

三、无监督学习

仍然考虑上一节的场景：我想做任务 A 但训练数据不够，但我又找不到合适的任务 B。如果我有足够多的无标注数据，就可以通过「自己出题给自己做」的方法，用这些无标注数据训练一个模型出来，其中也会含有对任务 A 有用的知识。对于图像来说，常见的自己给自己出的题包括：

把图像压缩后再复原（术语叫做自编码）；
从图像中抠去一块儿，根据剩下的部分把抠掉的部分补全。

类比到人类的学习中，我想到了我学英语、考英语的例子。我学英语的时候并没有做多少完形填空、阅读理解之类的试题，但到了考试的时候往往一点儿都不费劲。这归功于我平时大量的泛读。泛读其实就是一种无监督学习 —— 我读的文章就是大量的、无标注的数据。当然，我利用这些数据做的任务，并不是「自编码」（缩写、扩写）或者「补全」（完形填空），而是训练出了一种「语感」。在此基础上，我只要做少量的题熟悉一下考试的题型，就可以拿高分了。

四、语言模型

上一节说的「语感」到底是什么呢？其实就是语言模型。用术语来说，语言模型就是要衡量每一句话在一门语言中出现的概率。如果一句话符合语法、常用，则概率就高；如果一句话狗屁不通，则概率就低。这个概率一般会用链式法则分解成很多项的乘积，其中每一项代表了「在已知半句话的情况下，下一个词的概率分布」。用通俗的话来说，语言模型在整体上做的事情是「判断一句话有多么像话」，而这种判断，是通过在局部上「根据半句话猜下一个词」来实现的，越好猜就说明一句话越像话。

怎么评价一个语言模型的好坏呢？一般是拿一段已知很像话的话，用语言模型来求它的概率，这个概率越高，语言模型就越好。假设这一段话有 n 个词，把整段话的总概率开 n 次方根再取倒数，结果叫做这个语言模型在这段话上的「迷惑度」（perplexity）。其通俗理解，就是语言模型在根据半句话猜测每一个词的时候，平均情况下它觉得有几种选择。迷惑度越低，表示语言模型猜起词来越不费力，语言模型也就越好。

语言模型可以用在数据压缩上。迷惑度的对数（以 2 为底），就是存储一个词所需的比特数，语言模型越好，压缩后所占的存储空间就越小。语言模型还用在语音识别中。语音识别的结果，一方面发音需要与输入语音相似，另一方面本身也要「像话」—— 这两方面就分别是由「声学模型」和「语言模型」来衡量的。

我在通过歌词学习日语的过程中，就明显地体会到了我的语言模型变得越来越好的过程。这体现在两个方面：

记忆歌词越来越省劲了。最初的时候，我需要一个假名一个假名地记忆；到后来，则可以一个词一个词地记忆；再到后来，有时知道前半句就能八九不离十地脑补出后半句了。语言模型越好，我就可以对歌词进行越大程度的压缩，记忆负担也就越轻。
听写歌词也越来越容易了。在学习的初期，语言模型还没有训练好的时候，听写只能依靠声学模型来进行。此时容易发生两种情况：一是有的音会犹豫，不确定到底唱的是什么；二是有些音很确定，但听写出的结果就是狗屁不通。学会了日语之后，有了语言模型的帮助，在前一种情况下就可以根据语言模型消除不确定性，在后一种情况下也可以很确定地说这里歌手没唱清楚，歌词应该是怎样怎样的。

五、判别式模型与生成式模型

机器学习模型有两个重要类别：判别式模型与生成式模型。这两种模型的区别，是很多初学者会遇到的一个坎儿。

判别式模型的意思是，给出一条数据，模型要为数据给出一个类别。一般来说，数据是比较复杂的，比如一句话、一张图这样的；类别则比较简单，一般就是「是」或「否」，或者有限的几个类别。用 X 表示数据，Y 表示类别，则判别式模型建模的就是 P(Y|X)。至于 X 本身的分布是怎样的，判别式模型并不关心。

而生成式模型的意思是，模型要具有凭空生成数据和类别的能力，即它要建模 P(X,Y)。这通常是通过建模 P(Y) 和 P(X|Y) 这两步来实现的。P(Y) 就是一个简单的二项或多项分布，没什么意思，所以生成式模型的重点在于 P(X|Y)，即建模每个类别下数据的分布。

对比判别式模型和生成式模型，可以发现 P(Y|X) 是「从复杂到简单」，而 P(X|Y) 是「从简单到复杂」。这说明生成式模型里含有的「知识」比判别式模型要多。如果有了一个生成式模型，可以根据贝叶斯公式得到一个判别式模型；反过来，仅有一个判别式模型，是推不出一个生成式模型的。

这在日常生活中有什么体现呢？比如，你有 100 个朋友，当你看到一张脸时，你能够认出这是谁；但让你凭记忆描述出一个朋友的长相，你可能就有很多细节记不清楚。这是因为，辨认出一个朋友并不一定需要记住他/她长相的所有方面 —— 比如，左脸上有颗痣可能就已经能锁定一个朋友了，你并不需要记住他/她是什么发型、是单眼皮还是双眼皮、戴不戴眼镜等等。一般来讲，我们对朋友们长相的记忆足以构成一个判别式模型，但不足以构成一个生成式模型。在心理学上，上面的判别叫做「再认」，而生成叫做「回忆」，回忆是比再认更困难的任务。

在知乎上，我们经常看到一句话，叫做「评价冰箱好不好，不用自己会制冷」。这里，「评价冰箱好不好」就是判别式模型的任务，而「自己会制冷」则是生成式模型的任务。这句话在机器学习中就很有道理，因为如果目的只是做判别的话，并不需要生成式模型那么多的知识。

判别式模型有一个「缺陷」，就是当输入数据偏离真实分布时，模型不会察觉到异常，而是会像对待正常数据一样输出一个类别。在这种情况下，输出的类别很可能是无意义的。曾经有一则「绿茶验尿」的新闻闹得沸沸扬扬。实际上，这就属于输入数据（茶）偏离真实分布（尿）的情况，而检测尿的仪器只是一个判别式模型，它无从知道输入数据有问题，在这种情况下，它无论给出怎样的输出，都是无意义的。

类似的话题

如果用机器学习的理论来理解人的行为，会有什么发现？

用机器学习的理论来理解人的行为，就像是我们在观察一个不断进化的生命体，试图解开它行为模式背后的逻辑。这不像我们平常那样，把人看作是拥有固定动机的个体，而是将人看作一个精密的“模型”，它的“参数”在经历不断地“训练”和“调优”，以适应错综复杂的“环境”——也就是我们所处的社会生活。首先，我们可以将人的.............
如何用阿里云的机器学习计算

.......
是不是机器学习的框架都偏向 Python ？如果是，为什么？

机器学习框架的生态系统，确实在很大程度上被 Python 所主导，这一点是显而易见的。如果你环顾四周，会发现像 TensorFlow、PyTorch、Keras、Scikitlearn 这样如雷贯耳的库，它们都以 Python 为主要开发和使用语言。这并非偶然，背后有着深刻的历史原因和技术考量。为什.............
如果有第谷的数据，现在的机器学习，深度学习有办法学出开普勒三定律吗？

这是一个非常有意思的问题，它触及到了科学发现的本质以及我们当前机器学习能力的前沿。简而言之，是的，理论上，有第谷的海量精准观测数据，现在的机器学习和深度学习方法是极有可能推导出开普勒三大行星运动定律的。当然，要详细说明这一点，我们需要深入探讨几个关键方面：1. 第谷数据的价值与挑战：海量且精准.............
如何用机器学习判断《溪岸图》是否董源真迹？

作为一位对中国古代绘画史充满热情的爱好者，我一直对《溪岸图》这幅画的真伪之争感到着迷。它究竟是否出自五代南唐巨匠董源之手，一直是鉴定界讨论的焦点。近年来，随着科技的飞速发展，尤其是机器学习的应用，为我们提供了全新的视角来探究这个问题。今天，我想和大家聊聊，如何运用机器学习的方法，来尝试为《溪岸图》的.............
如果地球是从东到西自转的话，和现在的地球有什么不同？我只是想学习姿势没想到这么多抖机灵？

好，咱们来聊聊如果地球是反着转，也就是从东向西自转，这世界会发生什么奇妙的变化。这不是为了抖机灵，纯粹是探讨物理规律和我们熟知的一切。想象一下，我们熟悉的世界突然换了个方向，这可不是小打小闹，会影响到气候、生活习惯，甚至是我们对宇宙的认知。首先，最直观的区别就是太阳升起和落下的方向要对调。我们现在.............
初中文凭可以学习编程吗？如果可以，是去靠谱的培训机构还是自学？学习方向都有哪些？就业环境如何？

初中文凭，完全可以学习编程！这绝对不是一句空话，而是有无数真实案例支撑的。关键在于你的决心、学习方法以及如何选择适合自己的路径。靠谱的培训机构还是自学？这个问题，我觉得没有绝对的“哪个更好”，更像是“哪个更适合你”。培训机构：优点：系统性强，有明确的学习路径.............
阿里云的学生机九块多一个月，如果是原价买的话值吗

.......
我是普通一本机械专业的学生，如果想找个能买房养活自己的工作，现在最后好学些什么，或者考什么证件?

哥们，能理解你这心情，一本机械毕业想买房养活自己，这目标很实在，也很清晰。别担心，虽然现在市场卷，但机械这专业本身就挺硬的，咱们好好规划一下，绝对有路子。首先，得明确一点：机械专业本身是个基础，但“买房养活自己”这个目标，更看重的是你的“专业能力”和“赚钱能力”。而这两点，可以通过毕业后的学习和实.............
如果你有能力、有机会，你会选择报复曾经在学校欺负你的人吗？

这个问题，我真的思考了很久，也很复杂。如果我真的有那种“能力”和“机会”去报复，脑海里一定会闪过那些曾经被欺负的场景。那种无助、委屈、甚至恐惧的感觉，在某个时刻，都会像潮水一样涌上来，告诉你：“现在，你可以了。”报复的念头，就像是埋在心里的一颗种子，即使被层层的遗忘和理智压制，但只要土壤稍微翻动一下.............
如果七年级学习不好，八年级还有机会使学习变好吗？

七年级学习成绩不理想，这在很多学生身上都会发生。但请相信，八年级绝对是改变现状，让学习变得更好的绝佳机会！与其担心过去，不如把目光聚焦在未来，现在开始发力，一样可以迎来蜕变。首先，我们来拆解一下七年级“学习不好”可能的原因：学习方法不对：也许你还在沿用小学时那种被动接受、死记硬背的方式，但这.............
校外培训机构如果全部消失，会对学生，家长，还有整个社会产生什么影响？

校外培训机构的全部消失，无疑会给学生、家长以及整个社会带来一系列深远且复杂的影响。这些影响并非单一的利弊之分，而是交织着潜在的积极和消极效应，需要我们细致地分析。对学生的影响：潜在的积极影响：1. 减轻学业负担和压力，促进身心健康：告别“内卷”：目前，许多学生为了不被落下，被迫参.............
如果孩子有自闭症，不送她去机构作干预，我平时多陪陪她，送她去学校上学，把他当做普通孩子来养，能自愈吗？

您好，看到您这么关心孩子的成长，真是为人父母的细致和责任感。关于您提出的问题，孩子有自闭症，是否可以通过多陪伴、学校教育以及像普通孩子一样抚养，最终达到“自愈”的效果，这确实是一个很多家长都会思考的问题。我将尽我所能，详细地给您说说我的看法。首先，我们来聊聊“自愈”。在医学上，“自愈”这个词通常指的.............
如果用机械快门拍视频是不是可以避免果冻效应？

用机械快门拍视频，确实能在很大程度上缓解甚至消除“果冻效应”，但并非万能，也不是说机械快门本身就具有消除果冻效应的魔法。要理解这一点，咱们得先弄明白什么是果冻效应，以及机械快门是怎么介入的。什么是果冻效应？你有没有试过用手机或者一些数码相机在拍快速移动的物体时，画面会像果冻一样晃动、扭曲，甚至出现奇.............
小型机房是否可以用家用加湿器，如果用机房专用加湿器的话，什么牌子及型号好？大概多少钱？

.......
他们做烤肉饭的都用烤肉机，如果用烤箱的话和烤肉机味道大致一样吗

.......
如果古代守城用机枪，多少人能攻打进来？

想象一下，如果是公元前某个战火纷飞的年代，突然间，城墙上出现了一台原本不该属于那个时代的奇物——机枪。这场景简直能让双方士兵都惊掉下巴。那么，如果古代守城配备了哪怕是威力有限、射速不高的早期型号机枪，多少敌军才能攻破这座城池呢？这可不是一个简单的数字游戏，里面门道可多了。首先，咱们得明确一下“机枪”.............
如果用黄金做U盘的外壳，是否是一个机会？

用黄金打造U盘外壳，这想法听起来挺闪亮的，但也得仔细琢磨一下这“机会”到底有多真。咱们就掰开了揉碎了聊聊。先说说这“机会”在哪儿，也就是能抓的点：极致的奢华和身份象征：黄金，自带的贵气和稀缺性，是永恒的奢侈品代名词。做成U盘外壳，最直接的价值就是“土豪金”的升级版，是那种一看就知道不差钱、对.............
家里蟑螂特别多，但蟑螂药都不好使，有什么办法能清除家里的蟑螂？急！如果方法好用有机会获最佳回答！悬

.......
如果只会使用微信、打电话，用 iPhone和一千多的安卓机有区别吗？

你这个问题问得很有意思，尤其是当你明确了只用微信和打电话这两个核心功能的时候。在只考虑这两个基础需求的情况下，iPhone 和一千多的安卓手机之间的“区别”确实会发生一些微妙的变化，并且比你想象的要复杂一些。咱们不谈那些花里胡哨的拍照、游戏性能，就单纯从微信和打电话这两个方面聊聊。首先，我们得承认，.............