transformer 为什么使用 layer normalization，而不是其他的归一化方法？第1页

gao-si-ding-li 网友的相关建议:

@佳雨所说：选择什么样的归一化方式，取决于你关注数据的哪部分信息。如果某个维度信息的差异性很重要，需要被拟合，那就别在那个维度进行归一化。

我来提供一个直观的角度假设有两个样本，分别是

样本index	x1	x2	标签
1	0	10	True
2	2	0	False

这两个样本是由一个模型生成的，譬如模型A

,譬如

又譬如模型B

,譬如

第一、如果做了batchnorm（只mean归一化），那么样本值分别为

样本index	x1	x2	标签
1	-1	5	True
2	1	-5	False

这时你发现模型A你是拟合不出来的，模型B还可以拟合（譬如）。这是为什么呢？因为batchnorm抹去了x1和x2间原有的大小关系，所以导致利用特征维度间关系的模型失效了；batchnorm保留了不同样本间的大小关系，所以利用样本间不同的值的模型还能有效。

第二、如果做了layernorm（只mean归一化），那么样本值分别为

样本index	x1	x2	标签
1	-5	5	True
2	1	-1	False

这时你发现模型A可以拟合（譬如），模型B却拟合不了了。这是为什么呢？因为layernorm保留了x1和x2间原有的大小关系，所以导致利用特征维度间关系的模型可以拟合；layernorm抹去了样本间的大小关系，所以利用样本间不同的值的模型无效了；

所以其实可以看到如果你的特征依赖于不同样本间的统计大小进行比较，那么batchnorm是有效的（譬如CV任务）；如果你的特征依赖于样本内部不同特征维度的比较，那么layernorm更有效（譬如NLP，不同batch样本的信息关联性不大）

====================题外话====================

至于要是batchnorm和layernorm串行做，那就会出现两个模型都无法拟合的情况

码字不易，欢迎探讨点赞

tylin98 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

chncwang 网友的相关建议:

我没记错的话，之前拼多多也有个员工，就是拍照片匿名发脉脉然后被开除，坚持与拼多多打官司的那位。当时轰动一时，得到了很多人的支持，但很遗憾的是后来看他的视频，他已经出国读书了，因为面试其它公司的时候，被质问过这件事。。

毋庸置疑，这位应届生也很勇敢，说出了很多人不敢说的话，年轻人的反抗与斗争是最真挚，但这一切也只有在确定离职的时候——就算不离职也很难呆下去了。

腾讯有这种问题，其它公司大概率也有这种问题，甚至可能更严重，这就是整体环境造成的结构性问题，很难因为一个人一件事而改变。这个应届生不怒怼，腾讯的高管们就不知道吗？就不觉得他们的任务工作分配时间太紧？当然不是。所以我也不相信腾讯说自己要认真反思、尽快整改，就会有什么实质的进步，这也是最悲哀的地方。

su-jian-lin-22 网友的相关建议:

谢邀，这不叫“棍棒教育”，平常的狼爸狼妈棍棒打向孩子屁股这种不会致伤的部位，这母亲是赤裸裸的家暴！法院发出人身保护令后，女子仍两次用烧热的锅铲将女儿烫伤，这绝不是望女成凤，这是将生活与感情当中的不满全部发泄到女儿身上，打着鸡娃的旗号来伤害女儿，来满足对自我的不满！

这是一个失败的母亲，在失败的婚姻之后又经历的一次失败，虎毒不食子，她不配当一个母亲！动辄就打骂，这是一个正常家长对孩子的样子吗？难道自己的孩子就不心疼？看着这伤痕累累的小手，这当妈的有点过于残忍了，关键她自己觉得这是为孩子好，对亏撤销了她的监护权，要不然孩子被打死都有可能！

建议有关部门强制该女子到医院做检查，这有点心理变态倾向了，可不是典型的棍棒教育，而且女孩之后怎么保护也是个问题，建议有关部门跟进，保护小女孩。

相关话题