1)注意力机制是需要计算目标item和序列中每一个item的,指数形式下增加bias,没有意义。
2)softmax权重分配存在赢者通吃,极其容易饱和,增加bias将加剧现象。所以在推荐中常常改为sigmoid函数,让权重平滑。
3)其次,增加参数,增大学习难度。
并非所有的设计都要遵循大众设计,遵循公式,要思考这样的因子可以不加吗,不加会不会更好,是不是原来的就也不需要加,加了为啥好,为啥不好。今天还看到了一篇论文在序列中加了零向量,那么在目标与序列完全无关的时候,模型attened到这个零向量即可,不会强制关注这个序列,不会引入额外的噪声。很巧妙的设计思路,当然这样的设计思路是来源于业务的理解,不是所有的业务都需要这样处理。因此,学会在合适的场景做合适的设计修改,往往产生不错的return。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有