这个问题超有趣,推荐系统里有类似的场景,即只有用户点击浏览购买的正样本,却没有显性负样本,这样该如何学习呢?
我们假设下面几种方案:
对于第一种方法,缺点太明显,在实际样本中,负样本数量远远超过正样本,正负样本比例太悬殊,效果最差。
而第三种方法好于第二种,因为第三种样本比例比较平衡。
最有趣的莫过于第四种方案了,在2011年举办的KDD cup的Yahoo!music推荐比赛中,大家发现选取热门却没有行为的样本进行负采样效果最好!
因为热门物品大概率曝光过,而用户没有点,说明用户不感兴趣;而冷门物品,用户压根就没见到过,根本谈不上是否感兴趣。
一个看似简单的办法,背后却是对用户及数据逻辑深刻的洞察,这才是机器学习最有魅力的地方。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有