感觉现在已有的回答还没说到点上。例如,0-1的回归,我把0-1分成100个bin,每0.01当作一个类,然后用变成100类的分类任务,是不是就只是精度差异呢?进一步可以衍生几个问题:
首先,我们要知道,使用特定损失函数的前提是我们对标签的分布进行了某种假设。
二分类问题的常见假设就是标签服从伯努利分布,多分类问题背后的假设是多项分布(Multinomial Distribution)。根据数据分布,结合最大似然估计,就可以推导出交叉墒的公式。
同样的,回归问题背后的假设是标签服从正态分布,这时候根据数据分布,结合最大似然估计,就可以推导出mse的公式。
然后实际问题中,我们遇到的标签不一定真的服从正态分布。根据样本分布不同,大家还提出了tweedie loss、possion loss等损失函数替代mse。我说这么多,只是抛砖引玉,详细的推到大家可以看看 @马东什么 的文章