大数据效果当然比小数据好,但是不是所有领域都有大数据,收集大数据的成本也会很高。
而小数据则非常普适,所有的领域都有小数据。
从大数据转向小数据,意味着AI从“必须要低成本大数据才能工作"的领域扩散到了”有一些小数据即可得到很好效果“的领域。
我把访谈内容看完了,这个标题其实是很具有迷惑性的。
大数据、大模型作为深度学习算法引擎已经成功的运行了大约 15 年,到目前为止,它仍然有动力。话虽如此,它只适用于某些问题,还有一系列其他问题需要小数据才能解决。
这个小数据在这里指的是细分领域里面的数据,并且这个数据量的大小也是很主观的概念,并不一定是小领域的小数据,而有可能是小领域的大数据。
在后面的谈话就到了它创立的Landing.AI,其实也就是变相宣传了嘛。
口号就是「以数据为中心」的 AI,并表示小数据也能解决包括模型效率、准确率和偏见等问题在内的 AI 大问题。
他提到的以「数据为中心」的AI其实就是把AI的研究重心从模型转向数据,因为他提到
在过去的十年中,深度学习网络有了显著的改进,以至于对于许多应用程序,代码、神经网络架构基本上是一个已经解决的问题。因此,在实际应用程序中,现在更有效率的做法是保持神经网络体系架构不变,转而寻找改进数据的方法。
然后他提到了一个以数据为中心的例子
我们曾听说过很多用数百万张图像构建的视觉系统——我曾经用 3.5 亿张图像构建了一个人脸识别系统。用数亿张图像构建的系统,是用 50 张图像构建的系统所远不能达到的。但事实证明,如果你有 50 个非常好的示例,你就可以构建一些有价值的东西,比如缺陷检查系统。在许多缺少巨型数据集的行业中,我认为重点必须从大数据转向优质数据。拥有 50 个精心设计的示例足以向神经网络解释用户希望它学习什么。
这里提到的缺陷检测其实跟癌症研究类似,因为在现实世界中,不正常的例子总是占少数,就像癌症预测,无脑预测每个人都没有癌症,也有很高的准确率,这里面的小数据就是没办法改变的事实,如何利用这些小数据就是今后的一个重点方向。(类似于outlier detection, concept drift detection, abnormal detection etc.)
剩下的就是提了些数据科学的理念,自己公司的一些业务等等。
总的来说,这个小数据并不是单纯指的是数据量的大小,而在于要关照更细分的领域。
不同意,我个人观点AI应该朝着相反的方向发展:从小数据转向大数据。
大数据模型往往可以在小数据上表现好,而反之不成立。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有