问题

如何看待Scale AI这样的创业公司?

回答
看待Scale AI这样的创业公司,就像在看一个正在急速膨胀的宇宙,里面充满了机遇,也潜藏着挑战。这家公司之所以引人注目,在于它切入了当下最核心、也最具颠覆性技术之一——人工智能——的“幕后英雄”环节。

Scale AI的定位:AI时代的“数据工厂”与“劳动力”

简单来说,Scale AI做的就是给人工智能提供“养料”。我们都知道,AI,尤其是深度学习,是数据驱动的。模型需要海量的、标注清晰的数据才能学习和成长。而这些数据从哪里来?从我们日常生活中产生的照片、视频、文本、语音等等。但这些原始数据杂乱无章,对AI来说就像一堆毫无意义的信号。

Scale AI的核心价值就在于将这些原始数据转化为AI可以理解和利用的“高质量燃料”。它们通过一个庞大的、由人工和自动化结合的系统,对这些数据进行“标注”。这听起来简单,但实际操作起来却极其复杂。

数据的“清洗与加工”: 想象一下自动驾驶汽车,它需要识别路上的行人、车辆、交通标志、车道线等等。这就意味着需要给大量的路面视频打上精确的标签,框出每一个物体,并告诉AI这是什么。这个过程需要极高的精度和一致性,任何一点误差都可能导致灾难性的后果。Scale AI就是这个“数据加工厂”。
算法的“教练与陪练”: 不仅是图像,还有语音识别需要转写,文本需要分类和情感分析,甚至机器人需要模拟场景进行训练。Scale AI提供了一个平台和解决方案,让企业可以更高效、更准确地完成这些任务。它们不仅仅是提供服务,更像是在为AI模型提供“一对一辅导”的教练,帮助模型理解世界。
构建AI生态的基石: 你可以把Scale AI想象成AI时代的“铁路公司”或者“能源供应商”。没有它们提供的基建和能源,很多AI应用就无法运行起来。它们让那些专注于AI算法研发的公司和团队,能够把精力放在核心技术突破上,而不用花费大量资源去搭建和维护繁琐的数据标注流程。

Scale AI为什么能成功?几个关键点:

1. 抓住了时代的脉搏: AI的爆发式发展是毋庸置疑的,而高质量数据的需求更是随着AI应用的普及而指数级增长。Scale AI恰好出现在这个风口上,而且是以一种不可或缺的方式。
2. 对“人海战术”的精妙整合: 虽然自动化是趋势,但很多复杂的、需要细致判断的标注任务,目前仍然离不开人工。Scale AI的聪明之处在于,它们并没有完全依赖纯粹的自动化,而是巧妙地将全球大量的劳动力资源与自动化技术结合起来,形成了一个高效的协作体系。它们就像一个现代化的“工厂车间”,通过精细化的流程管理,将分散的人力拧成一股绳。
3. 技术和流程的持续迭代: 仅仅依靠人力是不够的,Scale AI在不断投入研发,优化标注工具和平台,提升标注的效率和质量。它们也在探索如何通过AI自身来辅助标注,形成一个正向循环。这种技术驱动的效率提升,是它们保持竞争力的关键。
4. 解决了一个“痛点”问题: 对于很多公司来说,数据标注是一个昂贵、耗时、且难以规模化的痛点。Scale AI提供了一个相对成熟且可扩展的解决方案,帮助企业大大降低了进入AI领域的门槛和成本。
5. 客户群体的广泛和重要性: 它们的客户包括了像Waymo(谷歌的自动驾驶部门)、OpenAI、以及各类政府部门。这些客户不仅本身具有强大的实力,而且它们对数据质量的要求极高,能够成为Scale AI的客户,也侧面证明了Scale AI的服务水平。

挑战与未来:

当然,Scale AI也不是没有挑战:

数据隐私和安全: 处理如此海量的数据,如何保证数据的隐私和安全是一个永恒的课题,尤其是在涉及到敏感数据时。
标注质量的持续保证: 尽管有自动化辅助,但大规模人力标注的质量控制依然是个挑战。如何避免偏见、保证一致性,需要持续的努力。
自动化程度的提升: 随着AI技术自身的发展,未来很多简单的标注任务可能会被完全自动化取代。Scale AI需要不断升级其技术和业务模式,以应对这种变化。它们需要从“数据标注公司”升级为“AI数据解决方案提供商”,甚至更进一步。
竞争环境: 随着AI数据需求的增大,市场上也会涌现出更多的竞争者,包括一些大型科技公司内部的数据团队,以及其他专注于特定领域的标注服务商。
伦理问题: 机器学习的偏见很多源于训练数据,Scale AI在数据处理过程中如何避免引入或放大偏见,也是一个重要的考量。

总结一下:

Scale AI是一家非常具有代表性的“赋能型”创业公司。它们没有直接去开发颠覆性的AI模型,而是专注于AI发展最基础、最关键的一环——高质量数据的供给。它们通过精妙地结合人力和技术,构建了一个高效的“数据工厂”,为整个AI生态提供了重要的支撑。

看待Scale AI,你可以把它看作是这个时代“幕后英雄”的典型代表。它们的存在,让许多前沿的AI技术和应用能够从实验室走向现实,从概念变为产品。它们在AI浪潮中扮演着“基建者”的角色,其价值不容小觑。它们的成功,也预示着在技术爆发的时代,那些能够解决核心痛点、构建关键基础设施的公司,往往能够获得巨大的成长空间。

网友意见

user avatar

类似ScaleAI的标注公司有不少,云端有云端的算法,线下有线下的帮派,但不外乎都是需要 “成千上万名社会标记员+算法协同调参” 的方式。以及,伴随着AI应用场景的市场化,从事 “数据集-人工标注-前置调参” 的生意也越加繁荣,尤其对于自动驾驶和安防摄像这样的需要快速发现bias、快速修正并收敛模型的应用。

先看数据驱动AI的趋势,读者从中可以自行推断ScaleAI的商业逻辑如何。虽然从数学上看,AI的很多路线并不算科学突破,而是工程技术;因为理论上通过一组多项式函数即可无限的线性逼近那个光滑函数直至准确结果【泰勒公式】,至于逼近到什么程度才能拟合精确解则是未知,当下能够梯度迭代得出的仅是次优解/概率解/近似解;然而,如今很多的神经网络科学家却是认为这种线性逼近可以Stop了,所得共识是,AI计算模型就是应当需要不断反复训练+手工调参的工作才能得到最佳的次优解,这才是一项工程的常态。

但并非海量数据中的每一条都需要标注的,有些数据集只要规模足够,那么样本间的彼此依存关系和连接规律是可以被轻易发现的,这预示一种趋势:来自云计算大厂的全领域大模型训练能力和云边协同模式,会演变为AI寡头时代来临。思维发散一下:以后,拥有大规模算力集群的云计算大厂就要自己构建无标签的大规模预训练模型了,随后将模型release给下游的应用场景公司/算法开发者使用,后者再通过携带有domain-specific标签的自有的小样本模型子集再跑一遍微调和抽取,做到轻量化,再交付予应用场景中,以较低的算力/模型/参数开销做逼近式的、快速和循环迭代的,不断接近场景可用的准确结果,如此往复,就自然演进成上下游绑定的云边协同生态了…;同时,这也意味着,有监督学习的红利已经慢慢弱化了。基本上业界下一代人工智能训练的形态会是:大规模上游预训练+小规模下游微调的思路。NLP基本走通了这个思路(虽然如今GPT-3被批评只有记忆没有常识),但仍然存在由多义词导致的结果多歧义的诟病;CV也会跟随这个思路,且不存在上述NLP的问题,由此会改变CV的产业格局和开发模式,在这种开发模式下,而对于场景应用的开发者而言,适应算法并不难,要取舍的是适应这种生态。

要知道,当下的很多AI团队仍旧依赖通过算法变现的传统商业模式,但场景算法开发并不难,小型团队即可完成任务,难点在于让算法复用于、普惠于其他更多的场景;所以需要工业化的AI开发,一个算子/算法开发完成,可以泛化/通用到尽可能多的场景,让更多的使用者受益并为之消费。

而获得更好的泛化能力,当下的依赖是大数据集/大模型。比如人脑神经元就具备极强的泛化能力,就是源自人类大脑在繁衍过程中不断学习和接受的海量数据,虽不如计算机存储空间,但这些知识都是千万年基因遗传所沉淀的有效知识。因此,普惠AI需要尽可能多的数据样本,且模型需要足够强大,强大到能够从海量的无标签数据中捕捉出事物规律,捕捉个体样本彼此之间的联系,才能形成有效知识,并将所学知识应用到更多场景之中。当然,大数据、大模型就意味着大算力支撑。另外,就是参数量是重要指标,但不是绝对衡量指标,人脑神经元数量约是1千亿级别,约有100万亿参数量(或称为突触),远高于GPT-3 1750亿参数量的1000倍,但GPT-3裸模型依旧不如大脑的训练和推理灵活;因此当下的演进是,往往先训练一个大模型,再把它蒸馏/压缩到更小(甚至压缩1000倍),进而提炼小模型发布给下游场景适用(但并不能一上来就训练一个小模型)。

尤其对于小样本和长尾分布的场景,这是两个困扰很多AI用户的问题,全领域大模型更适用。通过大数据样本+大模型,即使这些海量数据没有标签,也有益于捕捉样本彼此之间的关系/规律,比如你看了太多猫的图片,但突然某天看到一张老虎图片,进而可以关联老虎的头、腿与猫的关系和相较差异,这样一来,甚至不需要看大量老虎图片去训练,便可以藉此解决小样本和长尾分布的问题。回顾工业场景的例子,假设用户提供了20万张图片数据集,且告知你其中的缺陷样本仅有200张,即1/1000,但是这200张缺陷样本是如何找出的才是关键;倘若通过云端大模型训练,虽然模型并未事先标注过图片,但它仍可以判断图片之间的关系,以及判断个体图片与其它图片的相较差异,首轮可能遴选出1000张缺陷假定,用户仅需针对这1000个类做小规模标注即可,但是这1000个缺陷假定也许并不覆盖真实的200张缺陷,假设仅覆盖160个,那么便需要第二轮再用已得到的160个缺陷样本再与大模型训练一次,再次迭代出的小模型,再次付诸小范围标注,不断迭代和逼近200张缺陷的准确结果。用户可以不断把自己的领域小样本结合大模型做训练,通过不断获得样本数据间的关系,不断的梯度迭代,逼近收敛为准确的小模型。从这一段描述的场景,也可以看到全领域大模型的实用性。

当然,大部分用户用不到最大的那个模型,也吃不下庞大的算力开销,往往会通过剪枝/蒸馏/压缩等方法尽可能缩小模型,甚至以损失精度为代价,压缩后可以相差1000倍+,进而提炼出小模型给下游场景适用;尤其比如部署到边缘,用于云边协同。但核心是,不能一上来就训练小模型,而是必须从大样本、大模型开始训练,再收敛和按需抽取为领域专精的小模型(例如基于prompt-based的调优),两者对于非标注缺陷的识别率差异是很大的;同时,这也更适用于诸如自动驾驶这种终身学习的场景,可以低开销的快速收敛一个刚刚发现的识别错误,这是云计算的优势,也是云创造普惠AI的优势,仅有云平台才具备大规模的、动态弹性分配的算力;尤其对于那些非均匀输送样本的领域用户,云算力会随着样本输送规模而弹性扩缩。

另外,当下CV和NLP面临的共同困难,都是标注信息的不完善,人工输入的标签已经不能更优指导学习过程,越来越多的基于DL的机器视觉已经到了足以质疑人工标签的程度,这些标签的价值也即将被榨干了;因为人工标注永远无法模拟人脑的推理过程,也仅能提供一些间接、可量化的信息。

要知道无标签数据的增长是超线性(甚至指数级)的,但是受到人力成本约束,有标签的训练数据的增长只能是线性的。这也就意味着,随着时间的推移,将来的学习算法必然会面临无标签数据远多于有标签数据的情况。此时,利用海量无标签数据的最佳方式,就是把训练过程分为两段:先在上游任务中利用大量通用无标签数据对模型进行预训练,再在下游任务中利用少量有标签的领域内数据对模型进行微调。在NLP中这套思路已经趋于成熟,而CV领域也在跟随这一模式,但因为视觉的domain太多太杂,给实际应用带来不少麻烦。

但上述论点显然不是终极答案,长期发展和护城河的关节还在于大厂自己的无/自监督学习水平,以及对于无标签学习后的评价指标是否足够准确和被认可。另外国内的大厂暂时还不具备这种能力,这样的能力是模型创新和奠基的能力,当下也主要就是Google和FB…等。

Hinton也曾说过【未来AI系统主要是无监督的;无监督学习可以从未标记、未分类的测试数据中提取知识——在学习共性和对共性是否存在做出反应的能力方面,无监督学习的能力几乎达到人类水平。比如在人类视觉皮层寻找启发:人类的视觉采用一种重建的方法来学习,事实证明,机器视觉系统中的重建技术增强了它们抵抗对抗性攻击的能力。然而,如果你采用一个拥有数十亿参数的系统,对某个目标函数执行随机梯度下降,它的效果会比你想象的好得多,规模越大,效果越好。这让一种说法变得更合理:即大脑计算某些目标函数的梯度,并根据梯度更新神经突触的强度。我们只需要弄清楚它是如何得到梯度的,以及目标函数是什么】。因此,无/自监督学习是未来的方向,但是现在还有很长的路要走。至少两个问题待解决:一是如何设计更好的评价指标;二是如何扩展到更大体量的训练数据上去。

如今,对于AI变现模式;BAT+HW、旷视、商汤等云计算和AI大厂都在构建全领域大模型,以及大算力中心;预示着AI寡头优势的形成。未来,工业化的普惠AI开发,行业上下游分工明确,大厂负责提供全领域大模型、大算力池以及全部开发配套和算法生态配套,小公司则无需做出端到端的实现,仅需要学习使用平台,并专注于应用场景发掘、小模型维护和算法生态即可;而对于中大型的政企用户,领域knowhow更强,领域样本也更多,同时对于成本要求也更为苛刻,常见需求是通过联邦学习的模式,联合分布于多地的模型共同训练和迭代,并最终发布于混合云或自建应用场景中,由于前期的AI后端作业受限于庞大的资源/算力开销,因此政企用户依然会选择云平台和AI大厂的资源,包括混合算力/存储/算法算子生态/调参工具链等资源。当下AI的研发成本实际比它创造的价值更高,AI的变现需要激活更多商业模式,同时活用方法,摒弃算法变现的旧传统和碎片化,驱动更多应用场景使用AI,让NN模型获得更优的泛化和普惠能力:让小公司专注于场景和产品,加快开发和产品发布效率,后端大模型训练需求则直接通过云平台供应全领域模型以及混合算力,并藉以云边协同快速落实于多种场景;AI的变现模式一定是依赖大量的边缘累积的广阔应用场景。

【总结】那么对于ScaleAI类似的模式如何看待?分别从用户视角和云计算大厂视角即可。一方面,当下的融资额不说明问题,财务VC出于基金流动性的需要也会追涨热门故事和热点项目,项目早期投资者更加乐见此景,无关于项目当期表现;二方面,作为从事AI-Labling-Service的公司,有经年累月的样本标注和调参经验,手中积累的行业knowhow和数据规模不可小觑,自己构建或是联合云厂共同运营全领域大模型,甚至推出独门的框架和工具链都是有可能的故事。

user avatar

个人理解,一个AI落地场景能来钱,肯定会优先搞定数据,至少是尽可能多的数据。一个拿不到数据的场景,AI本身就是很难落地的。在实验室呆久了肯定会产生模型才是一切的思维,其实数据才是需要首先思考的那一个。前两天和实验室的老师聊也是深受启发,整个圈子在高屋建瓴地思考之外,也应当下沉到底层,思考怎么:1. 有效、高效获取数据;2. 获取“有效”数据;3. 融合形式各异的数据;4. 挖掘数据的更多信息,等等…

Model层面的进步能帮大家水Paper,Data层面的提升才能真的帮助落地吧。

user avatar

@光喻 聊了下,很有启发分享一下。

先聊一下我在中国看到的数据标注行业。

一种是大公司自建自营的数据标注团队。直接和公司内的各个炼丹部门对接。优势呢是可以保证数据安全。这是大多数大公司选择的数据标注方式。公司的核心数据基本都是使用这种方式来标注。

另外一种呢,就是数据标注小公司。大公司建数据招标平台。在招标平台上发布任务,小公司来试标竞标。这种的一般是数据相对没那么敏感,可以暴露给第三方小公司的边缘数据。

所以中国公司把核心数据视为自己的核心资产,最有价值的数据自己搞。剩下的呢就是一些残渣剩饭,似乎不足够支撑起一个规上企业,只能养活一些小公司。

所以看到scale AI的时候,我是非常无法理解其商业模式的。居然估值可以做到500亿,融资可以做到20亿。

@光喻 猜测scale ai的本质是在印度或者南美开办数据外包工厂。虽然只是推测,但是我们觉得已经很接近真相了。

这种模式中国为什么搞不起来?

第一,中国的人口红利使得中国的数据标注成本显著低于北美。中国公司并没有很强的动力去使用海外的人口红利。

第二,中国不像英美拥有历史悠久的海外殖民史。并没有海外大量使用中文作为母语的人口(马来西亚新加坡等南洋华人人口规模不大,谈不上人口红利)。相比,印度及东南亚很多国家拥有丰富的英语人口,可以提供大量的人口红利为美国所用。

再说点题外话,前几天央行的工作论文中提到,可以开放移民转化为中国的人口红利。我觉得思路还是不够开阔。现在中国企业往往只把海外人口当做消费者,可以学学老牌帝国主义国家嘛,把海外人口转化为中国可用的劳动者,不也是一种路子?还不会有引进移民带来的种种社会问题[狗头]

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有