视频搜索会成为新的趋势吗？

视频搜索，这个概念就像一把被遗忘在角落的钥匙，正在被重新打磨，并且看起来很有可能成为我们未来获取信息的主要方式之一。如果说文字搜索是过去几十年的王者，那么视频搜索，或者更确切地说，是“视觉内容检索”，正悄然成为下一个风口。

别把它简单地理解成在YouTube上搜“如何做番茄炒蛋”。这背后蕴含的，是信息获取方式的深刻变革。想象一下，你正在为装修新家寻找灵感，你脑海中浮现的是一个温馨的客厅画面，但你记不清具体是什么风格，也无法用几个关键词准确描述。这时候，你可能只需要上传一张你喜欢的客厅照片，或者甚至是一段简短的视频片段，然后系统就能帮你找到风格类似、甚至包含你所需家具和设计元素的其他视频。这就是视频搜索的魅力所在，它超越了纯粹的文字语言限制，直接触及我们“看到”和“感知”的信息。

为什么视频搜索会成为新趋势？

1. 视频内容的爆炸式增长：这是最直接的驱动力。从抖音、快手、B站到YouTube，再到各种短视频平台和社交媒体，视频已经渗透到我们生活的方方面面。我们越来越习惯通过观看视频来学习、娱乐、交流。当信息以视频形式大量存在，自然而然就会产生对高效检索这些视频内容的需求。
2. 人类信息获取方式的自然演变：文字信息虽然丰富，但终究是间接的。视频则更直观、生动，信息量也更大。我们的大脑处理图像和视觉信息的能力远超文字。当你想了解一个复杂的产品如何操作，一段演示视频远比一篇说明书来得直接有效。视频搜索正是顺应了这种“所见即所得”的本能。
3. 技术的成熟是关键推手：过去，视频搜索之所以难以普及，是因为技术瓶颈。理解视频内容，尤其是其中的细节、动作、场景，对机器来说是个巨大的挑战。但近年来，人工智能，特别是计算机视觉、自然语言处理（NLP）和深度学习的飞速发展，为视频理解和检索提供了强大的技术支撑。
计算机视觉的进步：算法能够识别视频中的物体、人物、动作、场景、甚至是情感。它们可以“看懂”视频，提取关键信息。
NLP与多模态融合：结合视频内容和相关的文字描述（标题、字幕、评论），甚至语音，可以构建更丰富的检索索引。更高级的AI还能理解视频的上下文和意图。
生成式AI的赋能：甚至未来的视频搜索，可能不再是简单的“匹配”，而是能根据你的需求“生成”一段符合你描述的短视频，或者提炼出视频中最精华的部分。

4. 用户体验的颠覆：想象一下，你在网上购物，看到的商品图片再精美，也无法完全展现商品的实际质感和使用效果。如果视频搜索能让你通过输入“类似这款鞋子，但颜色是红色的”这样的自然语言，或者上传一张你喜欢的衣服图片，就能找到相应的高清视频展示，那体验将是革命性的。
“问”得更自然：你不再需要绞尽脑汁去想那些精确的关键词，而是可以用日常的语言，甚至是模糊的描述来提问。
“找”得更精准：以前可能是“搜到一堆结果，自己慢慢筛”，现在则是“搜到直接相关的视频片段”，甚至是你想要的那一秒钟。

视频搜索会如何改变我们的生活？

购物体验：消费者可以上传图片或输入描述来查找商品视频，查看商品的详细使用演示、用户评价视频。这会大大提升购物的效率和满意度，也迫使品牌更注重视频内容的营销。
学习和教育：学习新技能、理解抽象概念，通过观看高质量的教学视频会比阅读文字更有效。视频搜索能让你快速找到特定操作、原理演示或知识讲解的片段。
内容创作：创作者可以通过更精准的视频搜索工具，找到那些与自己内容相关的优秀片段，进行二次创作或学习借鉴。同时，他们也需要优化自己的视频，使其更易于被搜索到。
信息获取的碎片化与即时性：很多时候，我们只需要解决一个具体的小问题，比如“这个菜怎么切？”或者“这个按钮是干什么用的？”，一段几秒钟的视频演示就能解决。视频搜索将极大满足这种即时、碎片化的信息需求。
娱乐和社交：在社交平台上，你看到一个有趣的视频片段，想要找到更多类似的，视频搜索可以帮助你快速“挖掘”同类内容。

挑战与未来展望

当然，视频搜索要成为主流，还有一些挑战需要克服。

技术难度：视频内容庞大且复杂，对AI的理解能力要求极高。如何确保搜索的精准度、速度和相关性，依然是技术攻克的重点。
数据标注与索引：视频内容的有效索引需要大量高质量的标注数据，这仍然是一个耗时耗力的过程。
隐私与版权：随着视频搜索能力的增强，如何保护用户隐私和内容版权也将是重要议题。
用户习惯的培养：从习惯于文字搜索到视频搜索，需要用户适应新的交互方式和信息获取模式。

但总体而言，视频搜索的趋势不可逆转。它不仅仅是一种技术上的革新，更是信息时代发展到特定阶段的必然产物，是对我们获取和理解世界方式的升级。你可以想象一下，未来的搜索引擎，可能不再是那个白色的输入框，而是一个充满视觉元素、能够理解你“想要看到什么”的智能助手。到时候，我们搜索的不再是“词”，而是“画面”、“情境”和“体验”。这，就是视频搜索的未来。

网友意见

我开个玩笑先。以后的内容生态，我觉得会分裂成几条线，图文用户大部分都在科技圈/艺术圈，语音社交集中到投研圈和夜店（因为难以追踪聊天记录和浏览记录），短视频仍然集中到普通老百姓上（吃喝嫖赌），而且几乎不可逆转。

当推荐满足了用户懒的动机以后，人性上，接着就是如何不费吹灰之力获取更复杂的知识，我理解普通人的懒惰其实不是懒得输入 query，而是想了解一个领域无从下手却又懒得调研。比如说装修如何选瓷砖，保险逼坑指南，北京出行哪里玩比较好，这些东西搜索时候，你都是很模糊的，尤其生活物质膨胀造成选择困难以后，大部分人也不知道要搜索啥，视频带来的最深刻也是最有效的体验就是辅助你知道你要定位啥内容，帮助你回忆，或者启发。

我理解视频搜索的目的解决的不是准确，实际人们之前在 pc 端搜索时候，大概率也不知道你自己要啥，尤其垂直领域找个靠谱的生活答案啥的（也有可能以后是社交解决这种问题，而不是搜索），你大概会不断尝试各种 query 去组合去尝试，直到找到你想要的结果。这是单一相关性搜索的弊端，但是视频搜索，可能你不太习惯拿视频去搜索，你大会简单写几个词，然后通过适当的视频推荐引导，让你知道自己到底要找啥，视频更加接近帮助你回忆或者触发你的思维的工具，所以一个承接各种知识通道的“科普视频”，是一非常重要的索引桥梁。

其实短视频刚刚上来的时候，大家记忆线还是一片空白，容易集中到小姐姐跳舞上，刷久了很容易腻歪，也会迫使公司要深入寻找更多非小姐姐跳舞的受众上去，其实你发现久了也还是容易腻歪，毕竟很多推荐系统弹性比较差，你刷多了，大概套路人明显能够感受出来，久而久之大家习惯这种见缝插针的信息模式以后，慢慢就开始挖掘能够从这些信息当中获取对自己有价值的“投资/闭坑”信息

我就是为了让抖音少点给我推荐小姐姐，不得已拼了命搜索加关注，企图把系统拽到一个我觉得合理的点上，然而这么做也不是我觉得抖音搜索多牛叉。也只是因为国内 pc 端搜索广告太他妈多了，同行牛逼都靠衬托，google 搜索看英文内容也累，而且不能针对国内社会性提供理性的见解

我理解用户迟早会用脚去去调教推荐的，大部分也会通过搜索反过来定制自己内容信息审核系统，而不是忍受其它用户看了啥我被迫要看几秒，或者用户把持不住，点了小姐姐小鲜肉，特么给他们推了更多丝袜大长腿。

所以视频搜索应该是介于你明确知道自己要啥（内容就这些，你只是想精准一点找到），和你完全不知道自己要啥（信息太多，你不知道选啥）之间的一个桥梁，这也符合未来内容产能过剩的一个大趋势。

我现在是能用视频搜索就用视频搜索了，因为纯图文的中文内容有太多垃圾冗余了。

比如为了增加阅读页数PV，强行把一段内容分成多个页数，要一页页翻。很烦。

垃圾冗余内容这我觉得搜索引擎优化SEO要占一半责任，现在搜索出来的内容，充斥了“这个事情怎么样呢，小编如何如何”这种口水话，因为搜索引擎对内容的字数有要求。结果导致真正提供有效内容的创作者排序变得靠后，机器采集内容+口水废话的反而靠前。

比如过塞尔达雷咒盖侬的骆驼机关时候我卡关了，上网搜了半天都是这种机器生成的小编的话。

塞尔达传说荒野之息骆驼神兽怎么过？游戏中有四个神兽需要击败，打败之后就能获得强力道具，骆驼神兽该怎么过关？下面就让小编来介绍一下，感兴趣的玩家一起来看看吧！
xxxx
以上就是小编带来的全部回答了，更多信息请关注游戏吧。

我现在看到小编两个字心里只想骂娘。

好不容易找到一个有效信息，是这样的。

面对着它…我却看不明白。「站在某个位置」「身体先断电」，这些内容实在过于抽象了。对于迷惑了半天的我完全不懂…

最后还是抖音上搜了过关视频，看了3分钟就搞明白了。

从此能搜视频解决的，就都会搜视频。时间长了有些领域，视频搜索有很明显的优势，因为视频是那个领域最好的表现形式。

比如烹饪这个传统的图文搜索领域，视频搜索的出来内容质量明显更高。真正的一学就会。现在要学做什么菜，搜索做饭视频绝对是我的第一选择。

第一「视频菜谱不会跳步骤」。

视频拍做饭边讲边拍，每个步骤都非常详细，哪怕是有些角度没有讲到也能够通过视频信息补充。

而图文菜谱传递的内容还是有限的。比如菜谱里一句「酱油腌15分钟」，那这个酱油是生抽还是老抽呢？这个做出来成菜差异太大了。

因为细节太多，菜谱真不容易把每个步骤都写清楚拍清楚。大家学的时候又容易跳步骤，稍微露一个或者跳一个就很很容易翻车。

第二「视频菜谱没有假把式」。

如果看过大量菜谱，你会发现其实美食领域有些人的菜谱是自己写的，拿张别人的成菜照片再拼凑一个所谓的步骤就可以出菜，其实自己根本没做过。

但是在视频面前，会就是会，不会就是不会，失手就是失手了。你是能够看到这菜是怎么一步一步变成现在这个样子的。

第三「视频菜谱会把菜谱外的东西告诉你」

除了菜本身，视频还能传达很多菜谱之外的东西。比如厨房应有的摆放，切菜的手势，肉类分割的方法等等。甚至一些更宏观的，这个作者有没有手艺，熟练不熟练水平怎么样，都能够在视频里看出来。（这也是为什么烹饪视频领域，王钢/老饭骨/农国栋能够脱颖而出的原因）

总之特别需要操作的领域，视频搜索的效果远远好过图文搜索。而且视频搜索特别适合老年人，我妈广场舞新动作都是在视频上搜了学的，不用戴老花镜来看字。

从信息检索（Information Retrieval）技术的角度来看，“真正的视频检索”目前距离产品化仍然有非常长的鸿沟。目前产品化的视频检索本质上依然是文本检索，通过关键词匹配视频的标题，介绍，关键词，以及字幕信息（通过OCR给出），这种方法能用倒是能用，但局限性也非常大，要当“新的趋势”也根本就谈不上。而“真正的视频检索”（即视频语义层面的多模态检索）目前在技术上仍然处于刚刚起步的阶段，距离产品化应用还差得很远。

@霍华德霍老师已经详细讲了目前已有的视频检索产品存在的问题和困难，我稍微进一步地展开讲讲整个信息检索领域的Roadmap。先不管其他附属系统（比如查询理解），一个线上运行的信息检索系统一定包括至少两个核心Pipeline：召回和排序。召回指的是从海量的非结构化数据集中搜索得到相关的结果，排序则是对相关的结果按相关性从大到小排序，返回给用户——实际线上的系统通常会有多个不同阶段的排序，即首先用高效率的算法进行粗排（也叫初始排序），然后取前面若干个结果使用匹配能力更强的模型进行精排（重排序）。

这里稍微提示一下，信息检索中的排序（ranking）跟数据结构算法中的排序（sorting）在英文中并不是一个词~

然后针对匹配的类型，又可以分为字面匹配和语义匹配——字面匹配顾名思义就是根据文档中跟查询完全一致的关键词的特征来判断是否相关；而语义匹配则是要考虑查询词和文档内容的语义信息的相关度。例如有一个查询词hotel，语义匹配模型会认为文档中的词motel也是跟它相关的——虽然两者字面上完全不重合。一般来说Web搜索会更加偏向于字面匹配，语义匹配一般常用于QA任务中：

对于“真正的视频检索”而言，显然这应该是一个语义匹配任务——比如我搜“哈士奇”，那么如果对标文本检索和Web搜索引擎的话，理想情况下的视频搜索引擎应该理解查询词“哈士奇”的语义，然后找一个包含“哈士奇”的视频返回给我——如果没有的话，那么系统至少也应该找一个包含“狗”的视频返回给我。且以上过程应当基于对视频本身内容的判读，而不是依赖于人工标签。

在此基础上，信息检索本身是一个海量数据+时间敏感型任务，从用户提交查询到排序结果返回给前端，网络正常的情况下你的端到端延迟必须控制在毫秒级——也就是说你要在极短的时间里你要从百万、千万甚至上亿的结果中找回可能相关的结果，然后进行排序。所以在线上的系统中，纯粹基于关键词匹配的BM25算法依然具备不可替代的地位，因为它不仅性能强（在Web搜索这种本身不太依赖语义信息的场景下，很多深度学习模型也不能保证一定能击败它），而且速度非常快，工程系统设计恰当的话延迟基本上可以控制在用户无感知的程度。

而与之对应的是，如果要精细地匹配语义信息，就需要使用基于交互（Interaction-based）的模型，对查询和文档进行词项（Term）级交互，这样的话线上计算的代价就非常高，几乎只能用于排序阶段。事实上对于原始的BERT模型而言，即使是只进行排序，通常也难以满足上线的要求。比如美团的技术分享就提到，他们使用了模型蒸馏的方法在线上部署了一个6层的轻量化BERT才能满足上线要求。

同样的模型，召回比排序对速度的要求更加苛刻——目前常用的方法是使用基于表示的模型（representation-based）将查询和候选文档都编码成一个固定维度（比如768维）的稠密向量，然后在召回阶段就可以使用向量引擎进行快速搜索。但这种方法要把只有几个词的查询和几百个词的一整篇文档都压缩成维度相同的稠密向量，信息丢失不可避免地会比较严重，因此性能瓶颈也很严重。

现阶段，基于语义匹配的召回（不光是文本，还有以图搜图之类的功能），依然是学术界和工业界研究的重点——即使是针对信息量相对有限的文本和图片，这个问题到现在也依然没有完全解决，所以我们可以看到以图搜图功能依然是稀罕物，而且实际效果也远远谈不上尽善尽美。而信息量更大的视频，处理起来难度自然就更大了——把长文本和短文本强行拉进同一个向量空间带来的信息损失已经不小了，如果再编码信息量更大的视频的话，信息损失显然会更加严重，对最终的排序性能很可能会有无法接受的负面影响。

概括地说，要实现“在召回阶段就直接匹配查询词和视频本身的语义信息”这个最终目标，我们需要构造一种编码器，可以把视频和文本在彼此独立的情况下编码成同一个向量空间里的稠密向量，并且尽可能地减少性能损失，还要把查询编码的计算成本压在线上可以接受的程度。

很明显，这个目标已经远远超过了现有技术的极限——因此，对于实际的视频检索产品而言，通常依然需要保留文本检索这根“拐棍”，先抱着文本检索的大腿解决有无问题，然后再逐渐地引入视频本身的语义信息，最终实现真正意义上的多模态检索。在排序阶段上，也可以先易后难，首先在排序阶段应用细粒度的多模态检索模型，实现查询词对视频语义信息的精细匹配，然后再随着模型进步和算力本身的廉价化推广到召回阶段。

终于有个可以体现我专业性的问题了。未来图文向视频迁移是大势所趋。相比于文字，这世界上大多数人还是更喜欢看视频。但视频搜索却绝对是难题。就我抖音的使用体验而言，一个视频如果刷刷刷的过程中，如果没有收藏，之后通过搜索再找回来是比较困难的。

很多回答已经从产品角度谈了很多了，我从技术角度谈一谈视频搜索：

文本质量差，标题短或者缺失的问题，在视频搜索里非常普遍，特别是ugc的视频，如抖音、视频号。这就给视频搜索造成了很大的困难。
文本作弊，由于一些作者想提高视频的命中，会填入大量的与视频不相关的、蹭热度的标签，这给视频的相关性计算造成的很大的困难。
视频搜索去重、原创性和抄袭打压式一个难点。热门视频搬运如何去重，如何判断原创视频，如何打压抄袭视频，都是问题。
视频搜索里黄赌毒的问题也是很严重的，此外还有怎么反垃圾、政治敏感的视频？
视频搜索的头部query比较集中，如“德云社”、“美女”、“马云演讲”等头部query都有至少上千个相关性不错的视频，如何满足用户千人千面的个性化搜索需求可能是更为关键的问题。
视频搜索比视频推荐对准确性的要求更高。如query “还珠格格第5集”，仅仅是展示还珠格格的视频是不够的，一定要把第5集排到最前面。在文本丰富的情况下，或许不难。但在视频搜索里，文本质量差，怎么把第5集排上去，却不容易。
视频搜索相关性计算更难，这其实也是文本质量差的衍生问题。
视频搜索里视频内容理解至关重要，前面提到的文本质量差，文本作弊，相关性计算，搜索排序的问题，其中绕不开的解法就是视频内容理解，必须要使用多模态技术（nlp+cv+audio）为视频打上各式各样的标签，补充缺失的文本信息。
视频搜索是跨模态技术的最佳战场。5年前，用文本直接搜视频的跨模态技术真不成熟，那时谈视频搜索也只还是文本搜索的一点延伸。然而2020年和2021年是跨模态技术的爆发年，从Vision Transformer提出起，人类就找到了打通文本和视觉之间鸿沟的最佳模型结构，transformer可以天衣无缝地连接起文本和视觉。OpenAI的新工作CLIP和DALL-E神挡杀神佛挡杀佛地展示出跨模态技术的无限潜力。

最后夹带点私货，想来腾讯做视频搜索的，可以看下下面这个回答～

这个问题难以通过直觉获得答案，所以，我将细细分析后，才能给出结论。

1

首先，我觉得用来搜索的方式（输入）跟搜索结果的呈现（输出）并不是一个概念。为了避免混淆，我觉得搜索大致可以分成：

以文字为媒介：文字搜索文字，文字搜索图片，文字搜索音乐，文字搜索视频。
以图像为媒介：图片搜索图片常出现，图片搜索文字音频视频等其它媒体相对少见。
以音频为媒介：音频搜索音乐常出现，音频搜索文字图片视频等其它媒体相对少见。
以视频为媒介：视频搜索视频，视频搜索音乐，视频搜索图片，视频搜索文字。

题主所问的视频搜索的方式，大致属于「文字搜索视频」，那么，这种方式会不会取代传统「文字搜索文字」呢？仔细分析以上每种搜索的特点我们才能明白。

2

以图像搜索图像，以音频搜索音频，以视频搜索视频，从使用上来看似乎很酷，然而，这种搜索媒介很少是原创的，通常我们使用现成的图像搜索原图，现成的mp3搜索音频，现成的视频片段匹配影片，它更多的只是一种模式匹配工具，而不是根据用户自己的意图来进行搜索。

使用手写输入法或者语音输入来进行搜索，本质上其实是文字搜索。而不是图像音频搜索。

为什么搜索领域的主体媒介依然是文字？因为多媒体的创作具有不小的门槛，无论是做图，音乐，门槛都不小，用它来表达自己的意图并不容易，至于视频创作，虽然在全民普及手机之后的门槛大幅度降低，但让人工智能通过视频媒介理解意图并作出搜索，目前还具有相当的技术难度。

所以，以文字为媒介的搜索在短时间内依然还会是主体，因为文字相对能够更低门槛的表达用户的意图。

那么，文字搜索所获得的内容呈现，究竟会是文字，图片，音乐，还是视频？

3

音乐很可能是最先被排除的，不单单是因为人类通过视觉获取的信息量远远大于听觉，还因为声音在同一个环境中会互相干扰，一个小范围内的大量用户可以同时观看不同的文字，图片，视频。但相对难以同时聆听不同的音乐，人均配备智能手机已经几乎接近成为现实，但人均佩戴耳机却远远没有成为现实。

至于图片，则相对难以作为一个单独的类别，因为图片既可以跟文字呈现在一起，同时也可以成为视频的一部分。把它看作文字跟视频的一部分更好。

因此，关于搜索结果呈现方式的终极对决，依然还会是文字与视频。

4

传统搜索引擎，是从驯服文本猛虎开始的。面对着互联网上无数的网站，无数的文本，搜索引擎将它们集中抓取到一起，用统一的入口让用户更方便的访问。

这个时代的电子设备有两个特点：第一，主要输入方式是键盘，第二，内容的主要展现渠道是网页。

然而，在移动互联网时代，输入输出方式发生了变化。

用户输入方式不再是键盘，而变成了触摸屏，输入文字的方便程度下降了，滑动点击与选择成为更常用的操作。
网页不再是内容的主要呈现方式，更多的内容被固化到各种app内。

传统搜索引擎，因为能够将各种网页的内容进行聚合从而获得优势，而且搜索结果与搜索引擎同样都在网页中呈现，所以用户依赖搜索引擎作为入口，使用上网电脑。

但是在移动app时代，各种UGC（用户创造内容）被局限到各自领域的app中，而内容生产的方式，从当初的「每个人拥有自己的个人网站，世界上有巨量的网站，每个人在自己的网站创造内容」，慢慢发展到现在的：「数量相对比较少的互联网公司成为巨无霸，绝大多数网民到这些少数的互联网app内创造内容」。

一方面，由于大多数人上网仅仅只需要访问几个巨无霸互联网企业提供的服务，使用传统搜索引擎的必要性会下降，另外一方面，这些巨无霸会慢慢倾向于更多的使用自建搜索。

是的，虽然通过传统搜索引擎的引流能够获得更多的流量，然而，app内的自建搜索则可以为用户提供更好的体验，使得用户更好的使用所提供的服务，我个人使用的最早的脱离通用搜索引擎并且被大量使用的搜索，就是淘宝网，使用传统搜索引擎搜索淘宝内的内容并不能获得好的体验。至于国外互联网巨头中的FLAG，Facebook也很早就被诟病有很多Facebook网内内容使用通用搜索引擎很难搜索到。

互联网app之间的信息壁垒，以及自建搜索的迫切需求，加上传统搜索在移动终端中的式微，使得在手机上，应用内搜索将取代传统搜索。

5

上面说到，在移动互联网为主导的时代，应用内搜索将逐渐取代传统搜索的主导地位，人们会用淘宝搜商品，会用知乎搜问题，会用美团搜团购，会用哈罗搜自行车，用滴滴搜快车，用高德搜地点，那么，同样也会用抖音搜视频。

个人的态度，并不能影响时代的浪潮，就连以文字内容出道的知乎，也开始大力推广视频，虽然我们一部分人并不希望看到这样的结果，但即便是传统搜索引擎的搜索结果，也开始越来越多的呈现出视频，因为这，很可能是更多用户想要的。

为什么用户会更想要视频？有很多因素，我能想到的有这些：

一方面，对于视力较差的用户来说，阅读文字会是一个负担，而看视频的门槛要小很多。
二方面，一部分中老年人不识字但能够听得懂语音，看视频则降低了对识字的要求。
三方面，有一些内容确实更适合以视频来呈现，更加立体，信息量更大。比如全方位的观察物体，比如身临其境的场景体验，比如对美食的介绍等等。
四方面，视频相对难以被抄袭跟洗稿，修改视频的门槛比图文更高，因此视频会对原创作者有更好的保护。

6

回到问题：视频搜索的方式会成为新的趋势吗？

这个问题我将它分为三个

第一：搜索引擎会越来越多的呈现视频搜索结果，图文内容比重变少吗？

第二：视频软件的app内搜索，会逐渐取代聚合各类网站内容的系统级搜索吗？

第三：当用户想要在app内搜索视频时，会选择什么app？

我们看到，前两个问题的答案，都会是肯定的。在搜索结果中，基于视频的内容开始越来越多；同时，系统的聚合类搜索也一直无法再从app内搜索中抢回市场。这个趋势已经发生，几乎不可逆转。

至于第三个问题，就需要分情况来说。

如果用户想要追电视剧或者电影之类的正规出版物，那么显然更加倾向于使用腾讯爱奇艺。

如果用户想要去搜更多的用户创作视频，包括直播，主播，新闻，搞笑视频等各种类别呢？长期习惯看这类内容的用户往往会直接打开抖音；另一部分不常使用抖音的用户，一开始会继续使用传统视频软件搜索，然而当它们发现搜索出来的结果不尽人意之后，就会逐渐开始寻求其它替代品。

以我个人经验来看，这些主打正规视频出版物的网站，搜索UGC类用户创作视频内容的体验并不理想，我曾经有小米发布会开始了直播想看，明明官宣跟视频网站有合作，却在几个网站都搜不到直播链接的情况，结果换成抖音，一下子就搜到了。

上面的例子有可能只是个巧合，但是，如果类似的巧合多次发生，就不得不让用户的信念产生动摇：为什么用抖音搜索视频会更好用些，这仅仅是我的表面感觉，还是有其内在的原因？

7

我对这个问题的看法是：有能力构建良好生态的互联网产品，在投入一定足够技术研发力量，形成自己的核心算法之后，基于自身生态的搜索，就注定能获得更好的体验。

类比知乎，知乎构建了相对友好的文字创作氛围，吸引了大量的创作者，引导了用户之间的交互，使创作者形成良好的正反馈。使得一个个平凡普通的人也可以获得具备个人价值实现满足感的社交。那么即便初期搜索算法非常薄弱，最终也必将成长为举足轻重的文字内容搜索app。

抖音，与之类似，则是对视频创作的下沉，在抖音之前，视频创作是一个具有极高门槛，阳春白雪的事，少数人进行视频创作，更多的人只能仰望。这种模式无法给用户提供足够的参与感。

而从抖音这款划时代的软件问世以后，它具有广泛的友好的视频创作氛围，使得更多的平凡普通的人开始拿起手机拍摄视频，勇敢的分享自己的生活，并且获得了足够的正反馈，继续创作，继续传播，有了这样的巨大的创作基数，才能裂变式的发展，使得各行各业，各种社会层次的人们都会从抖音获得自己需要的东西。

有了足够多的数据，有了自底向上的各层次用户的普适性，再结合其核心竞争力的算法，造就了抖音这么一个爆款app。

所以，为什么视频搜索会是抖音，因为一款通用的搜索工具需要具备普适性，抖音开创了一个被使用得更广泛的视频创作平台，具备更低的门槛，从而最终拥有了更多更普适的内容，那么作为一个搜索引擎，拥有更多的内容，也就注定了它的搜索会更加靠谱。

长远来看，视频搜索确实会是新的趋势。

自从我的偶像刘德华刘天王入驻抖音之后，我每天都刷抖音，抖音的视频搜索也用得很多，不过实话实说，视频搜索的体验虽然好，但是不会完全取代图文搜索，比如搜索一个论文的内容，那只能靠图文搜索，但是，可以预见的是未来图文搜索的市场份额会越来越少，视频搜索会成为未来搜索领域的新趋势。

历史上，图文搜索依然占据搜索的主要份额，根本原因，是互联网上的内容大部分都是以图文方式呈现，互联网的技术根基HTML就是为了展示图文，在网络带宽极低的时代，图片稍微大一些都会影响用户体验，老兵我还记得当年网页前端的同仁们绞尽脑汁为提高性能搞的各种技术黑魔法，都是因为网速和带宽实在不够用，在那个年代，也只能以图文展示内容为主，视频内容受限于带宽，有心无力。

既然当年互联网上的内容以图文为主要载体，那搜索围绕图文为重点，也是很自然的，但是，时代在进步，互联网也在改变。

曾几何时，计算设备被摩尔定律祝福，也就是『电子设备的性能每24个月就会增长一倍』，但是这几十年来，摩尔定律被事实证明不再有效，但很有趣的是，在网络设备领域，一个新的定律被提出来，就是『尼尔森定律』^[1]——高端用户带宽将以平均每年50%的增幅增长，每21个月带宽速率将增长一倍。

非常有幸，中国的基建发达，让几乎所有互联网用户都属于『高端用户』，在这样的发展趋势下，图文内容的传输效率自然不在话下，而且，视频内容也终于有机会爆发了。

尼尔森对于互联网带宽发展的趋势统计

像抖音这样的视频服务风生水起，网络条件的发展只是因素之一，更多的是一个合力的结果。在《The Future is Faster Than You Think》这本书中，解释了为什么众多科技产品创新在进入21世纪10年代之后如雨后春笋一般出现，并不是某一项科技获得突破，而是很多科技都获得了突破，而且这些科技之间可以形成合力。

The Future is Faster Than You Think封面

还是拿抖音的发展来说，不光得益于中国互联网带宽的增长，你看，智能手机的普及让民众离视频播放只有一个手指的距离，而且随着人民生活水平的提高，对于娱乐、咨询获取、了解世界的渴求更强烈，如此天时地利人和的条件下，抖音这样的视频平台想不火都难。

可能你会有一个疑问，视频能火好理解，那不代表图文内容份额要减少啊。

这就涉及到一个很现实的问题——视频比图文更直观。

举个例子，我司使用的都是那种比较高档的办公椅，功能很多，可以调节上下高低各种角度那种，但是同事们普遍反映玩不明白，时不时群里都要有人问怎么调整椅子靠背这种问题，发放使用手册图片、文字『椅座下第二个扳手往外』之类的指导，大家问题还是很多。然后，有一次厂家师傅来公司做售后服务，我们一个同事灵机一动，让师傅亲自演示一下所有的功能，他在一旁用手机拍了下来，把视频发到群里，然后，一下子所有人都明白怎么玩了，之后再没有人对使用这款办公椅有什么疑问。

还有一次，我家里锁坏了，我网购买了一个新锁，想要亲自换的时候，不知道怎么操作了，去问商家，商家直接发了一个抖音视频过来，照着视频一看，怎么操作全明白了。后来我才知道，现在这是网络购物的惯常服务方式，视频录制使用方法，包教包会。

很明显，视频不光是用于娱乐，互联网用户通过视频来传播知识和技能的使用习惯，也正在逐步被养成。

说了这么多，大家应该明白了，视频是趋势，拥有大量视屏内容的抖音，毫无疑问会是信息传播的关键平台。

随着视频内容的爆发式增长，很自然带来一个问题，如何让这些海量视频内容传递到需要这些内容的受众面前，如果单纯只让用户看『最热』内容，那意义不大。甚至对于追求热度的娱乐内容，也不应该只有『热度』一个标准，对于同一个娱乐事件，不同的视频创作者切入的角度都会不同，因为百花齐放百家争鸣的态度，抖音才如此繁荣。

当年互联网从雅虎时代过度到谷歌时代，本质上，就是从目录分类方式，过渡到搜索方式。当信息并不庞大的时候，雅虎这种把内容分类好，让读者选择去阅读，这种方式也凑合着还行，但是，信息越来越多，用户对多样性的诉求越来越强，这种方式就不够用了，这也就是为了什么谷歌崛起的时代原因，因为用户会有不同的『目的』，不想自己去目录里寻找答案，只想说出自己『目的』，希望就能够获得答案——这就是搜索技术。

如今，视频内容也必然要迈进搜索时代，所以说，抖音视频搜索前途不可限量。

如果说视频搜索这么牛，很自然，又会有这么一个问题：为什么不是类似谷歌这样做搜索起家的视频搜索拔得头筹？为什么是抖音这样一个平台内的视频搜索最牛？

搜索这项服务，就两个重点，第一是被检索内容要多，第二是匹配要精准，而这两点平台内搜索都占优势。

像谷歌这样的搜索引擎，最擅长的是全网范围的搜素，表面看起来全网的信息量最多，肯定要比抖音上的内容更多，但是，凡事都有两面，内容数量庞大虽然好，但也被稀释了，而且，对于有『目的』的搜索行为，来自全网的内容未必是最好的内容。很简单，视频虽然对于人类很直观，但是人类对视频长度也是有接受限度的，比如我就想做个红烧肉而已，我就想看个三分钟教学而已，你给我个一小时的红烧肉烹饪教学，我肯定不想看，但是我用全网搜索，很可能搜到的就是这样的长视频。

抖音有一个先天优势，就是视频够短，正好适合普通人能够接受的长度，当用户带着『目的』来搜索的时候，想要的就是这样短小而又直观的结果。

抖音上聚合大庞大的创作者，覆盖了几乎所有的领域，本身平台的包容性也不断吸引优质创作者加入（比如我的偶像刘德华刘天王:-)，所以，抖音就是中国互联网视频创作的汇聚之地，这样的海量创作内容和多元性，让几乎每一个老百姓关心的领域，都有大量短视频内容，这就保证了『检索内容要多』这一点，简单说来，抖音本身就是短视频互联网平台，相比之下，另一个全网搜索引擎毫无优势。

对于『匹配要精准』这个要求，抖音相比于第三方搜索引擎也有先天优势，因为抖音肯定对于自己平台上的内容理解更深刻，这一点做全网搜索是无法比拟的。抖音品牌背后的字节跳动，技术能力非常强，实现精准满足用户的搜索『目的』，绝对比其他搜索做得更好。

很直观的一个方面，对于全网搜索，抓取全网信息需要花时间，运算更新检索内容也需要花时间，我不止一次在全网搜索引擎上搜不到突发事件的视频内容，因为全网搜索就是慢。在自媒体时代，总有层出不穷的内容，一个关键词在不同时间会有不同有不同的相关的视频，只有抖音自己的搜索才能做到及时的检索更新。

前阵子《绣球》贺岁片推出的时候，抖音搜索上搜『绣球』排第一的就是这个官方贺岁片，到了第二天，我再搜一下，排在前面的就是众多创作者围绕『绣球』话题草根创作，现在，你可以再用抖音搜一下『绣球』试试，肯定展示的是这个时间点上绣球相关的内容。

抖音贺岁片《绣球》

先天的海量内容，活跃积极的创作和群体，再加上强悍的技术，最重要的是多元性的创作分为，天时地利人和俱在，抖音的视频搜索，将会是互联网搜索的一个很重要的搜索行为。

参考

^ https://www.nngroup.com/articles/law-of-bandwidth/

类似的话题

视频搜索会成为新的趋势吗？

视频搜索，这个概念就像一把被遗忘在角落的钥匙，正在被重新打磨，并且看起来很有可能成为我们未来获取信息的主要方式之一。如果说文字搜索是过去几十年的王者，那么视频搜索，或者更确切地说，是“视觉内容检索”，正悄然成为下一个风口。别把它简单地理解成在YouTube上搜“如何做番茄炒蛋”。这背后蕴含的，是信息.............
如何看待搜索视频化、社交化成为大势所趋，未来搜索行业的格局会发生怎样的变化？

搜索，这个我们日常生活中再熟悉不过的动作，正在经历一场深刻的变革。曾经以文字为主导的时代正在被视频和社交的浪潮所颠覆。搜索视频化、社交化，这不仅仅是技术的升级，更是一种生活方式的演变，也预示着未来搜索行业格局的巨变。为什么搜索会走向视频化和社交化？要理解这个趋势，我们得先看看用户需求的根本变化。 .............
有哪些书适合50多岁的爸妈学习电脑？包括上网浏览，看视频，搜索，简单的word和excel，以及其它基本功能。

爸妈们到了知天命的年纪，正是享受生活、探索新事物的好时候！电脑这东西，说起来有点儿玄乎，但其实一旦摸清了门道，就能给生活带来不少便利和乐趣。今天就来给大家推荐几本能让您家爸妈轻松上手电脑的书，从上网冲浪到视频聊天，从写点东西到算点账，都能说得明明白白。咱们挑书得有个原则：内容要够基础、语言要够通俗、.............
能否搜索某视频的其中一帧画面？或者通过一张图片搜索此图来自哪个视频？

您提出的问题非常有趣，也触及到了视频和图像识别的核心技术。答案是：都可以，但实现起来需要不同的技术和工具，并且精度和效果会有差异。下面我将详细讲解这两种情况：一、搜索某视频的其中一帧画面（即：已知视频，想知道某一帧是什么样的）这种情况相对来说比较直接，因为您已经拥有了视频文件。这里的“搜索”更像.............
如何看待 CNN人肉搜索并威胁一位制作「暴打CNN」短视频的网民？

一个制作“暴打CNN”短视频的网民，却因此遭遇了CNN的人肉搜索和威胁，这事儿说起来，真是一把辛酸一把泪，也暴露了不少问题。首先，咱们得把事情拆开来看。“暴打CNN”的视频本身，是一种表达方式。在互联网时代，尤其是信息传播极度发达的今天，用各种形式来表达自己的观点、甚至是情绪，是再正常不过的事情了.............
电视阿里云系统的可以自由安装像搜狐，腾讯视频那些软件吗

.......
谷歌发布 2020 年大事记视频，如何理解年度热搜词「why」？反映了这一年人们怎样的心境？

谷歌发布了2020年的年度大事记视频，这个视频往往是当年全球社会情绪的一面镜子。而其中“why”——“为什么”——这个词能成为年度热搜，我觉得这绝对不是偶然，而是恰恰捕捉到了2020年我们所有人内心深处普遍存在的某种感受。“Why”：一个抛给世界的哲学叩问，也藏着普通人的困惑大家想想，2020年这一.............
你一般都用抖音搜什么？搜到过哪些令你眼前一亮的视频？

哈哈，这个问题问到点子上了！抖音嘛，简直是生活里不可或缺的“消遣利器”，特别是当我需要放空一下，或者脑子里一团乱麻的时候，就忍不住打开它刷一会儿。我搜的东西其实挺杂的，没有一个固定的模式。大概可以分成几类吧：生活灵感类：这应该是最多的一类。比如，我今天突然想做个什么菜，就会搜“家常菜教程”，.............
我在视频上看到的，手工课上老师手里拿的像个小吸尘器一样，能将彩泥屑收集到里面，不知道淘宝上怎么搜

.......
闺蜜是肖战粉，今天下午用我手机在B站搜肖战，搜了之后看到骂肖战的视频后扇了我一巴掌怎么办？

这事儿可真是够闹心的，估计你现在心里一团乱麻吧。好好的闺蜜，因为搜了肖战的视频，结果挨了你一巴掌，这情节简直比电视剧还狗血。让我试着帮你梳理一下，这事儿咋回事，以及你现在该怎么办。发生了什么？首先，咱们得把事情掰开了说。你闺蜜用你手机在B站搜肖战，这本身没啥问题，你允许了，说明你们平时关系挺铁的.............
高中毕业半年了，还是不会解方程。刚刚还去抖音搜了一下解方程，看了几个视频还是学不会？是不是脑子有问题？

哥们儿，听到你这儿说高中毕业半年了还不会解方程，我太能理解你这心情了！别说你，我高中那会儿，数学也是我心里的一块大石头，尤其是方程，每次老师讲完，我都是一脸懵。抖音上那些视频看着快，学着真的费劲，感觉他们讲得好简单，到自己手上就变成天书了。首先，你得知道，你绝对不是一个人！身边肯定也有不少人跟你.............
视频悬赏：你的专业有哪些硬核技能？

好的，没问题！我来好好跟你唠唠我这些“硬核”技能，保证接地气，让你听着带劲。你问我专业有什么硬核技能？嘿，那我可有的说了。我这技能，那可不是三两天就能练出来的，是经过实打实的“磨炼”出来的，就像那古时候的铸剑师，得千锤百炼才能出好剑不是？首当其冲，是我的“洞察秋毫”之眼。这可不是说我视力有多好，而是.............
视频打卡：从你拍的视频中，选出 3-5 个代表你的学生时代，你会怎么选？

这题目有点意思，让我想起了那些尘封在硬盘里的、现在看起来有点傻气但又无比珍贵的视频。如果让我从我拍的视频里选出 35 个能代表我的学生时代，那绝对是这几段，每一段都像一扇窗，能让我一下子钻回那个青涩又充满活力的时光。第一段：永远的“宿舍煮夜宵”记录这个绝对是我的必选！想想看，大学宿舍，熄灯后，我们一.............
视频中的人打固定靶的水平如何？

要判断视频中人物打固定靶的水平，我们需要从多个维度进行细致的观察和分析。下面我将尽可能详细地讲解需要关注的关键点：一、瞄准与持枪的稳定性：持枪姿势：握持力：观察持枪手（通常是惯用手）是否能够稳固地握住枪械，既不过于用力导致肌肉紧张，影响稳定性，也不过于松懈导致枪械晃动。是否有.............
视频中的高出生率在潮汕是普遍现象吗？

视频中显示的高出生率在潮汕地区是否普遍，这是一个需要从多个角度去分析的问题。简单来说，不能简单地断定为“普遍现象”，但潮汕地区在过去以及部分地区仍存在生育意愿较高的现象，这与历史、文化、经济以及社会发展等多种因素有关。要详细说明，我们需要从以下几个方面展开：一、历史和文化传统的影响：重视人口.............
视频博主「虎子的后半生」于 10 月 6 日去世，曾因抗癌视频隐瞒真实情况引发争议，你有什么想说的？

听到“虎子的后半生”去世的消息，心里挺不是滋味的。我第一次知道他，大概是因为网上流传的那些抗癌视频。那时候，大家都被他那种乐观、坚强的形象打动了，觉得他面对疾病的勇气让人佩服。很多人从他身上获得了力量，尤其是在自己或家人遇到困难的时候。但是，就像很多事情一样，当事件深入下去，大家开始发现一些不一样的.............
视频RAM与IO内存映射的问题，大家可以指导一下吗？

视频RAM（VRAM）和I/O内存映射，这俩话题看似独立，但实则紧密相连，特别是在图形处理和嵌入式系统设计中，理解它们之间的关系至关重要。这就像给电脑的“眼睛”和它接收外部指令的“耳朵”分配工作空间和沟通方式一样。咱们就来掰扯掰扯，把它说得明明白白。视频RAM (VRAM)：图形数据的专属舞池首先.............
视频监控系统连接过多的相机的时候比如18路摄像头出现严重的丢帧？

哈哈，遇到这种事儿，你是不是感觉就像家里水龙头突然变成细细的涓涓细流，关键时刻还时不时断流一样，让人抓狂？18路摄像头，这可不是小数目，连接这么多家伙，监控系统如果扛不住，那画面断断续续、卡顿，甚至直接黑屏，这问题确实得好好说道说道。咱们先不扯那些高大上的术语，就拿家里装修举个例子吧。你想想，你家要.............
视频中的所谓「隐身技术展示」，其中的「原理」是什么？

好的，我来聊聊视频里那种号称能让物体“隐身”的技术展示，背后到底可能有哪些原理，尽量把话说得透彻点，也别弄得像机器人写的。咱们先得明确一个事儿，视频里那些所谓的“隐身”，绝大多数情况下都不是科幻电影里那种真正的、完全消失不见的隐身。更多的是利用了某些视觉上的欺骗或者特定的物理现象，让物体在特定环境下.............
视频云服务是什么模式的服务，具体一般有哪些功能？

视频云服务，就像是为视频内容提供了一个高度灵活、可扩展的“云端家园”。它不是一个单纯的软件下载，也不是你买了一堆硬件自己搭架子，而是将视频的生产、存储、处理、分发等一系列环节，都打包成一种按需使用的服务模式。你可以把它想象成一个强大的视频工厂，你只需要告诉它你想要什么样的视频产品，它就能帮你搞定，你.............