开源数据库这么香，为什么我们还要下功夫自研？

开源数据库的魅力，确实是挡不住的。它们就像一个巨大而开放的宝库，汇聚了全球顶尖的技术人才智慧，不断迭代更新，性能、功能、生态都在飞速进步。对于大多数企业来说，直接选用成熟的开源数据库，比如PostgreSQL、MySQL，或者它们的衍生版本，确实能够极大地降低技术门槛和开发成本。你只需要花点时间和精力去学习如何使用、管理和优化它们，就能享受到强大的数据存储、查询和事务处理能力。而且，开源社区的力量是惊人的，遇到问题，你很容易就能找到解决方案，各种插件、工具层出不穷，能满足你八九不离十的需求。

那么，为什么我们还要费力去投入资源，冒着风险去自研数据库呢？这背后其实是一系列更深层次的考量，往往关乎到一个企业的核心竞争力、战略定位以及对未来的规划。

首先，核心业务的独特性和极致性能追求是一个绕不开的理由。很多时候，企业的核心业务场景并非完全可以用通用的数据库来完美适配。比如，某些金融交易平台需要处理海量的小额、高并发事务，对延迟的要求到了毫秒甚至微秒级别，并且对数据的强一致性有着近乎苛刻的要求。通用的开源数据库虽然强大，但在某些特定的、极端的数据访问模式下，可能无法提供最优化、最极致的性能表现。自研数据库，可以从底层存储引擎、索引结构、查询优化器、并发控制机制等各个环节，针对自己业务的特点进行深度定制和优化，就像量体裁衣一样，将数据库的每一个字节都榨干，以达到最佳的运行效率。

其次，数据安全和合规性的考量同样至关重要。对于一些涉及国家安全、核心机密或高度敏感个人信息的行业（例如国防、电信、某些金融领域），对数据的控制和保护是第一位的。即使是开源数据库，其底层代码也可能存在一些你无法完全掌控的“黑箱”。而自研数据库，意味着你可以从源代码层面进行完全的审查、加固和审计，确保没有隐藏的安全漏洞，并且可以根据特定的合规性要求（比如某些国家的数据主权规定）来设计和实现数据的存储、传输和访问策略。这种“白盒”式的控制，能给企业带来无可比拟的安全感和合规保障。

再者，自主可控和避免生态锁定也是一个战略性的考量。当你的业务高度依赖某个特定的开源数据库时，你就不可避免地会受到该数据库版本迭代、社区发展方向、甚至商业支持情况的影响。如果未来该数据库的 licencensing 政策发生变化，或者社区发展出现重大转向，你的整个技术栈都可能面临巨大的风险。自研数据库，虽然初期投入巨大，但却能让你掌握核心技术的主导权，不受制于人。你可以根据自己的战略规划来决定数据库的发展方向，拥有完全的自主权，为企业的长远发展奠定坚实的基础。

此外，创新和差异化竞争也是自研的动力之一。技术本身就是一种重要的竞争壁垒。如果你的企业不仅仅是想提供服务，而是想通过技术本身来颠覆行业、创造新的价值，那么在数据库这个底层核心技术上有所突破，就显得尤为重要。通过自研，你可以尝试一些前沿的数据库技术，比如新型的数据模型、分布式一致性算法、内存计算技术等，将这些创新融入到数据库的设计中，从而打造出在性能、功能或特定应用领域具有独特优势的产品，形成差异化的竞争能力。

当然，还有一些更实际的原因。比如，现有的开源数据库可能无法满足你对某种特定数据类型（如时序数据、图数据、向量数据）的深度处理需求，或者对分布式架构下的数据一致性模型有非常特殊的偏好。在这种情况下，自研才能提供最贴合需求的解决方案。

总而言之，选择开源数据库是大多数企业的明智之举，它高效、经济且充满活力。但对于那些追求极致性能、看重数据安全与自主可控、渴望技术创新驱动的企业来说，深入到数据库的底层进行自研，虽然荆棘丛生，但却是一条通往更广阔天地、掌握核心竞争力的必由之路。这不仅仅是技术能力的体现，更是企业战略远见和对未来负责任的承诺。

网友意见

自研数据库的绑定效应非常强，一旦你用了某个数据库，尤其是被他的非标功能给绑定之后，你的迁移成本非常高。为什么早年微软压根懒得在中国告盗版的人，他基本上任由什么雨林木风出盗版安装盘，因为所有人都用了微软之后，他有的是机会赚你的钱。

现在自研的云数据库，你一旦上云，基本就下不来了，然后云数据库厂商就能躺着赚钱了，所以现在很多人都想着做这个生意，所以就拼命给你洗脑，说你的数据很重要，千万不能丢，而且要上云，但是其实你上云之后，对于云厂商来说大部分时候就是个存储成本，但是你却要按时付钱。

所以如果你有商业需求，对于数据库上云，千万千万慎重，千万不要被什么你的数据比你花的钱贵多了的话给洗脑，数据库宁愿花钱请个运维，也尽量不要上云，然后尽量用开源的，千万不要被某些厂商的非标特性绑定。

而对于所谓的自研，其实大部分也是开源的版本修改来的，比如在hbase上架一个sql，或者采用mysql的引擎，然后进行分布式化，类似在前端做一个分流。

如果你们今天看看国内各大厂商的db，就会发现搞宣传的人，远比开发的人名头响，反而真正有真实需求的库，比如腾讯的微信的数据库，不是圈子里的人，压根就不知道他怎么搞的，他也不会对外售卖，那些叫的响的，卖名头的，全部都是骗你上云的。

所以如果你都用开源的了，那些云厂商还怎么赚你的钱，所以就给你洗脑要用他们自研的，但是你们看看他们自研的内容是什么，他们压根不会去自研innodb或者myisam这个引擎level的东西，他们研究的是怎么在这些开源的核心上加上各种神奇的非标功能，绑定你，让你走不了。

所以数据库宁愿花钱请运维，也千万别上云。

看评论，好多人问到tidb这个事情，说明现在大家很灵敏呀，可能是因为受到巴菲特投资snowflake的影响，最近tidb的势头很猛，我个人的话，还是有点看好tidb的，很简单的一个事情，就是别的产品，比如阿里的polardb跟xdb（现在好像xdb被polardb吃掉了，改名叫做polar-xdb），然后华为的gauss db，他们其实都是在做加法，就是我前面说的，他们的想法是在传统数据库比如mysql跟postgre上做一层分布式，但是其实引擎他是不管的，你们可以看看，阿里对外宣传polardb的ppt，上面各种眼花缭乱的功能，什么水平扩展了，什么主备切换了，还有什么ai管理了（其实数据库领域有点怕ai的，ai一旦crash，基本就是down机），但是他的引擎是mysql的引擎，然后华为的是postgre的引擎。

但是tidb的引擎是kv（他们自己说是rocksdb，不过不知道能不能用别的kv引擎），比较干净清爽，就是他一开始是做减法的，就是把引擎设计的非常干净，就是列式存储，外部的功能我可以根据具体需求慢慢加，而且他甚至可以把具体需求分的很清爽，就是说我可以把外部功能做的模块化，针对某个特定场景，我可以加模块123，针对另外的场景，我可以加235这种。

一般来说，如果一个东西过于复杂，他最后影响的是工程管理上的迭代，比如说pg的sql优化模块，做到今天，他已经成为一个没什么人敢动的模块了，他的commit基本上就是那么固定的几个人，所以一个优秀的产品，他更多的是要能够在工程管理上实现可管理，最好能够横向扩展。就是基本上来说，你如果看一个系统的设计想法，他的内核越清爽越好。

所以实际上你们可以看一看，就是采用了mysql做引擎的分布式db，他们在一开始迭代的时候，就已经有一个基本功能完备的库了，所以一开始的时候，他们在快速迭代上面是占优势的，但是随着开发的不断进行，上层模块变得越来越复杂，工程管理上就开始有点吃劲了。

至于具体的tidb的问题，请问 @Ed Huang

类似的话题

开源数据库这么香，为什么我们还要下功夫自研？

开源数据库的魅力，确实是挡不住的。它们就像一个巨大而开放的宝库，汇聚了全球顶尖的技术人才智慧，不断迭代更新，性能、功能、生态都在飞速进步。对于大多数企业来说，直接选用成熟的开源数据库，比如PostgreSQL、MySQL，或者它们的衍生版本，确实能够极大地降低技术门槛和开发成本。你只需要花点时间和精.............
统计局表示「1 至 2 月份全国房地产开发投资增长 3.7% 」，这一数据说明了什么？

统计局发布的“1至2月份全国房地产开发投资增长3.7%”这个数字，细细说来，能解读出不少门道。它不仅仅是一个简单的百分比，而是反映了当前我国房地产市场的一个重要侧面，也为我们理解宏观经济走势提供了一个视角。首先，增长3.7%本身是一个积极的信号，但需要结合具体情况来看待。积极的一面：相较于可.............
电脑在开机后会扫描软盘的第一个扇区，如果最后两个字节符合要求，就将这个扇区的数据载入内存。问？

在电脑启动过程中，有一个非常古老但至今仍被许多系统遵循的步骤，那就是检查软盘的第一个扇区。这就像是电脑在启动时，第一眼看向的是一个名叫“启动盘”的“信封”，而这个信封的最顶端就藏着启动的“钥匙”。具体来说，当你的电脑按下电源按钮，内部的硬件开始一系列自检（POST，PowerOn SelfTest）.............
怎么家里电热水壶都烧成这样了。漏电开关都不跳闸。是不是家里漏电开关安数不对还是坏了？

.......
媒体称美军在喀布尔机场向阿富汗平民开火，已致数人死亡，目前情况如何？为什么美军会采取这样的行动？

关于美军在喀布尔机场向阿富汗平民开火的事件，目前的情况和背景需要结合2021年美军撤离阿富汗期间的历史事件进行分析。以下是详细梳理：事件背景与经过1. 时间与地点 2021年8月25日至26日，美军在阿富汗喀布尔机场进行撤离行动时，与阿富汗政府军和塔利班武装发生激烈冲突。机场是美军撤离的关.............
美媒称数名特朗普政府官员已经悄悄开始接触拜登团队，这透露出什么信号？

美媒近日爆出，有数名特朗普政府的官员已经私下与拜登团队接触。这个消息一经传出，立刻引发了各方解读，其中透露出的信号是多层次且颇具深意的。首先，这反映了美国政治生态中一种“求生”和“趋利避害”的本能。无论这位官员在特朗普政府中担任什么职位，他们都清楚权力交接的现实。在权力天平开始倾斜、新政府即将上台.............
如果吴亦凡一开始被锤，就主动打数倍远高于受害人要求的赔偿金。并认真公开道歉悔过，他还会是这个结局吗?

这是一个很有趣的假设，我们来详细探讨一下如果吴亦凡在“被锤”之初就采取了您设想的行动，他的结局是否会不同。分析核心假设：1. 主动打数倍远高于受害人要求的赔偿金：这意味着吴亦凡愿意在法律程序或私下协商中，支付比受害人实际损失或期望更高的金额。2. 认真公开道歉悔过：这不仅是形式上的道歉，而是.............
如何看待曾数万人排队的茶颜悦色深圳快闪店，开业 5 个月后撤店？作为流量担当，这对深圳文和友有何影响？

盛宴退潮，余味几何：茶颜悦色深圳快闪店五年之约未满，文和友的“流量收割机”是否熄火？在深圳这座追求新潮与速度的城市，一场关于奶茶的狂欢曾在此上演。茶颜悦色，这个来自长沙、以其独特的国风门店设计和口味“颜值并存”的品牌，在2021年登陆深圳时，引发了前所未有的排队盛况。其中，位于深圳文和友的快闪店更是.............
TCL电磁炉型号是TCH2022，各组电压正常一开机数码管显示从小到大加热功率瓦数后就自动关机这种故障如何修

.......
为什么几乎所有的开源数据库中间件都是国内公司开源的？并且几乎都停止了更新？

这个问题其实包含了一个普遍存在的误解，需要我们细致地梳理一下。事实是，开源数据库中间件并非“几乎所有都是国内公司开源的”，而且许多重要的、广为人知的开源数据库中间件，其最初的开发者和主要贡献者恰恰是国外的公司和社区。并且，这些项目很多依然保持着活跃的更新和发展。不过，您提出的“国内公司开源，并且.............
淘宝研发的 OceanBase 相比其他开源的 noSQL 数据库有什么独特的优点？

淘宝研发的 OceanBase 相比其他开源的 NoSQL 数据库，确实拥有一些独特且显著的优势，尤其是在处理高并发、高可用、分布式事务和金融级稳定性方面。下面将详细阐述这些优势：1. 原生分布式架构，实现真正的高可用和弹性伸缩超越传统复制模型：许多传统的 NoSQL 数据库（如 Mongo.............
关于开发app的数据库搭建，我自己购买了阿里云服务器

.......
国家免费开放「国家法律法规数据库」后，对律师行业有什么影响？对非律师行业的普通人呢？

国家免费开放「国家法律法规数据库」：重塑法律认知与行业生态国家免费开放「国家法律法规数据库」无疑是一件意义重大的事件，它如同打开了一扇通往法律殿堂的大门，不仅深刻影响着律师行业，也为广大普通民众带来了前所未有的便利与机遇。这场信息公开的浪潮，正在悄然重塑着我们对法律的认知，以及法律服务市场的格局。对.............
为什么新的分布式数据库又开始支持关系模型了？

你观察到的现象很有意思，而且确实是当下分布式数据库领域一个相当显著的趋势：许多新型分布式数据库，在经历了早期对NoSQL模型（如键值、文档、列族、图）的探索和推广之后，又开始悄悄地或者公开地拥抱了关系模型。这背后其实是多种因素交织作用的结果，与其说是一种“倒退”，不如说是一种“成熟”和“回归本质”。.............
请问刘知远老师提供的网易新闻标注数据集开源吗？

您问的是刘知远老师团队发布的网易新闻标注数据集，对吧？这是一个非常好的问题，也是很多 NLP 研究者和爱好者关注的焦点。关于数据集的开源情况，我的了解是：是的，这个网易新闻标注数据集是公开提供的，并且是开源的。您可以将它理解为是刘知远老师团队在进行相关研究时，公开发布出来供大家学习、复现和进一步研究.............
个人开发web应用，从需求设计，界面设计，数据库设计，API设计等，好的开发流程是怎么样的？

个人开发 Web 应用，从需求到上线的完整流程，可以参考以下详细的步骤，这套流程旨在帮助你系统地思考和执行，提高开发效率和最终产品的质量。核心理念：迭代与反馈在整个流程中，请记住“迭代”和“反馈”是关键。不要试图一步到位完成所有事情，而是将项目分解成小模块，逐步完善，并不断寻求反馈来改进。第一阶段：.............
三维数据统计分析和可视化都有哪些优秀的开源项目？

探索三维数据世界的利器：优秀的开源项目深度解析三维数据的统计分析与可视化，是理解复杂空间信息、挖掘隐藏模式、甚至驱动创新设计的关键。在开源社区的蓬勃发展下，涌现出了一批批功能强大、社区活跃的优秀项目，为我们打开了通往三维数据世界的大门。今天，我们就来深入探索这些项目的魅力，看看它们是如何帮助我们进行.............
自学安卓，请问开发安卓app的话，使用阿里云的云数据库和存储服务的话是不是就不需要学习服务器编程了

.......
centos7系统开发的app程序在阿里云上面请问怎么才能把文件和数据库分别保存下来

.......
阿里云的云服务器ECS和云数据库RDS还有GPU服务器有啥区别，最近想开发个app，不知道用哪个？

.......