原文作者 Andy Pavlo 是卡內基梅隆大學電腦科學系資料庫專業副教授,也是初創公司 OtterTune(為資料庫提供自動調優服務)的聯合創始人。
資料庫產業經歷了爆發式增長的一年。在這一年裡,資料庫產業後浪推前浪,廠商圍繞效能測試結果展開角逐,更有一輪又一輪額度驚人的融資。同時,在經歷了一系列併購、破產和退出之後,我們也不得不同一些熟悉的資料庫告別。
年關將至,在正式進入 2022 年之前,這些事件也值得我們做一次盤點、總結與反思。以下是部分要點事件。關於它們在資料庫領域的意義,我做的一些思考。
PostgreSQL 的統治力
開發者的習慣已經轉變,PostgreSQL 成了新應用的首選。它可靠性高,功能豐富且依然在持續完善中。2010 年,PostgreSQL 的開發團隊轉而採用了更為激進的釋出策略,每年進行一次大的版本更新(感謝 Tomas Vondra)。當然 PostgreSQL 還是開源專案。
如今很多系統都把相容 PostgreSQL 作為差異化競爭力。這種相容性是通過支援 PostgreSQL 的 SQL 方言 (DuckDB),傳輸協定 (QuestDB, HyPer),或者整個 Server 層前端 (Amazon Aurora, YugaByte, Yellowbrick) 來實現的。重量級玩家也已經入局。十月,谷歌宣佈在 Cloud Spanner 中相容 PostgreSQL。同樣是在十月,Amazon 宣佈了 Babelfish 的功能,它可以轉換 SQL Server 的查詢,用於 Aurora PostgreSQL。
DB-Engines 排行榜是衡量資料庫流行度的標尺。這份排行不是十全十美的,評分也帶有主觀色彩。但它評選出的前十名還是基本合理的。排行榜顯示,截止到 2021 年 12 月,PostgreSQL 在最受歡迎的資料庫中仍舊位列第四,排在 Oracle 、MySQL 和 MSSQL 之後。不過,在過去一年裡它與 MSSQL 之間的差距已經縮小了。
另一個值得思考的點是 PostgreSQL 線上上社群中被提及的頻次。這為我們提供了另一種視角,讓我們窺見當人們討論資料庫時他們究竟在討論什麼。我下載了 2021 年度 Reddit 中 Database 板塊上的所有評論,並清點了各個資料庫名稱在其中出現的頻次 (當然我是用 PostgreSQL 做這項工作的)。我從我的 Database of Databases 中交叉參照了我瞭解的所有資料庫的列表,對縮寫做了清洗(例如, Postgres → PostgreSQL, Mongo → MongoDB, ES → Elasticsearch),最後計算出了十個最常被提及的 DBMS:
當然這張排名表沒那麼科學,因為我沒有對這些評論做情感分析。然而,它確實清晰地展現出,在過去一年裡,相較於其他資料庫,PostgreSQL 被人們提及的頻次要更多。經常有開發者發帖詢問該選擇哪一個 DBMS 來開發新應用。社群成員對此的回答幾乎總是 PostgreSQL。
Andy 觀點
先要說明,一個關係型資料庫成為待開發應用的首選是件好事。這說明 Tedd Codd 的關係模型自上世紀七十年代長盛不衰。其次,PostgreSQL 是個偉大的資料庫系統。當然,和其他所有 DBMS 一樣,它也有各種已知和未知的問題。但 PostgreSQL 已經贏得了如此之多的注意,人們也在其上灌注了許多精力。在這兩點的加持下,它只會發展得越來越好。
效能測試亂戰
這一年,各個資料庫廠商對效能測試結果的熱愛沒有絲毫消退。從上個世紀八十年代起,它們就試圖證明自己的資料庫系統要快於競爭對手的產品。TPC 就是在這一背景下建立的。它為資料庫間的比較提供了一個客觀公允的平臺。但在過去十年間,TPC 的影響力逐漸消退,普及度漸漸下降。於是如今,我們又被捲入了新一輪的資料庫效能測試大戰中。
這一年,圍繞效能測試結果展開了三場激烈爭鬥。
Databricks vs.Snowflake
Databricks 宣佈他們的新 Photon SQL 引擎在100TB TPC-DS 上創下了新的世界紀錄。Snowflake 隨即回擊,聲稱自己的資料庫要二倍於這個速度,而且 Databricks 沒有正確執行 Snowflake。Databricks 予以反擊,宣稱他們的 SQL 引擎有著最佳的執行效率,價效比也高於 Snowflake。
Rockset vs.Apache Druid vs.ClickHouse
ClickHouse 跳了進來,表示自己在成本效率上完勝 Druid 和 Rockset。但先別急:作為迴應,Imply對 Druid 的新版本進行了一系列測試,並宣告了勝利。Rockset 插進來,聲稱自家產品在實時分析方面的表現要優於另外兩家。
ClickHouse vs.TimescaleDB
Timescale 嗅到了血腥氣,下場參戰。他們釋出了自己的效能測試結果,逮到機會指出了 ClickHouse 技術上存在的弱點。有關第三方效能測試的討論成了 Hacker News 的熱門。
Andy 觀點
在先前的效能測試爭奪戰裡,資料庫社群已是血流漂杵。我承認我也曾熱衷於此。但在爭吵中我失去了很多朋友。有一次,我甚至因為亂七八糟的效能測試結果和女朋友分了手。年歲漸長之後,我可以說這一切都不值得。
現如今,要在不同的系統之間做對比變得更加困難。因為雲 DBMS 有許多可變的部分和可調節的選項。所以,要斷定表現差異背後的真實原因通常會很困難。真實場景下的應用也不僅僅是在一遍又一遍地執行同一條指令。錄入、變換和清洗資料時的使用者體驗和乾巴巴的效能測試結果同等重要。正如我在此文中和採訪者談論 Databricks 的效能測試結果時說的那樣,只有老古董才會在意 TPC 官方資料。
巨量資料,大投資
從 2020 年下半年開始,額度超過 1 億美元的融資輪數一直在平穩增長。2020 年共有 327 次這種大額融資。這佔據了近半風險投資總交易額。在 2021 年 1 月,一億美元以上的風投輪數已經過百。
2021 年,許多投資都流向了資料庫公司。在事務型資料庫領域,CockroachDB 領跑募資大賽。CockroachDB 開年即進行了一輪 1.6 億美元的融資,並在 2021 年 12 月募資高達 2.78 億美元,為這一年畫上句號。Yugabyte 則完成了 1.88 億美元的 C 輪融資。作為 Vitess 的託管版本,PlanetScale 開啟了 2000 萬美元的 B 輪融資。NoSQL 的擁躉,相對較老的 DataStax 也在一輪風投中為他的 Cassandra 生意募集到了 3760 萬美元。
這些數位已經很讓人印象深刻了,然而分析型資料庫的市場甚至要更加火熱。2021 年 9 月,TileDB 完成了一輪融資,未透露具體金額。 為他們相容 Kafka 的流式平臺募集到了 1500 萬美元。StarTree 也走到臺前,宣佈完成了一輪 2400 萬美元的融資,用以商業化 Apache Pinot。matviews-on-steroids DBMS Materialize 宣佈他們在 C 輪融資中募集到了 6000 萬美元。Imply 為基於 Apache Druid 的資料庫服務籌集到了 7000 萬美元。SingleStore 在 2021 年募集到了 8000 萬美元,這讓他們離 IPO 又近了一步。這一年伊始,Starburst Data 為 Trino 系統(前身是 PrestoSQL)募集了 1 億美元。另一家走到臺前的 DBMS 創業公司 Firebolt 宣佈他們為自己基於 ClickHouse 分支的新型雲資料倉儲募集到了 1.27 億美元。ClickHouse 募集到了驚人的 2.5 億美元,用以圍繞該系統建立一家新公司,同時也取得了對 Yandex 名下 ClickHouse 這一名稱的使用權。
但今年,當之無愧的融資冠軍要屬 Databricks。它以在 2021 年 8 月高達 16 億美元的融資額力壓群雄。
Andy 觀點
我們正處在資料庫的黃金時代。如今我們有許許多多優秀的選擇。投資人正在資料庫領域的創業公司中尋求下一個 Snowflake 式的 IPO。這些公司的融資額要遠超先前的資料庫創業公司。
舉例來說,直到 D 輪融資,Snowflake 的單輪融資額才達到了 1 億美元。此時距它初創已經過去了五年。而 Starburst 在成立的三年內便完成了一輪 1 億美元的融資。當然影響融資的因素有很多。比如說,在脫離 TeraData 出來創業之前,Starburst 的團隊就已在 Presto 上躬耕多年。但在我看來,現如今有更多的資金正在湧向這一領域。
紀念堂
很遺憾,在過去的一年裡,我們不得不向幾位老朋友說再見。
ServiceNow 收購了 Swarm64
這個公司最初的產品是一款 FPGA 加速器,用以在 PostgreSQL 上執行分析任務。之後,他們轉向了單純的軟體加速器,為 PostgreSQL 提供外掛。但他們缺乏持續發展的動力,尤其是相比其他資金充裕的雲資料倉儲。在被 ServiceNow 收購後,Swarm64 的產品前景仍不明朗。
Splice Machine 破產了
Splice 推行的是一個混合型 DBMS。它結合了針對事務型任務的 HBase 和針對分析的 Spark SQL。他們更進一步推出了服務於操作型/實時機器學習應用的平臺。然而,由於專門的 OLTP 和 OLAP 系統的統治地位,這樣一個多位一體的混合系統沒能在資料庫市場開闢出一條道路。
私募公司收購 Cloudera
過去五年,MapReduce 和 Hadoop 技術漸漸為潮流所拋棄。因此,Cloudera 也同樣失去了在雲資料倉儲市場發展的動力。Impala 和 Kudu 的初代工程師團隊大多都已經離開公司,儘管這些專案依舊在持續開發並迭代新版本。它的當前股價已經低於 2018 年 IPO 時的發行價。它的新投資人是否有能力扭轉公司局面還有待觀望。
Andy 觀點
看到資料庫專案和公司走上下坡路總歸讓人傷心,但這就是資料庫產業內部的廝殺博弈。開源也許能讓一款 DBMS 在母公司消失之後也能繼續存在,但事實並不總是如此。由於資料庫本身的複雜性,它必須要有全職員工進行維護,修正 bug 並新增新功能。不是說把破產 DBMS 的原始碼許可權和控制交到 Apache 軟體基金會和 CNCF 這樣的開源軟體基金會手中,這個專案就會奇蹟般復活了。
舉例來說,公司破產後,RethinkDB 被捐贈給了 Linux 基金會。但從 GitHub 的各項表現看,它已經死透了(基本沒有提交,PR 也不併入)。有類似遭遇的還有 DeepDB:它的母公司在倒閉後為它創立了自己的非盈利基金會,但沒有人再去維護這個專案了。在下一年裡,預計還會有更多的資料庫公司因無力與大型雲服務商和之前提到的眾多資金充裕的創業公司抗衡而走上下坡路。
野火燒不盡
對很多人來說,疫情期間是段艱難的時光。在聽到了這麼多壞訊息後,突然有個振奮人心的故事總能讓人倍感欣慰。眾所周知,甲骨文聯合創始人 Larry Ellison 近幾年的運氣一路下滑。2015 年的時候,他氣運還不錯,那時他是世界上第五富有的人。然而人生起起伏伏。到了 2018 年,Larry 在富豪排行榜上已經跌到了第十位。
但在 2021 年 12 月,一切都變了。Larry Ellison 的身家超過了谷歌聯合創始人 Larry Page 和 Sergey Brin,重回世界第五富的位置。2021 年 12 月,在公佈了超預期的公司收入後,甲骨文的股價經歷了過去二十年來的單日第二高漲幅,Larry Ellison 當天掙到了 160 億美元。媒體將這歸功於投資人高漲的信心。他們相信甲骨文向雲端轉變的策略起效了。
Andy 觀點
我和 Larry 相識已久。不管對於資料庫社群,還是對於全體人類來說,這都是件好事。運氣不好滑到世界第十富的時候他可能有點傷心。但我很高興能看到他走出低谷,重新回到應有的位置上去。
除了家人,資料庫是我生命中最重要的事情。
我們期望能夠引領嶄新的一年。資料庫是一個有著高度韌性和創新性的行業,我們很高興能成為其中的一份子。
作者:Andy Pavlo
原文連結:
譯文經授權轉載自