他是阿里頂尖科學家,扛起國產分散式資料庫大旗,效能超Oralce 20倍!

2020-10-02 11:00:06

點選「技術領導力」關注∆  每天早上8:30推播

作者| Mr.K   編輯| Emma

來源| 技術領導力(ID:jishulingdaoli)

2020年5月19日,OceanBase跑分結果出爐,以707351007分的成績,拿下這個領域的世界第一,是 Oracle 2010年紀錄的23倍,單位效能的成本也猛降至3.98元人民幣,只有Oracle的三分之一。

整個科技界為之沸騰,阿里OceanBase研發團隊歡呼雀躍,這是他們耗費了10年的青春和熱血、無數個日夜的汗水和努力換來的結果。這背後有著怎樣不為人知的故事呢?也許只有一個人是最清楚的。

他就是OceanBase創始人,陽振坤,阿里花名--正祥。

正祥是位頂尖科學家,跟那些成名已久的阿里技術大神相比,正祥顯得格外低調。他是首批長江學者,國家科技進步一等獎得主,王選院士的愛徒,鐳射照排技術的重要貢獻者,中國分散式計算的推動者。

每一項榮譽都足以在讓他中國科技發展史上,留下濃墨重彩的一筆,但是他很少對外界提及。

圖片來源網路,版權歸作者

01

成為王選院士高足

因為「想做點不一樣的」,選擇離開北大

1984年,正祥考入北京大學數學系,碩士師從張恭慶院士,後來因為興趣,轉向計算機領域,師從王選院士,讀完了博士。

他修完大學課程只用了 3 年,碩士只用了一年多,成為王選院士博士生的時候他只有 24 歲。

1995 年,他跟團隊的研究成果,獲國家科技進步一等獎,1997年他被破格晉升為教授, 那年他32歲。

然而,不安於現狀的個性,讓他毅然選擇離開北大,投身工業界,在他看來那裡有著廣闊的天空,任由他翱翔展翅。

2002年,離開北大/方正的時候,正祥內心很清楚自己必須要「做點不一樣的事情」。

他先是加入聯想研究院擔任首席研究員,負責無線通訊領域的研究。

2006年,進入微軟亞洲研究院,開始接觸到分散式系統這個領域,在微軟期間,他的彙報物件是王堅博士,一個跟他一樣有著倔強性格的人。在頻繁地「爭吵」之中,他們達成了共識--分散式系統是未來。

2007年,正祥加入百度,做雲端計算。與此同時,他的老領導王堅博士離開了微軟,去了阿里,也做雲端計算。不一樣的是,他們的老闆對雲端計算的理解有著天壤之別,李彥宏認為雲端計算是「新瓶裝舊酒」,馬雲則堅定地認為雲端計算將深刻改變未來。

後來的故事大家都知道了,百度對雲端計算「淺嘗輒止」,阿里「每年投10個億,投10年」來支援阿里雲,使得阿里雲在雲端計算市場一騎絕塵,這個業務幫助阿里成為了萬億帝國,不得不佩服馬雲作為商人的眼光和膽識。

2010年,在這種情況之下,正祥黯然離開百度。在北大校友、阿里合夥人劉振飛的「忽悠」之下,加入了阿里。

02

加入阿里,做分散式資料庫

剛加入阿里的時候,正祥並不知道自己要做什麼,但是他很清楚自己不做什麼:他絕不碰雲端計算。

正祥解釋到,「離開前一家公司,之前的專案我就不會再做,因為之前的技術、關係網很多,容易引起糾紛,讓別人說閒話。我離開方正後,就不做鐳射照排,離開百度後,就不做雲端計算。」 這也許就是頂尖科學家最後的倔強吧。

2009年,逍遙子的神來之筆「雙11」大促,粉墨登場,一經推出,取得了巨大的成功。興奮之餘,技術同學很快就高興不起來了:資料庫撐不住啊。

當時應對流量峰值的解決方案是,加快取、系統拆分、資料庫拆分等等。那麼問題就來了,Oracle是按機器授權收費的,多部署一臺,就多收一次授權費,再加上IBM小型機、EMC儲存的費用,那是一筆巨大的開銷啊。

彼時的王堅博士算了一筆賬,眉頭緊鎖,心想,擦!光是軟硬體一年的費用,我阿里辛辛苦苦幹一年,相當於白白給這幾個美國公司打工了。

於是他發起了備受爭議的「去IOE」行動,並宣佈從現在開始,Oracle不許再買了,一個也不許再買。

不讓買Oracle,大不了用MySQL,但是資料庫拆分帶來的架構複雜度是幾何倍數的增加,上萬個子表的資料統計分析變得異常複雜。

此情此景,被正祥看在眼裡,資料庫拆分終究不是完美的解決方案,一個瘋狂的念頭從他的腦海一閃而過:不如自己做一個分散式資料庫系統。

要知道,2010年世界上關於分散式資料庫的探索,僅限於幾篇論文,一些非工業級的demo。

正祥單槍匹馬,說幹就幹。

03

OceanBase的第一個使用者!

在所有人都不看好的情況下,當時淘寶的核心技術負責人--吳泳銘,決定支援這個瘋狂的念頭。吳泳銘是阿里巴巴第一位程式設計師,人稱「吳媽」,早在阿里成立之初就跟隨馬雲東征西戰,立下赫赫戰功,是見過世面的人。

吳媽伸出兩個指頭:「正祥老師,我可以給你兩年的時間來證明'分散式資料庫'是可行的。」

正祥,呵呵一笑:「用不了。」

事後證明,當初確實低估了分散式資料庫系統的工程複雜性。

2010年6月,閉門造車一段時間後,正祥心裡非常清楚,眼下最重要的事情就是找到第一個客戶。

於是45歲的正祥,拎著電腦和幾十頁ppt在阿里園區各個辦公室之間奔走,像極了《當幸福來敲門》的主人公,挨家挨戶地推銷。然而,幸福並沒有來敲門,大家都把分散式資料庫當做一個玩笑,沒想到正祥是當真的。

功夫不負苦心人,淘寶收藏夾團隊願意嘗試。

用過淘寶的都知道,早期的使用者習慣是把感興趣的商品放到收藏夾裡,口袋有「米」了再下單購買,所以收藏夾裡的商品數量也是海量級別的。當時已經用了100臺伺服器在支撐這塊業務,預計第二年要用400臺,還不一定能撐得住這個量。

所以,收藏夾團隊也是有苦說不出啊。

正祥的ppt裡說,分散式資料庫理論上能夠提升效能100倍,也就是說不增加機器的情況下,能夠輕鬆應對100倍的數量級,這一點打動了收藏夾團隊。

於是收藏夾團隊給了正祥一個月時間,去實現他吹過的牛逼。

在正祥看來,收藏夾團隊的痛點是「寫入放大」的問題,他帶著幾個程式設計師程式設計師一個月搞定是差不多的,對於分散式資料庫來說,「寫入放大」只是其中一個小特性而已,他要打造的是「分散式資料庫」技術底座這個星辰大海。

打造一個「分散式資料庫」技術底座,談何容易?

有了收藏夾這第一個客戶,正祥團隊就心安了,躲進小樓成一統,管他冬夏與春秋,開始了封閉開發。時間就像支付寶的餘額一樣,你沒來得及搞清楚它是怎麼花的,它就沒了,一晃8個月過去了。

收藏夾團隊這下慌了,眼看「雙11」馬上就要來了,傳說中的「分散式資料庫」連根毛都沒看見,恨不得把正祥團隊給生吞活剝了。

正祥團隊這才意識到,是時候交貨了,於是把「寫入放大」的特性匆匆打包好,準備釋出,才發現自己的產品連個名字都沒有。其中一個小朋友提出,既然我們的方向是星辰大海,不如就叫OceanBase吧,正祥哪有心思取名啊,說行吧,快上線吧。

就這樣OceanBase釋出了第一個版本,幫助收藏夾解了燃眉之急,安全度過「雙11」,算是首戰告捷了。

圖片來源網路,版權歸作者

04

沒有使用者,OceanBase陷入困境

2012年初,正祥一邊打造OceanBase,一邊想找一個更大的場景來應用,正祥心裡很清楚,軟體如果沒有應用場景,就不可能變成熟,只要有團隊肯用,他就有信心能把OceanBase做好。於是又使出了推銷員的本領,挨個辦公室去推銷。

半年下來一無所獲,原來OceanBase已經「名聲在外」了,其它團隊都在背後指指點點:OceanBase這個團隊承諾一個月交貨,結果拖了8個月才釋出,雙11前還在改BUG,差點害死收藏夾。。。哪裡還有人肯用OceanBase。

眼看跟吳媽的二年之約就要到期了,OceanBase並沒有證明自己的價值,正祥和團隊陷入困境,彷彿一頭幼年的猛獸,困在深井之中,眼前一片黑暗,看不到任何希望。

2012年秋天,正祥從北京飛到杭州,坐在了他微軟的老同事、阿里CTO王堅辦公室裡。王堅已經是他的最後希望了,這位老同事真的能幫他嗎?正祥心裡也沒底。

因為彼時的王堅日子也並不好過,他主導的阿里雲,同樣是從零開始研發,當時正經歷大家最激烈的嘲諷和質疑。大批優秀的程式設計師因為看不到光明,紛紛離職,阿里雲搖搖欲墜。

兩人相對無語,做成一件事有多難,他們心裡誰不清楚呢?最後,王堅對正祥說:「你放心,先回去吧,我心裡有數了。」

05

OceanBase團隊併入支付寶

是溫床,還是大坑?

在焦急的等待中,又過了兩週,正祥等來了一紙調令:OceanBase 所有人員從淘寶調入支付寶。

把 OceanBase 團隊調入支付寶,王堅是有戰略考慮的。

第一,淘寶已經做好「拆庫」,而且用 MySQL 代替了 Oracle,技術架構上不適合再做大的變動。

第二,支付寶仍然以Oracle為主。由於金融場景對資料安全要求高,不適合用MySQL代替,因為以當時的技術發展水平是存在一定風險的。

第三,要啃就啃硬骨頭,如果OceanBase有能力獲得支付寶的信任,就有可能在整個集團全面推廣,「去IOE」的戰役將取得全面性的勝利,王堅的思考既長遠、又宏觀。

作為老同事,王堅也只能幫到這一步了。剩下的,就看正祥自己有多少真本事了。

2013年夏天,時任支付寶 CTO 魯肅召集各位技術大佬開會商量資料庫的問題,形勢已經非常危急,所有人都表情凝重。

討論到最後,大家得出一個結論,學淘寶,按業務拆分Oracle資料庫,先支撐業務發展。

就在這時,一個坐在角落的人悠悠地站起來說:「如果各位信任我,用‘分散式資料庫’代替Oracle,我向大家保證,我們能把資料庫做到無限大!」

大家朝著聲音傳來的方向望去。

此人,不是別人,正是已經加入阿里三年的正祥,他所說的「分散式資料庫」,就是他帶著同學們從零開始研發,彼時剛滿三週歲的OceanBase。

魯肅一開始也抱著懷疑的態度,心想,分散式資料庫很難的,你們這幾桿槍就能搞得定?

在詳細瞭解了OceanBase的原理和進展之後,魯肅決定支援正祥團隊。魯肅自己也是萬中無一的頂尖高手,哪個技術靠不靠譜,用鼻子聞一聞就知道,這無疑給了正祥團隊巨大的信心。

06

「雙11」正式啟用OceanBase

正祥團隊按照金融場景的要求,對OceanBase進行全面升級,很快又過了一年,內部測試已經達到了上生產的標準,魯肅決定在當年的「雙11」正式啟用OceanBase。

原本計劃切1%的流水庫資料給OceanBase,「全鏈路壓力測試」的時候,承擔99%流量的 Oracle 屢次崩潰,無論如何通不過測試,而一旦把它承擔的流量降為90%,就恢復正常。。。事實已經很明顯:Oracle 的實際效能極限已經被觸碰到了。支付寶技術團隊已經無路可退。

於是就在雙11來臨前兩週,魯肅臨時修改計劃,讓 OceanBase 承擔10%的流量,正祥團隊臨危受命,又驚又喜。

11月10日晚,螞蟻金服 CEO 彭蕾專門來到 OceanBase 的作戰室,問正祥:「陽老師有信心嗎?」正祥指指窗戶,一輪明月正掛在半空中。「不成功,我們就跳下去。」他平靜地說。

那一年的「雙11」,OceanBase不負眾望,圓滿完成了任務。這是OceanBase團隊成立三年以來,第一次真正意義上的亮相。

2014年底,阿里巴巴集團召開了「雙11」覆盤會。正祥作為演講者,從頭到尾分享了 OceanBase 的技術構想和艱辛歷程。

這一場分享,深深地銘記在正祥腦海中。

從那一刻起OceanBase 這個蹣跚學步「嬰兒」,一步一步慢慢走出了一條屬於自己的路,正祥團隊也因為夢想和堅持,贏得了越來越多人的認可和尊重。

2015年,OceanBase獲得螞蟻金服最重磅的獎項——SUPER MA。時任螞蟻金服 CEO 彭蕾在給 OceanBase 團隊頒獎。

圖片來源網路,版權歸作者

2016年,一個真正的分散式資料庫 OceanBase 1.0 橫空出世。

2017年底,螞蟻金服核心系統中的最後一個 Oracle 資料庫被 OceanBase 替代。阿里正式告別Oracle技術體系。

2020年5月19日,OceanBase在TPC-C跑分拿下世界第一。

在分散式資料庫領域,從0做到世界第一,正祥和團隊整整花了10年。

後記

2020年,正祥55歲,每天晚上10點回到家,仍然堅持在小區裡走上半小時,大概3公里,這一習慣他堅持了22年。

正祥和OceanBase團隊的故事仍在繼續。OceanBase何時全面趕超老大哥Oracle?OceanBase作為國產可信資料庫,離雄霸資料庫市場還有多久?

一切尚未見分曉,時間會給我們答案。

參考:

《OceanBase:螞蟻爬上舞臺》,淺黑科技,史中

《做資料庫需要耐得住寂寞的獨行者,陽振坤和OceanBase的十年》InfoQ技術實驗室,蔡芳芳

作者簡介Mr.K,知名電商公司技術老K級人物。文出過暢銷書,武做過CTO,若非生活所迫,誰願一身才華。

 -END- 

覺得這篇文章好?關注下公眾號吧!

想去讀者群學習交流?回覆「加群」


你適合加入「老K星際不迷航」社群嗎?

1、如果你在職場當中孤獨前行,覺得自己的認知和見識需要進一步提升。

2、如果你正面臨重大的人生抉擇,如跳槽、考研、買房、結婚等等,需要一位有人生閱歷的長者給你一些建議。

3、如果你也想每日精進,向上生長,卻苦於一個人很難堅持下來,想要抱團成長。

4、如果你想結交更多網際網路大廠牛人,突破圈層,同頻社交。

符合以上特徵之一,歡迎加入老K的知識星球,長按以下二維條碼加入。


大家在看:

1.他是阿里P11,還在寫程式碼,身家幾十億

2.他是阿里中臺之父,從一線員工做到CTO

3.《讓系統發生重大宕機事故的15個方法》

4.《快速搞垮一個技術團隊的20個「必殺技」》

5.《讓一個技術人員主動離職的20個妙招》

6.Leader忙死,下屬閒死,誰的錯?猴子理論

7.阿里中臺變「厚」,企業中臺路在何方?

8.CTO丟給我《技術管理30條軍規》照著做!