全票通過!資料整合平臺 SeaTunnel 成功進入 Apache 孵化器!

2022-01-01 09:00:33

美國時間 2021 年 12 月 9 日,SeaTunnel(原名Waterdrop) 正式通過 Apache 軟體基金會的投票決議,以全票通過的優秀表現正式成為 Apache 孵化器專案

根據 Apache 基金會顯示,在包含 14 個約束性投票 (binding votes) 和 9 個無約束性投票(non-binding votes) 的投票,評委全部持贊同意見,無棄權票和反對票。這也是 Apache 基金會中誕生的第一個來自中國的資料整合平臺專案。

SeaTunnel 的前世今生

SeaTunnel 是一個非常易用、高效能、支援實時流式和離線批次處理的海量資料整合平臺,架構於 Apache Spark 和 Apache Flink 之上,支援海量資料的實時同步與轉換。

SeaTunnel 原名 Waterdrop,於 2017 年由樂視建立,並於同年在 GitHub 上開源,2021 年 10 月改名為 SeaTunnel。

之所以要研發 SeaTunnel ,主要是因為當時市面上沒有很好的、簡單易用的、支援每天數百億條資料同步的開源軟體,SeaTunnel 的使命就是要將海量資料同步的能力傳播到全世界,同時大大降低使用者利用 Spark、Flink 等技術做資料整合的門檻。

從技術維度來談,SeaTunnel 的目標可以歸納為:

  • 使用 Spark、Flink 作為底層資料同步引擎使其具備分散式執行能力,提高資料同步的吞吐效能;

  • 整合多種能力縮減 Spark、Flink 應用到生產環境的週期與複雜度;

  • 利用可插拔的外掛體系支援超過 100 種資料來源;

  • 引入管理與排程能力做到自動化的資料同步任務管理;

  • 特定場景做端到端的優化提升資料同步的資料一致性;

  • 開放外掛化與 API 整合能力幫助企業實現快速客製化與整合;

SeaTunnel 系統架構、工作流程與特性

在團隊的努力下,SeaTunnel 的系統架構逐漸成型,2017 年對外開源後,SeaTunnel 很快獲得了開發人員的認可。迄今為止,SeaTunnel 已經發布了 31 個版本 (目前推薦使用 1.5.6),在 Bilibili、新浪、水滴籌、搜狗、趣頭條、唯品會等公司的生產實踐中發揮著關鍵作用。

Input/Source[資料來源輸入] -> Filter/Transform[資料處理] -> Output/Sink[結果輸出]

SeaTunnel 工作流程圖

上圖為 SeaTunnel 的整個工作流程,資料處理流水線由多個過濾器構成,以滿足多種資料處理需求。如果使用者習慣了 SQL,也可以直接使用 SQL 構建資料處理管道,更加簡單高效。目前,SeaTunnel 支援的過濾器列表也在擴充套件中。

在外掛方面,SeaTunnel 已支援 File、Hive/Hdfs、Kafka、Jdbc、ClickHouse、TiDB、HBase、Kudu 等 20 多種外掛,同時也支援新增、校驗、轉換、日期、SQL等處理外掛,整體上基於系統非常易於拓展,使用者還可以自行開發資料處理外掛。

在這樣的易拓展架構設計下,SeaTunnel 具有以下核心特性:

  • 元件豐富:內建豐富外掛,支援各種資料產品的傳輸和整合;

  • 高擴充套件性:模組化和外掛化,支援熱插拔, 帶來更好的擴充套件性;

  • 簡單易用:特有的架構設計下,使得開發設定簡單,無使用成本;

  • 成熟穩定:經歷大規模生產環境使用和海量資料的檢驗;

  • 支援通過 SQL 進行資料處理和聚合;

 使用場景

SeaTunnel 的使用場景包括海量資料整合、資料 ETL、資料聚合以及多源資料處理等。如今,SeaTunnel 已應用於數十家企業生產環境,日均可穩定高效地同步數百億條資料。

比如, SeaTunnel 解決了唯品會資料倉儲入倉出倉、人群計算等場景中的難題;作為 B 站資料平臺離線出入倉核心工具,SeaTunnel 在 B 站每天完成千億級記錄、百T級資料的出入倉,解決了我們電商、直播、創作中心等場景核心任務出入倉難題;微博一直播內部使用 SeaTunnel 的魔改客製化原始碼搭建了實時的直播數倉入倉工具;趣頭條資料中心使用 SeaTunnel 作為Hive 到 Clickhouse 的離線同步工具;永輝雲創科技旗下的新零售品牌永輝生活使用 SeaTunnel 進行電子商務使用者行為資料的實時流式和離線 SQL 計算。

「Welcome to Apache incubator,SeaTunnel!」

從 2017 年創立,到如今進入 Apache 孵化器,SeaTunnel 正在進入一個全新的發展階段。SeaTunnel 一進入孵化器就得到眾多開源社群大咖們的祝福,包括 Apache 基金會董事吳晟、Apache 基金會成員 JiangNing, Ted Liu, GuoWei、騰訊開源聯盟主席單致豪,PingCAP 聯合創始人& CTO 黃東旭、濤思資料 TDengine 創始人陶建輝、SphereEx 聯合創始人 & CTO 潘娟、Apache HAWQ PMC 主席常雷、Apache Hudi PMC 李少峰、DataStax(Apache Cassandra 社群)中國總經理盧東明、Apache Doris PPMC 陳明雨、Apache RocketMQ PMC 杜恆, Elastic 中文社群創始人曾勇、巨杉資料庫技術生態資深總監蕭少聰等諸多開源資料生態大咖的聯名祝賀。

其實 SeaTunnel 在孵化器討論階段就引起全球 Apache 孵化器導師的關注導師」報名數量遠超過普通孵化專案,以至於 Apache 孵化器負責人 Justin 郵件提醒導師不能過多」。也有導師在全球 Apache 孵化器討論郵寄清單裡表示遺憾 —— Apache 孵化器專案 「旱的旱死,澇的澇死」,形容有的專案還要四處尋求導師才可以進入孵化器,有的專案則需要大家爭搶導師職位,而 SeaTunnel 無疑是後者。

SeaTunnel 社群 PPMC 們表示:始終以開放的心態,致力於讓全球所有優秀的資料儲存和計算引擎高效、準確、快速地進行跨資料來源的同步、轉化資料,讓人們在多資料來源場景下,可以快速、簡單的完成自己的目標。我們相信在「The Apache Way」的指導下,社群將秉持更加開放包容的心態,歡迎更多貢獻者加入,共同為中國開源事業添磚加瓦!」

 感謝每一位貢獻者!

SeaTunnel 凝聚了貢獻者的智慧和心血,感謝專案的 Mentor 和 Committer 給予專案的指導,以及所有貢獻者的參與! 

Champion

  • Willem Ning Jiang ( )

Mentors

PPMCs

貢獻者

專案詳情

目前 SeaTunnel 的所有原始碼和所有相關檔案已捐贈給 Apache Software Foundation。這些程式碼已經在 Apache License Version 2.0 下:

倉庫地址:

網址

Proposal:

附錄:

以祝福和希望為翼,直衝雲霄!(以收到寄語時間為序)

 

  • 很高興能做為 SeaTunnel 的領路人,帶領專案進入 Apache 孵化器, 希望 SeaTunnel 在後續孵化過程中能茁壯成長,構建健康發展的社群,成為有國際影響力的開源專案。

——Apache 軟體基金會 Member 姜寧,SeaTunnel Champion

 

  • 初心涓滴成流 (Waterdrop) 志向海納百川 (SeaTunnel),祝賀 SeaTunnel 加入 Apache 孵化器大家庭!

——Apache 軟體基金會 Member 劉天棟.Ted,SeaTunnel Mentor

 

  • 祝賀 SeaTunnel 成功進入 Apache 孵化器,預祝 SeaTunnel 做大做強,再創輝煌,順利畢業!

—— Apache 軟體基金會 IPMC 柯振旭,SeaTunnel Mentor

 

  • 祝賀SeaTunnel進去Apache孵化器,期待看到他們在Apache孵化器的成長,建立更為成熟的社群。

——Apache 軟體基金會 董事 吳晟 Sheng Wu

 

  • "There is high demand for convenient, easy to use and powerful tools for transferring and transforming large amounts of data. I'm happy to see that SeaTunnel has joined Apache incubator and I will follow its growth!"

——Alexey Milovidov, ClickHouse.

 

  • 恭喜 SeaTunnel 進入 Apache 孵化器,希望 SeaTunnel 在社群中吸收更多營養茁壯成長。

—— 騰訊開源聯盟主席 單致豪

 

  • 恭喜 SeaTunnel 進入 Apache 孵化器,很開心看到越來越多的中國開源專案發展壯大,預祝 SeaTunnel 早日發展成為一個成熟健康的開源社群,壯大中國開源力量。

——SphereEx 聯合創始人 & CTO,Apache ShardingSphere PMC 潘娟(Trista)

 

  • 恭喜 SeaTunnel 加入Apache孵化器!SeaTunnel 作為一款簡單易用、效能突出的海量資料處理產品,今年我們也實現了 SeaTunnel 的 Doris Spark/Flink Sink,希望打通從資料處理到資料分析的通路,能更好服務所有開源使用者。我們也相信SeaTunnel進入孵化器後,在Apache 之道的指引下社群可以進一步發展,有更多熱愛開源的企業和個人開發者一同參與進來!最後預祝SeaTunnel 可以早日畢業!

—— Apache Doris PPMC 陳明雨

 

  • 恭喜 SeaTunnel 成功進入 Apache 孵化器,很高興看到圍繞著資料流轉又有一個新的優秀的開源專案出現,現在這個時代,說資料作為業務的核心一點不為過,而且資料儲存方面的技術又在這個時代高度的細分化,資料庫之間的同步和轉化非常有必要,希望 SeaTunnel 成為打通資料孤島的「橋樑」!

                                                                                                                                                                                         — PingCAP 聯合創始人 & CTO 黃東旭

 

  • 祝賀 SeaTunnel 進入 Apache 孵化器,越來越多的來自中國的孵化器專案表明了中國開源社群的活躍和技術貢獻,非常高興看到 SeaTunnel 社群在資料處理方面的新思考,期待再孵化過程中看到 SeaTunnel 社群的成長!

—— Apache Kylin PMC Luke Han

 

  • 恭喜 SeaTunnel 成功進入Apache孵化器。現在是一個異構資料的時代,各種資料庫、巨量資料平臺之間需要一個開源、高效的聯結器,希望 SeaTunnel 成為這個細分領域的領軍者!

—— 濤思資料 TDengine 創始人陶建輝

 

  • 可喜可賀,恭喜 SeaTunnel 成功進入Apache孵化器,預祝團隊再創輝煌!作為同是Apache 基金會的 Cassandra 專案,期待與SeaTunnel深度整合。

—— DataStax(Cassandra) China總經理 盧東明

 

  • 恭喜 SeaTunnel 進入 Apache孵化器,SeaTunnel 是一個簡單易用的資料同步元件,通過SeaTunnel 可將資料更方便匯入 Apache Hudi 資料湖中,也期待兩個社群后續進行更深度的合作!

—— Apache Hudi PMC 李少鋒

 

  • 只有流動的資料,才能激發其價值的釋放,SeaTunnel 以海納百川的志向,為上下游提供資料流動的利器。祝賀 SeaTunnel 成功進入 Apache 孵化器,預祝 SeaTunnel 成為成熟的技術社群。

—— 巨杉資料庫 技術生態資深總監 蕭少聰

 

  • SeaTunnel, 願你們的技術在 Apache 孵化器裡真正成長為資料海洋裡具有無敵穿透力和超強連線力的平臺。

—— OpenTEKr 創始人 狄安

 

  • 恭喜 SeaTunnel 進入 Apache 孵化器,希望 SeaTunnel 社群快速成長,傳播 Apache way,服務更多開發者,成為海量資料處理領域明星級產品。

——Apache RocketMQ PMC 杜恆

 

  • 恭喜 SeaTunnel 進入 Apache 孵化器,感謝專案對開源事業的貢獻,這是一個好的開始,希望專案在開源大家庭中更好成長。

—— AWS 開發者運營 郭悅

 

  • SeaTunnel(原名水滴 / Waterdrop)通過提供如同《三體》中「水滴」探測器般強大的技術能力,為開源資料技術的發展做出了卓越貢獻,成功入選 Apache 孵化器。我們期望看到越來越多像 SeaTunnel 這樣的中國開源專案和社群湧現出來,中國開源事業的未來將是星辰大海!

—— NEAR Foundation  Robert Yan

 

  • 恭喜 SeaTunnel,成為Apache孵化專案中的新成員,更希望 SeaTunnel 社群能夠更好的踐行 Community Over Code 的理念,不斷髮展壯大,百尺竿頭更進一步,早日畢業成為 Apache 頂級專案。

—— 開源社理事長 莊表偉

 

  • 恭喜 SeaTunnel,進入 Apache 孵化器,為我們有樹立了一個學習的榜樣!希望未來 SeaTunnel 社群能夠發展壯大,我們多多交流,向你們學習!

—— 云溪資料庫 吳昱

 

  • 恭喜 SeaTunnel,成功進入 Apache 孵化器,成為 Apache 專案中的一員。希望 SetTunnel 能夠更好的發展好社群,吸引更多的人蔘與到開源貢獻中來,讓大家體會到參與開源的樂趣。

—— 極狐(GitLab) 馬景賀

 

  • 恭喜 SeaTunnel,希望在 ASF 的孵化下,SeaTunnel 能夠發展成為一個更加健康的開源專案社群,並調動國內更多參與者的積極性。

—— 開源中國(OSChina) 林日華

 

  • 在開源同仁的大力支援下,SeaTunnel 得以成功加入 Apache 孵化器,這是社群的力量。這意味著 SeaTunnel 邁入了一個新的階段,未來會變得更活躍、更規範、更國際化,服務更多開發者。祝賀 SeaTunnel!加油!

—— 馬紅偉 百度開源辦公室產品運營經理

 

  • 恭喜 SeaTunnel 成功進入 Apache 孵化器,希望這個專案能夠發展壯大,引導更多的技術人才理解開源精神,踐行開源理念完成社會創新,大家一起 Tech4Good!

—— 圖鷗公益(NGO2.0)張倩

 

  • 恭喜 SeaTunnel 順利進入 Apache 軟體基金會孵化,希望未來能有機會在 The Apache Way 的引領下和 Kyuubi 社群產生更多交流與合作。

—— Kent Yao, Apache Kyuubi PPMC

 

● 恭喜 SeaTunnel 進入 Apache 軟體基金會孵化,滴水成河,綿延不絕,攜手共進,匯聚開源星海。

—— 開源之夏 李夢

 

● 恭喜 SeaTunnel,希望在 ASF 的孵化下,專案更加成熟穩健,更多開發者、使用者從中受益,推動巨量資料開源和領域向前發展。

—— Apache InLong PPMC 張超

 

  • 恭喜 SeaTunnel 順利進入 Apache 軟體基金會孵化,預祝專案越來越好,社群越來越活躍,踐行開源精神,服務更多開發者!

—— InfoQ 使用者運營負責人 趙萌

 

  • 集聚開源力量,向世界展示中國。我們的征途是星辰大海。

—— GoodERP 開源俱樂部發起人 Jeff Wang

 

  • 恭喜 SeaTunnel,希望 SeaTunnel 不斷踐行開源精神,活躍技術社群,成為有國際影響力的專案。同時,也希望更多的中國開源專案和SeaTunnel一同走向國際!

—— 稀土掘金 月影(吳亮)

 

  • 恭喜 SeaTunnel 進入Apache 孵化器!期待能和 SeaTunnel 互勉互助,攜手並進,匯聚更多同行者,把 Apache 孵化器裡的中國寶寶們早日培養壯大,共赴星辰大海。

                                                                                                                                                                                                     —— Apache Linkis PPMC, 邸帥

 

 

  • 恭喜 SeaTunnel 進入 Apache 孵化器,開源力量不斷積累壯大。隨著數位化程序加速,產業對資料整合管理的需求會愈加迫切,希望 SeaTunnel 不斷髮展壯大,通過開源推動產業數位化發展。

—— 信通院 郭雪

 

  • 祝賀 SeaTunnel 成功進入 Apache 孵化器,期待未來在海量資料處理領域大放異彩!

—— 迪碼科技 孫樂

 

  • 資料「水管」和資料「水庫」是數位時代的兩大基礎設施,目前國內外有很多不同型別的「水庫」,然而優秀的開源「水管」卻很少。很高興看到這一領域出現了一個優秀的開源專案,恭喜 SeaTunnel 成功進入Apache孵化器!

—— Greenplum中國開源社群發起人,四維縱橫創始人 姚延棟

 

  • SeaTunnel 以出色的外掛化和模組化架構設計,幫助使用者靈活高效地構建 Pipeline 通道,輕鬆應對了各種複雜業務場景。SeaTunnel 開源社群也日益壯大,群英薈萃,未來可期!

—— Apache Druid PMC 金嘉怡

 

  • 恭喜 SeaTunnel 成功進入 Apache 孵化器,很高興看到又一箇中國的優質開源專案走上國際舞臺,開源路漫漫但水滴石穿,加油!

— Elastic 中文社群創始人、INFINI Labs 創始人 曾勇

 

  • 資料引擎進入場景時代,越來越豐富的資料引擎之間的資料同步、轉化有大量的需求存在,希望SeaTunnel 可以全球開發者提供高效、穩定的資料傳輸工具。

—— Apache Foundation Member 郭煒,SeaTunnel Mentor

 

  • SeaTunnel 有望成為 Apache 生態裡支援海量資料同步與轉換的強大平臺,想做好並不容易、是一個有技術挑戰的旅程,但我非常看好一起做開源貢獻的這幫夥伴們,加油,同時歡迎更多夥伴的加入,共建開源伊甸園。

—— 白鯨開源聯合創始人 & Apache DolphinScheduler VP 代立冬,SeaTunnel Mentor

 

在加入孵化器之際,社群也收到了來自使用者代表的祝福。

 

使用者代表

 

  • 恭喜SeaTunnel順利進入Apache孵化器,感謝它解決了我們資料倉儲入倉出倉、人群計算等場景中的難題。衷心祝願SeaTunnel茁壯成長,在開源的道路上,百尺竿頭,更進一步!

—— 唯品會 Olap 團隊負責人 王玉

 

  • 恭喜 SeaTunnel 順利進入Apache孵化器,SeaTunnel作為B站資料平臺離線出入倉核心工具,在B站每天完成千億級記錄、百T級資料的出入倉,解決了我們電商、直播、創作中心等場景核心任務出入倉難題。祝願SeaTunnel早日成為Apache頂級專案,成為又一個優秀的開源專案。

—— 嗶哩嗶哩資深開發工程師 張宗耀

 

衷心歡迎更多人加入!

能夠進入 Apache 孵化器,SeaTunnel 新的路程才剛剛開始,但社群的發展壯大需要更多人的加入。我們相信,在「」(社群大於程式碼)、「」(開放共同作業)、「」(精英管理)、以及「多樣性與共識決策」等 的指引下,我們將迎來更加多元化和包容的社群生態,共建開源精神帶來的技術進步!

我們誠邀各位有志於讓本土開源立足全球的夥伴加入 SeaTunnel 貢獻者大家庭,一起共建開源!

  • 提交問題和建議

  • 貢獻程式碼:

  • 訂閱社群開發郵寄清單 : [email protected]

聯絡我們:

開發郵寄清單:https://www.oschina.net/news/[email protected]

加入 Slack:

關注 Twitter:

秉持開源精神,樂視、白鯨開源科技與開源社群一起致力於 SeaTunnel 的發展完善及與 Apache 等生態圈的融合。目前,SeaTunnel 已經與多個 Apache 專案完成整合,包括 Apache DolphinScheduler,Apache Spark, Apache Flink, Apache Hadoop, Apache Hudi,Apache HBase ,Apache Kudu 等等。

成立四年以來,SeaTunnel 已通過組織不同形式的活動,如 Meetup 收穫了無數開發者、運營和佈道者人才加入,使用者群體目前已超過 2000 人。

未來,我們歡迎有更多志同道合的人加入開源共建,在遵循 Apache 原則的基礎上,共同讓 SeaTunnel 在眾多開源專案中成為一顆耀眼的新星!

展開閱讀全文