區塊鏈與分散式儲存構建資料要素市場基礎設施

2020-10-02 11:00:30

9 月 23 日,《新基建數位經濟高峰論壇》在蘇州順利落幕,峰會主題主要討論了分散式儲存技術的發展與應用,荷月科技聯合創始人、解決方案總監廖逸發表主題演講:《區塊鏈與分散式儲存構建資料要素市場基礎設施》,分享了區塊鏈與分散式儲存如何為數位要素市場搭建基礎設施,讓資料成為真正可確權,可交易的生產要素。

區塊鏈與分散式儲存構建資料要素市場基礎設施

 

荷月科技聯合創始人、解決方案總監廖逸發表主題演講以下為大家整理了演講主要內容以及簡短的技術介紹與科普,希望能夠與大家一起探索分散式儲存技術與區塊鏈結合帶來的變革與創新。 

什麼是分散式儲存(IPFS)?

分散式儲存就像分散式應用一樣有兩種技術解釋,一種是將資料分散儲存在多臺獨立的裝置上,總體上實現了技術架構上的分散式,但所屬權仍然是集中式的,而在區塊鏈應用領域則表示的是以IPFS 為代表的新一代分散式儲存技術,與傳統的儲存技術不同,新一代的分散式儲存不光改變了儲存的方式,還改變了系統架構與網路傳輸協定,讓分散式儲存真正實現了可以分佈儲存在不同所有方之間,同時還實現了對於資料的隱私保護與安全。

那麼,什麼是IPFS?

IPFS,全稱 Inter Planetary File System,中文名為星際檔案系統,IPFS 希望通過對等傳輸網路構建一個完全分散式的網際網路,類似於 BitTorrent,但是又有所發展和不同。在目前的互聯中,如果你想從網上下載一張照片,你需要告訴電腦去哪裡找這張照片,也就是照片所在的 IP 地址或域名——這就叫 " 地址定址 "。但如果這個地址不存在了,也就是說伺服器關閉了,你就無法獲取那張照片了。不過很可能有人之前已經下載過那張照片,並且在他的電腦中仍然儲存著備份,可你的電腦卻無法從那個人那裡獲得該備份。為了解決這個問題,IPFS 把「地址定址」改為「內容定址」。這樣一來,你不用再告訴電腦去哪裡尋找資源,而只需告訴它你想要什麼資源。從「地址定址」到「內容定址」是 IPFS 與現有儲存技術與網際網路協定最重要的區別。除此之外,IPFS 也是一種複合的技術,其中比較重要的有4種:BitTorrent、DHT、Git 和 SFS。

(1)DHT,全稱為分散式雜湊表(Distributed Hash Table),是一種分散式儲存方法。DHT的原理是在不需要伺服器的情況下,每一個使用者端儲存一小部分資料,並負責一定區域的檢索,進而實現整個DHT網路的定址和檢索。同時所有資訊均以雜湊表條目的形式加以儲存在Kademlia 網路(對等協定中的一種演演算法,當我們在網路中搜尋某些值,即通常搜尋儲存檔案雜湊或關鍵詞的節點的時候,Kademlia演演算法需要知道與這些值相關的鍵,然後分步在網路中開始搜尋。)這些資訊被分散地儲存在各個節點上,從而以全網構成一張巨大的分散式雜湊表。可以形象地把這張雜湊大表看成一本字典:只要知道了資訊索引的key,便可以通過 Kademlia 協定來查詢與其對應的 value 資訊,而不管這個 value 資訊究竟是儲存在哪一個節點之上。正是這一特性確保了IPFS成為沒有中心排程節點的分散式系統。

(2)BitTorrent, ipfs借鑑的首先是消極上傳者的懲罰措施,在 BitTorrent 的使用者端上傳資料會獎勵積分,而長期不上傳的消極節點會被扣分,如果分數低於一定限度,那麼網路會拒絕再為他們提供服務;其次是檔案可用性檢查,BitTorrent優先把稀缺的檔案分享出去,各個使用者端之間相互補充,這樣種子不容易失效,傳輸效率也提高了。

(3)Git,在進行大檔案傳輸或修改的時候總會遇到儲存或傳輸壓力大的問題,而Git在版本迭代方面非常出色。Git儲存時會把檔案拆成若干個部分,並計算各個部分的雜湊值,利用這些構建起與檔案對應的有向無環圖(DAG),DAG的根節點也就是該檔案的雜湊值。這樣的好處十分明顯:如果需要修改檔案,那麼只需要修改少數圖中節點即可;需要分享檔案,等價於分享這個圖;需要傳輸全部的檔案,按照圖中的雜湊值下載合併即可。

(4)Self-certifying FileSystem(SFS),它將所有的檔案儲存在同一個目錄下,所有的檔案都可以在相對路徑中找到,其SFS路徑名是其原路徑與公鑰的雜湊。這樣的設計包含身份的隱式驗證功能,因此SFS被稱為自驗證檔案系統。 

分散式儲存如何與區塊鏈相結合?

區塊鏈的誕生本是為了做到去中心化,在沒有中心機構的情況下達成共識,共同維護一個賬本。它的設計動機並不是為了高效、低能耗,抑或是擁有無限的可延伸性(如果追求高效、低能耗和擴充套件性,中心化程式可能是更好的選擇),分散式儲存與區塊鏈協同工作,能夠補充區塊鏈的兩大缺陷:

(1)區塊鏈儲存效率低,成本高。

區塊鏈網路要求全部的礦工維護同一個賬本,需要每一個礦工留有一個賬本的備份在本地。那麼在區塊鏈中存放的資訊,為了保證其不可篡改,也需要在各個礦工手中留有一份備份,這樣是非常不經濟的。如果有1萬個礦工,即便在網路儲存1MB資訊,全網消耗的儲存資源將是10GB。可以使用IPFS儲存檔案資料,並將唯一永久可用的IPFS地址放置到區塊鏈事務中,而不必將資料本身放在區塊鏈中,因為IPFS的自驗證檔案系統技術可以保證其內容的不可篡改的特性。也就是區塊鏈用於共識重要的資料,如數位資產、交易記錄等,分散式儲存作為儲存層替代現有的中心化資料庫,用於分散式的儲存大量的附加資訊,避免了鏈下資料集中被某個中心控制,而是由網路參與者一起參與儲存,避免把所有資訊放到鏈上,極大拓寬了區塊鏈的應用範圍。

(2)跨鏈需要各個鏈之間協同配合,難以協調。

IPFS能協助各個不同的區塊鏈網路傳遞資訊和檔案。IPFS本身就具有保證其內容的不可篡改的特性,能夠作為可信資訊源。同時IPFS可將不同鏈的區塊資訊獲取成可讀內容,可協助鏈之間獲取區塊資訊。 

分散式儲存與區塊鏈如何為資料要素市場構建基礎設施

 

區塊鏈與分散式儲存構建資料要素市場基礎設施

 

資料被納入生產要素的基礎現狀 

相關試點:

2018年5月,為貫徹落實黨中央、國務院關於推進公共資訊資源開放的有關工作部署,中央網信辦、發展改革委、工業和資訊化部聯合印發《公共資訊資源開放試點工作方案》,確定在北京、上海、浙江、福建、貴州開展公共資訊資源開放試點,要求針對當前開放工作中平臺缺乏統一、資料缺乏應用、管理缺乏規範、安全缺乏保障等主要難點,在建立統一開放平臺、明確開放範圍、提高資料品質、促進資料利用、建立完善制度規範和加強安全保障6方面開展試點,探索形成可複製的經驗,逐步在全國範圍加以推廣。方案要求,試點地區要結合實際抓緊制定具體實施方案,明確試點範圍,細化任務措施,積極認真有序開展相關工作,著力提高開放資料品質、促進社會化利用,探索建立制度規範,於2018年底前完成試點各項任務。

重要官方意見:

2020年 4月9日,中共中央、國務院印發《關於構建更加完善的要素市場化設定體制機制的意見》。這是中央關於要素市場化設定的第一份檔案,對於形成生產要素從低質低效領域向優質高效領域流動的機制,提高要素品質和設定效率,引導各類要素協同向先進生產力集聚,加快完善社會主義市場經濟體制具有重大意義。

資料要素市場面臨的問題及挑戰

資料所有權界定不明確、不清晰

資料共用後難以追蹤溯源;資料易洩露或被未授權使用

相關領域資料資源向社會開發的進展緩慢

缺乏公平、透明的資料利益分配機制和手段

未形成完善的產業鏈條,交易規模有效;缺少成熟案例 

區塊鏈如何為資料要素市場構建基礎設施

通過區塊鏈和智慧合約對資料分類目錄以及資料確權、授權、使用、加工、權利轉移等操作記錄進行存證和全程追溯,形成不可篡改的資料履歷,提高數位資產交易市場的透明度和可信度。區塊鏈提供了全程過程的可追溯性與不可篡改性。在下圖的架構中解決的資料要素市場全週期的記錄與管理,而資料本身需要儲存在資料庫中,利用分散式儲存技術,可以做到資料的加密儲存,授權存取模式,同時分散式儲存對比傳統中心化資料庫更加安全。 

區塊鏈與分散式儲存構建資料要素市場基礎設施

 

區塊鏈為資料要素確權、交易提供基礎設施與底層系統

在下圖的架構中解決的資料要素市場全週期的記錄與管理,而資料本身需要儲存在資料庫中,利用分散式儲存技術,可以做到資料的加密儲存,授權存取模式,同時分散式儲存對比傳統中心化資料庫更加安全,無法單方面掌握整體資料,同時資料是加密儲存,只有在區塊鏈上完成了相應的授權才能獲取完整資料,進而使用資料。從整體上保證資料被合法合規的利用。