本文使用深度神經網路完成計算蛋白質設計去預測20種氨基酸概率。
Introduction
針對特定結構和功能的蛋白質進行工程和設計,不僅加深了對蛋白質序列結構關係的理解,而且在化學、生物學和醫學等領域都有廣泛的應用。在過去的三十年裡,蛋白質設計取得了顯著的成功,其中一些設計是由計算方法指導的。最近一些成功的計算蛋白設計的例子包括新摺疊,酶設計,疫苗,抗體,新的蛋白質組裝,配體結合蛋白和膜蛋白。
Results
Networks architecture, input, and training
資料集:資料集來源於PDB且具有如下特徵:
(1)用x射線晶體學確定結構;
(2)解析度優於$$2 \r A $$;
(3)鏈長大於50;
(4)結構沒有任何DNA/RNA分子。
移除同源蛋白質後分為三個資料集非別是30%、50%、90%(SI30,SI50,SI90)
輸入:對於每個資料集,提取每個殘基及其基於Cα-Cα距離的N(N=10、15、20、25、30)最近鄰殘基為聚類。
過程:目標殘基及其領域的殘基的特徵作為一個input輸入到殘基概率網路得到目標殘基的概率(圖A),同時也將input輸入到權重網路中得到一個權重輸出(圖B)。殘差概率網路和權重網路本文模型架構的子網路,將這兩個輸出concat後輸入到後續網路最終輸出概率。
訓練:線性層ReLU作為所有層的啟用函數。訓練採用交叉熵(categorical cross entropy )作為損失函數,採用隨機梯度下降法進行優化,學習率為0.01,批次處理大小為40,000,epoch是1000。
Overall and amino acid specific accuracy
表 神經網路在不同鄰域殘基的不同資料集上的交叉驗證的總體精度
Indentity cutoff
|
N=10
|
N=15
|
N=20
|
N=25
|
N=30
|
30%
|
0.329
$$(0.001)^*$$
|
0.340
$$\mathbf{(0.005)} $$
|
0.333
$$(0.009)$$
|
0.331
$$(0.006)$$
|
0.321
$$(0.015)$$
|
50%
|
0.353
$$(0.003) $$
|
0.364
$$\mathbf{(0.005)} $$
|
0.358
$$(0.005) $$
|
0.359
$$(0.006) $$
|
0.342
$$(0.007) $$
|
90%
|
0.367
$$(0.001) $$
|
0.383
$$\mathbf{(0.004)} $$
|
0.382
$$(0.006) $$
|
0.379
$$(0.007) $$
|
0.352
$$(0.013) $$
|
*括號中為標準差
正如預期的那樣,由於更多的資料樣本和樣本之間的相似性,具有更高蛋白質確定率的資料集顯示出更好的準確性。但從SI30到SI90資料集的資料樣本數量幾乎翻了一番,精度的提高並不顯著。N=15時準確性最好,小於15時較少的相鄰殘基可能不足以代表目標殘基的環境,而大於15時包含太多的領域殘基會在輸入中產生噪聲。
針對總體精度最好的SI90N15分析每種氨基酸的召回率和精確度。其中Gly(甘氨酸)和Pro(脯氨酸)的召回率和準確率都較好。因為Pro具有特殊的剛性構象,而Gly在主鏈二面體方面具有高度的靈活性。召回、精度較低的氨基酸在訓練集中的丰度通常較低,例如Met、Gln和His。
計算了每個天然氨基酸被預測為20個氨基酸的概率,並將其繪製在二維天然氨基酸和預測的熱圖中(如上圖)。x軸和y軸上的氨基酸是根據它們的性質和彼此之間的相似性來排序的。正如預期的那樣,對角線網格顯示出更高的概率。有趣的是,沿著對角線有幾個組,包括
網路的輸出是20個氨基酸的概率在一個目標位置,除了上面提到的準確性,也可以計算top-K精度:如果源氨基酸在top-K預測(K氨基酸概率最高),預測被認為是正確的。在SI90N15資料集上訓練的網路的前2、3、5和10個準確率分別達到54.3%、64.0%、76.3%和91.7%。
表 Rosetta固定主幹設計在三個蛋白質有/沒有殘基本類型約束的平均序列準確率
Protein
|
No-restrain*
|
Top 1
|
Top 3*
|
Top 5*
|
Top 10*
|
2B8I
|
$$0.276 \pm 0.033 $$
|
0.337
|
$$0.306 \pm 0.017$$
(0.558)
|
$$\mathbf{0.354 \pm 0.021} $$
(0.688)
|
$$0.293 \pm 0.037 $$
(0.883)
|
1HOE
|
$$0.408 \pm 0.026 $$
|
0.338
|
$$\mathbf {0.473 \pm 0.018} $$
(0.635)
|
$$0.441 \pm 0.018 $$
(0.689)
|
$$0.416 \pm 0.028 $$
(0.851)
|
2IGD
|
$$0.409 \pm 0.034$$
|
0.475
|
$$0.473 \pm 0.023 $$
(0.705)
|
$$0.401 \pm 0.028 $$
(0.754)
|
$$0.408 \pm 0.032 $$
(0.967)
|
應用Top-3、5和10預測限制設計三個蛋白質包括all-α蛋白(2B8I60),all-β蛋白質(1HOE61)和混合αβ蛋白(2IGD),這些蛋白質都不包含在訓練集中。蛋白質的晶體結構被用作在SI90N15資料集上訓練的神經網路的輸入。每個位置的固定主幹設計程式中的Top-3、5和10個氨基酸作為約束條件。作為對照,列出了這些蛋白質上神經網路的最高準確性,並且進行了固定主幹設計(每個位置允許所有20種天然氨基酸)。由於fixbb使用了一種隨機設計演演算法,為每個蛋白質生成了500個序列,並計算出與天然蛋白質的平均序列一致性。
PS
- 特徵包括基本的幾何和結構屬性的殘留,如Cα-Cα距離,主幹二面體φ,ψ,ω的$$cos$$和$$sin$$的值,通過一箇中心$$C_{\alpha} $$殘基到領域$$C_{\alpha}$$殘基的單位向量確定相鄰殘基和目標殘基的相對位置,三種二級結構(螺旋、片狀和環狀),主鏈骨架氫鍵的數量,和溶劑存取骨幹原子的表面積。
- 召回是正確預測(恢復)的原生殘基的百分比,精度是正確預測的百分比。