Computational Protein Design with Deep Learning Neural Networks

本文使用深度神經網路完成計算蛋白質設計去預測20種氨基酸概率。

Introduction

針對特定結構和功能的蛋白質進行工程和設計，不僅加深了對蛋白質序列結構關係的理解，而且在化學、生物學和醫學等領域都有廣泛的應用。在過去的三十年裡，蛋白質設計取得了顯著的成功，其中一些設計是由計算方法指導的。最近一些成功的計算蛋白設計的例子包括新摺疊，酶設計，疫苗，抗體，新的蛋白質組裝，配體結合蛋白和膜蛋白。

Results

Networks architecture, input, and training

資料集：資料集來源於PDB且具有如下特徵：

（1）用x射線晶體學確定結構;

（2）解析度優於$$2 \r A $$;

（3）鏈長大於50;

（4）結構沒有任何DNA/RNA分子。

移除同源蛋白質後分為三個資料集非別是30%、50%、90%（SI30,SI50,SI90）

輸入：對於每個資料集，提取每個殘基及其基於Cα-Cα距離的N(N=10、15、20、25、30)最近鄰殘基為聚類。

過程：目標殘基及其領域的殘基的特徵作為一個input輸入到殘基概率網路得到目標殘基的概率（圖A），同時也將input輸入到權重網路中得到一個權重輸出（圖B）。殘差概率網路和權重網路本文模型架構的子網路，將這兩個輸出concat後輸入到後續網路最終輸出概率。

訓練：線性層ReLU作為所有層的啟用函數。訓練採用交叉熵（categorical cross entropy ）作為損失函數，採用隨機梯度下降法進行優化，學習率為0.01，批次處理大小為40,000，epoch是1000。

Overall and amino acid specific accuracy

表神經網路在不同鄰域殘基的不同資料集上的交叉驗證的總體精度

Indentity cutoff	N=10	N=15	N=20	N=25	N=30
30%	0.329 $$(0.001)^*$$	0.340 $$\mathbf{(0.005)} $$	0.333 $$(0.009)$$	0.331 $$(0.006)$$	0.321 $$(0.015)$$
50%	0.353 $$(0.003) $$	0.364 $$\mathbf{(0.005)} $$	0.358 $$(0.005) $$	0.359 $$(0.006) $$	0.342 $$(0.007) $$
90%	0.367 $$(0.001) $$	0.383 $$\mathbf{(0.004)} $$	0.382 $$(0.006) $$	0.379 $$(0.007) $$	0.352 $$(0.013) $$

*括號中為標準差

正如預期的那樣，由於更多的資料樣本和樣本之間的相似性，具有更高蛋白質確定率的資料集顯示出更好的準確性。但從SI30到SI90資料集的資料樣本數量幾乎翻了一番，精度的提高並不顯著。N=15時準確性最好，小於15時較少的相鄰殘基可能不足以代表目標殘基的環境，而大於15時包含太多的領域殘基會在輸入中產生噪聲。

針對總體精度最好的SI90N15分析每種氨基酸的召回率和精確度。其中Gly(甘氨酸)和Pro（脯氨酸）的召回率和準確率都較好。因為Pro具有特殊的剛性構象，而Gly在主鏈二面體方面具有高度的靈活性。召回、精度較低的氨基酸在訓練集中的丰度通常較低，例如Met、Gln和His。

計算了每個天然氨基酸被預測為20個氨基酸的概率，並將其繪製在二維天然氨基酸和預測的熱圖中（如上圖）。x軸和y軸上的氨基酸是根據它們的性質和彼此之間的相似性來排序的。正如預期的那樣，對角線網格顯示出更高的概率。有趣的是，沿著對角線有幾個組，包括

網路的輸出是20個氨基酸的概率在一個目標位置，除了上面提到的準確性，也可以計算top-K精度：如果源氨基酸在top-K預測(K氨基酸概率最高)，預測被認為是正確的。在SI90N15資料集上訓練的網路的前2、3、5和10個準確率分別達到54.3%、64.0%、76.3%和91.7%。

表 Rosetta固定主幹設計在三個蛋白質有/沒有殘基本類型約束的平均序列準確率

Protein	No-restrain*	Top 1	Top 3*	Top 5*	Top 10*
2B8I	$$0.276 \pm 0.033 $$	0.337	$$0.306 \pm 0.017$$ (0.558)	$$\mathbf{0.354 \pm 0.021} $$ (0.688)	$$0.293 \pm 0.037 $$ (0.883)
1HOE	$$0.408 \pm 0.026 $$	0.338	$$\mathbf {0.473 \pm 0.018} $$ (0.635)	$$0.441 \pm 0.018 $$ (0.689)	$$0.416 \pm 0.028 $$ (0.851)
2IGD	$$0.409 \pm 0.034$$	0.475	$$0.473 \pm 0.023 $$ (0.705)	$$0.401 \pm 0.028 $$ (0.754)	$$0.408 \pm 0.032 $$ (0.967)

應用Top-3、5和10預測限制設計三個蛋白質包括all-α蛋白(2B8I60)，all-β蛋白質(1HOE61)和混合αβ蛋白(2IGD),這些蛋白質都不包含在訓練集中。蛋白質的晶體結構被用作在SI90N15資料集上訓練的神經網路的輸入。每個位置的固定主幹設計程式中的Top-3、5和10個氨基酸作為約束條件。作為對照，列出了這些蛋白質上神經網路的最高準確性，並且進行了固定主幹設計（每個位置允許所有20種天然氨基酸）。由於fixbb使用了一種隨機設計演演算法，為每個蛋白質生成了500個序列，並計算出與天然蛋白質的平均序列一致性。

PS

特徵包括基本的幾何和結構屬性的殘留，如Cα-Cα距離，主幹二面體φ，ψ，ω的$$cos$$和$$sin$$的值，通過一箇中心$$C_{\alpha} $$殘基到領域$$C_{\alpha}$$殘基的單位向量確定相鄰殘基和目標殘基的相對位置，三種二級結構（螺旋、片狀和環狀），主鏈骨架氫鍵的數量，和溶劑存取骨幹原子的表面積。

召回是正確預測（恢復）的原生殘基的百分比，精度是正確預測的百分比。