事實上我個人入坑tensorflow比較晚,於是導致我其實並沒有經歷Tensorflow_v1特別火熱的那個年代,今年(2020年)早些時候,Tensorflow_v2已經成熟並且開始大量的出現在技術乾貨當中,於是,我相當於跳過了那個需要寫sess的過程,直接學習了函數式model定義以及Keras,可以說是非常幸福了(因為確實簡化了很多工作)但遺憾的是,在機器學習和深度學習過程中,大量的前輩的文章,賴以實現的原始碼和demo使用的依然是v1的程式碼,所以如果有餘力還是很有必要去了解一些v1的程式碼寫法,至少要能看得懂才可以。
其實在一開始學習的時候,我就在試圖挖掘和總結v1與v2的區別,但是無奈細節太多,倒不如從v2有什麼開始介紹會更好理解,那麼最突出的一點應該就是v2與Keras更好的結合吧,避免了很多我們重複造輪子的過程。本文主要為了比較全面的介紹Tensorflow_v2與Keras的關係,同時全文伴隨著舉出一個比較經典的mnist折積案例來展示一下Keras的魅力。
Keras事實上是一個高階別的Python神經網路框架,能夠在Tensorflow上執行的一款高階的API框架,它擁有著豐富的資料封裝和一些先進的模型實現,避免了「重複造輪子」。並且Keras.datasets庫提供了一些經典的機器學習資料集的下載API,比如Mnist和IMDB資料集可以直接通過API下載專有的格式,而且為了方便初學者的使用,Keras對資料集已經進行過很好的清洗,大家可以放心的用合適的方法和函數去提取資料(網上可以搜到細節教學,這不是我們的重點,這裡不贅述)然後去直接測試自己的模型,而不用花大量的時間去清洗資料。當然最主要的還是Keras定義好了很多我們的常用操作,避免了重複造輪子的尷尬,對於提升開發者效率來說意義重大,同時也是Tensorflow引入Keras API的最主要目的。
事實上我們還是以Tensorflow程式碼為主,Keras只是我們的一個方便的輔助工具,它會簡化我們的程式編寫過程。
神經網路的核心就是model。任何一個神經網路的主要設計思想和功能都集中在model中。Keras的加入使得model的定義更加簡單了。其中,最簡單的就是序列模型Sequential model,它由多個網路層堆疊而成,順序執行,一層一層邏輯關係非常清晰,易於構建和理解。但是現在我們在解決實際應用場景中的問題的時候會發現,很多問題並不能簡單地解決,可能大部分時間我們現在要想在現有基礎上進一步改進,都需要製作更龐大複雜的模型。這時候就應該使用Keras的函數式格式來定義functional model(這也是我們接下來的重點,因為它真的很重要),它可以支援我們構建任意結構的神經網路圖。
但是我們一開始還是從介紹簡單的Sequential model開始,因為有比較才能覺察出functional model的優勢在哪兒。比如:
from tensorflow import keras as Keras
# Keras的Sequential model序列模型舉例
model = Keras.models.Sequential() # 建立一個Keras的Sequential模型
model.add(Keras.layers.Dense(128, activation='relu')) # 增加一個128個隱藏神經元的全連線層
model.add(Keras.layers.Dense(64, activation='relu')) # 增加一個64個隱藏神經元的全連線層
model.add(Keras.layers.Dense(16, activation='relu')) # 增加一個16個隱藏神經元的全連線層
model.add(Keras.layers.Dense(1, activation='softmax')) # 增加一個softmax歸一化輸出層
可以看到,首先建立了一個Sequential模型,然後根據我們實際的需要,在model裡面堆疊我們想要的神經網路層就可以了,在這裡僅僅是拿了4個簡單的全連線層來做示範,對於折積神經網路而言就將是很多conv層和pooling層。
順序模型對於問題解釋程度較差缺乏自由度,所以如果想要實現更為複雜的模型僅僅使用Sequential model就顯得不太夠,如果想要定義複雜模型(比如多輸出模型、有向無環圖或者具有共用層的模型)就應該使用Keras提供的函數式model定義法。
第一次接觸這種寫法會感覺很奇怪,但是習慣之後就發現其實還是很好理解的,只不過傳參的過程和呼叫的目標現在具有更好的自由度,它在形式上非常類似於傳統的程式設計,制需要建立模型匯入輸出和輸出「形式引數」即可。如果之前學過tensorflow_v1可以近似將其理解為一種新格式的「預留位置」(其實是為輸入提前申請了一個張量空間),在這裡也給出一個簡單的小例子程式碼:(註釋是我之前做案例的時候加的,懶得刪掉了,對於理解也有幫助)
# 使用Input類進行初始化輸入,根據輸入資料的大小將輸入的資料維度做成[28,28,1]
input_data = tf.keras.Input([28, 28, 1]) # 與之前v1不同的是batch_size不需要設定了,tensorflow2.3自己能識別
# 首先是一個32個3*3核的折積層,補零,啟用函數也不用自己再寫了,直接封裝在裡面了使用relu,並且用input_data初始化了整個折積類
conv = tf.keras.layers.Conv2D(filters=32, kernel_size=3, padding="SAME", activation=tf.nn.relu)(input_data)
# 然後是使用BatchNormalization正則化類作為正則化工具也被用作各個層之間的聯結(減小模型過擬合可能,並增強模型泛化能力)
conv = tf.keras.layers.BatchNormalization()(conv)
# 然後接一個64個3*3核的折積層,補零,啟用函數為relu(特別備註一下tensorflow2.0對於kernel_size=3有自己封裝好的優化效果,儘量多用3)
conv = tf.keras.layers.Conv2D(filters=64, kernel_size=3, padding="SAME", activation=tf.nn.relu)(conv)
# 然後進行一次最大值池化(也是為了降低過擬合,增加模型泛化能力)
conv = tf.keras.layers.MaxPool2D(strides=[1, 1])(conv)
# 然後再接一個128*3*3的折積層,補零,啟用函數為relu
conv = tf.keras.layers.Conv2D(128, 3, padding="SAME", activation=tf.nn.relu)(conv)
# 然後接一個Flatten層將資料壓扁(平整化)成全連線神經網路能使用格式
flat = tf.keras.layers.Flatten()(conv)
# 然後接一個全連線層隱藏層設定128個神經元,啟用函數使用relu(全連線層的目標是對摺積後的結果進行最終分類)
dense = tf.keras.layers.Dense(128, activation=tf.nn.relu)(flat)
# 將特徵提取為10個輸出維度進行最終分類使用softmax啟用函數進行特徵歸一化
output_data = tf.keras.layers.Dense(10, activation=tf.nn.softmax)(dense)
# 定義好折積神經網路的起止結點(即執行剛才定義好的模型從input_data開始到output_data結束,可以理解為規定模型定義部分的上下界)
model = tf.keras.Model(inputs=input_data, outputs=output_data)
關於這一部分,我們仔細的拿出來講,可以看到我上面給出的例子,這是筆者之前自己做的一個折積的函數式模型,它包含很多與我們之前說的Sequential model不同的地方,出現了很多我們之前不瞭解的引數和方法,現在我們選擇其中必要的部分進行講解。
首先第一部分是輸入端,也就是我在程式碼中第一行是用的Input初始化方法,可以發現其實Input是Keras類當中的一個layers層,或者可以將其看做輸入層的概念。Input函數其實適用於範例化Keras張量,Keras張量是來自底層後端輸入的張量物件(就是我們處理好的資料集當中一個物件的尺寸),其中當然又增加了一些屬性,使其能夠通過了解模型的輸入輸出來構建Keras完整的model模型。屬性如下:
@keras_export('keras.Input', 'keras.layers.Input')
def Input( # pylint: disable=invalid-name
shape=None,
batch_size=None,
name=None,
dtype=None,
sparse=False,
tensor=None,
ragged=False,
**kwargs):
"""`Input()` is used to instantiate a Keras tensor.
根據類庫的定義我們可以一個一個的來解讀其引數:
可以發現Input函數事實上是建立了一個輸入空間,這個輸入空間是一個可供存放物件的張量空間,維度的shape就是輸入的維度,需要注意的是,它與傳統的Tensorflow不同,這裡的batchsize是通過batch_size單獨一個引數進行設定的,不包含在shape引數中。需要注意。
但是這樣其實還是不太直觀,要想更好地理解shape可以看看我上面的程式碼,這個輸入的其實是mnist資料集,即手寫分類識別資料集,每張圖片的大小需要用4維來表示[1, 28, 28, 1]。第一個數位是批次的大小(每次一張圖片),第二、三個數位是圖片尺寸為28*28,第四個數位是通道個數(圖片是灰度圖片所以只有1個通道,RGB的話應該是3個通道)。
當然你會發現我寫的是[28,28,1]並沒有四維啊?這是因為tensorflow_v2.3非常厲害可以自動發現你現在在做的是一個影象識別的任務,所以你既不用在shape裡寫上batch,也不用單獨定義batch_size的前提下keras也知道你希望如何去處理這個資料集。
# 使用Input類進行初始化輸入,根據輸入資料的大小將輸入的資料維度做成[28,28,1]
input_data = tf.keras.Input([28, 28, 1]) # 與之前v1不同的是batch_size不需要設定了,tensorflow2.3自己能識別
剛才這上面講的都是關於輸入層的設計,它定義了整個model的輸入形式以及batch_size等資訊。那麼主要進行操作的其實還是中間層的設計,中間層的定義也與之前Sequential model有很大的不同。我們直接看例子中的這一部分:
# 首先是一個32個3*3核的折積層,補零,啟用函數也不用自己再寫了,直接封裝在裡面了使用relu,並且用input_data初始化了整個折積類
conv = tf.keras.layers.Conv2D(filters=32, kernel_size=3, padding="SAME", activation=tf.nn.relu)(input_data)
# 然後是使用BatchNormalization正則化類作為正則化工具也被用作各個層之間的聯結(減小模型過擬合可能,並增強模型泛化能力)
conv = tf.keras.layers.BatchNormalization()(conv)
# 然後接一個64個3*3核的折積層,補零,啟用函數為relu(特別備註一下tensorflow2.0對於kernel_size=3有自己封裝好的優化效果,儘量多用3)
conv = tf.keras.layers.Conv2D(filters=64, kernel_size=3, padding="SAME", activation=tf.nn.relu)(conv)
# 然後進行一次最大值池化(也是為了降低過擬合,增加模型泛化能力)
conv = tf.keras.layers.MaxPool2D(strides=[1, 1])(conv)
# 然後再接一個128*3*3的折積層,補零,啟用函數為relu
conv = tf.keras.layers.Conv2D(128, 3, padding="SAME", activation=tf.nn.relu)(conv)
# 然後接一個Flatten層將資料壓扁(平整化)成全連線神經網路能使用格式
flat = tf.keras.layers.Flatten()(conv)
# 然後接一個全連線層隱藏層設定128個神經元,啟用函數使用relu(全連線層的目標是對摺積後的結果進行最終分類)
dense = tf.keras.layers.Dense(128, activation=tf.nn.relu)(flat)
可以看到在這裡每個類被直接定義,之後將值作為類範例化以後的輸入值進行輸入計算。寫法上也是有著很大的不同。最直接的表現為,我們不同去定義每一層的輸入引數了,而是在每個類後面再寫一個括號,裡面放上輸入資訊,這直接就導致程式設計的靈活度提高了很多,因為輸入不是直接的層級關係,而可以進行跨越和反覆呼叫,這完全取決於變數名稱形式的呼叫關係,而不再是Sequential的流程主導控制。一開始肯定會不太習慣,但越來越覺得這種寫法很合理而且很好理解。(其實如果你想讓它順序執行很簡單,就可以按照我例子中的寫法,每一層的輸入其實是上一層的輸出,但這樣也很方便,因為我們不用起一大堆變數名了,而一直使用conv就可以)
其實輸出層很簡單,一般我們的模型最後都會有一個歸一化輸出層,這個層一般是個神經元特別少的全連線層,用於做分類預測輸出(啟用函數一般是softmax)。
# 將特徵提取為10個輸出維度進行最終分類使用softmax啟用函數進行特徵歸一化
output_data = tf.keras.layers.Dense(10, activation=tf.nn.softmax)(dense)
要記得我們定義完每一層之後,還要對我們的模型定義一個起點和終點,其實就相當於對我們剛才的構建過程打一個包,告訴keras我們從哪裡開始,從哪裡結束。方法寫法如下:
# 定義好折積神經網路的起止結點(即執行剛才定義好的模型從input_data開始到output_data結束,可以理解為規定模型定義部分的上下界)
model = tf.keras.Model(inputs=input_data, outputs=output_data)
就是將模型的起始層和輸出層告訴keras.model。
# compile函數是tensorflow_v2適配損失函數和選擇優化器的專用函數
# (使用Adam優化函數來優化梯度和學習率,損失函數為交叉熵損失函數,metrics使模型的評價標準,一般預設就是精準匹配模式)
model.compile(optimizer=tf.optimizers.Adam(1e-3), loss=tf.losses.categorical_crossentropy, metrics=['accuracy'])
無論我們是使用sequential model還是functional model定義方法,最後都要進行Model.compile來將模型的損失函數和優化方法進行定義。比如我上面的程式碼中使用的就是Adam優化方法,和交叉熵損失函數,後面是用的是精準metrics評價函數。關於metrics評價函數這個大家不熟悉的引數以及它與損失函數的對應關係,大家可以參考我的另一篇文章來進行學習https://blog.csdn.net/qq_39381654/article/details/108747701,和本文一樣都是個人總結以便自查,大家也可以去看看會有所幫助。跑題了……
總之,模型定義好了就該去定義這各compile方法了,通過改變引數去選擇你的模型的優化方法,損失函數和評價函數。
當我們定義好了模型之後,肯定是要開始載入訓練集去訓練模型咯,方法和以前一樣,使用的是model.fit方法,可以在這裡設定epoch整體迭代次數。
model.fit(train_dataset, epochs=3)
事實上這個過程也可以設定列印的時候的顯示模式可以在後面加上verbose這個引數,verbose = 0不列印過程進度條,只列印每一個epoch的結果,verbose = 1會列印epoch訓練進度條(我比較喜歡進度條),而如果你設定了verbose = 2就什麼都不列印,訓練完就完了(非常不推薦,這樣的話看不到每次epoch的acc和loss變化沒法得知epoch或者引數設定是否導致模型欠擬合或者過擬合)比如下面我給出的這是我做的另外一個RNN實驗的model.fit寫法,是不是比剛才複雜多了。
model.fit(trainSet, labelTrain, batch_size=400, epochs=7, verbose=1, validation_split=0.2)
首先,這是一個自帶標註的資料集,標註集被單獨分離出來了所以傳參的時候傳兩個,另外,這個資料集的數量比較龐大,需要自行設定epoch的batch_size,而且你會發現我最後還以這個資料集的20%抽取出來作為每一次epoch的驗證集,有助於我得到每輪迭代的預測loss和訓練集loss作比較,來方便調參。(這裡涉及調參和epoch的列印資訊含義,我想以後再單獨寫篇文章解釋吧,一篇文章東西太多不太好)。
# 使用Keras的model將定義好的模型進行儲存用以隨後的複用
model.save("model_saved.h5")
可以看到,我呼叫了model.save方法來儲存我剛剛訓練好的模型,這很有用。舉個例子,很多時候我們的叢集在雲端幫我們泡好了一個模型的資料,但是不巧我們在伺服器上接收不到我們程式碼裡的matplotlib繪製的資料,我們就可以讓伺服器執行model.save把訓練好的模型儲存在一個.h5檔案裡,然後拷貝到本地,直接載入模型進行預測,並且畫出預測圖和你想要的資料,甚至將該模型作為預訓練模型來做其他的事。
所以在這裡我再介紹一下如何使用之前儲存好的模型,其實很簡單,一行程式碼的事:
new_model = tf.keras.models.load_model("model_saved.h5")
然後再拿這個new_model去執行模型預測就可以直接呈現預測結果了:
new_model = tf.keras.models.load_model("model_saved.h5")
new_prediction = new_model.predict(test_dataset)
剛才我們進行了一個比較完整的Model定義和使用過程,我會把這個過程中使用的原始碼打包放在這裡供大家使用和對照,其實你會發現tensorflow_v2真的比v1省了很多事,我們不用定義好模型再去sess了,取而代之的是一套非常流暢的模型定義和使用過程,當然這樣高度的封裝也帶來另外一個問題就是,過於簡單的使用或許不適合我們去理解模型本身的具體實現,或者對模型底層實現改變或創新,但假如你做的是更高層或者深層DNN的模型的搭建,那麼我個人覺得不要重複造輪子,這些模型的效率已經很高了,我們可以在其他角度上改進和創新,tensorflow_v2和keras給我們提供了一個很好的平臺來幫助我們構建效率更高的模型和實現更多的現實任務,我們應該儘快熟悉並掌握它,來更高效地構建自己的模型和程式碼。當然我們都是站在巨人的肩膀上學習,向前輩致敬,並保持學習才是我們的態度。
相信大家已經看了本文的程式碼很久了,想要自己跑跑試試了。這裡打包上傳了我的mnist模型,但是再次提醒如果大家沒有設定GPU的話,跑這個實驗還是挺難的,建議要麼用伺服器,要麼自己去先參考我之前發的文章配個GPU+CUDA+CUDNN來訓練模型。(文章連結:https://blog.csdn.net/qq_39381654/article/details/108063967)
程式碼已經上傳,並且通過了驗證:https://download.csdn.net/download/qq_39381654/12914599(是這樣,我發現下載的人多了之後它會變貴,其實我一開始僅僅標記了1積分。所以如果它變得特別貴的時候私信我,我再把它調回去,可能平臺也是為了照顧作者,先謝謝平臺了)