【原創】K8S環境下研發如何本地偵錯?kt-connect使用詳解

2022-09-07 18:00:34

K8S環境下研發如何本地偵錯?kt-connect使用詳解

背景

注:背景有點囉嗦,講講一路走來研發本地偵錯的變化,嫌煩的可以直接跳過,不影響閱讀。

2019年

我在的公司當時是個什麼情況,只有兩個Java應用,還都跑在一個Tomcat Servlet容器。

當時是如何本地偵錯?都是研發自己電腦裝個Mysql,裝個Tomcat,自己電腦執行偵錯,好處嘛就是後端研發互不干擾,想怎麼改就怎麼改,APP端研發就直連後端的筆電偵錯。上線部署嘛就是一個研發手動編譯個Jar包丟到雲伺服器上面,大體就是個草臺班子,能幹活,但是也就那樣。

2020年

到了2020年,公司買了一臺伺服器,Centos的系統,給裝上了Mysql、Tomcat,用上了Redis快取,RabbitMQ訊息佇列,有了獨立的測試環境,用上了Jenkins自動打包並部署應用,也算鳥槍換炮,起碼不用自己打包了。

這個時候是如何本地偵錯呢?起碼不用自己電腦裝Mysql了,後面框架由SpringMVC和Struts2都改成Spring Boot,外接的Tomcat也可以去掉了。後端研發本地執行Spring Boot時直連伺服器的Mysql進行偵錯,APP端再也不用連後端研發的筆電了,有了相對穩定的偵錯環境。代價就是各個後端的資料庫更新結構要保持相容性,避免影響他人。

2021年

隨著業務增長,後端框架由Spring Boot進化為Spring Cloud全家桶,應用執行環境由Linux直接執行改為了Docker映象部署,各類中介軟體同樣也使用了Docker映象。產品線增加,單一的開發分支已經不能滿足需求,為此又開闢了另外一條後端程式碼分支,同樣的開發測試環境也多了一份。

這個時候的本地偵錯,對於APP端來說變化不大,區別連線後端不同環境使用不同域名而已。對於後端的研發同學就不一樣了,每次本地偵錯自己電腦要常駐一個Eureka和一個Config Server,如果本地偵錯的微服務依賴比較多,沒個大記憶體真是頂不住。

2022年

業務量繼續增加,產品同事數量增加了,那個需求量真是堆積如山,兩個分支已經不能滿足要求了,又開了第三個分支,還是不夠。每次增加新的分支執行環境,後端研發同學也很痛苦,一堆環境和第三方平臺回撥需要設定。為了能動態擴容縮容,Spring Cloud全家桶繼續演進,拋棄了Zuul閘道器和Eureka,改為使用Spring Cloud Kubernetes,執行環境全面向K8S靠攏。在此期間公司又採購了一臺伺服器用於開發測試,記憶體CPU磁碟滿上!

進入K8S時代,後端研發原生的電腦沒辦法隨意連線Linux伺服器上面的各種中介軟體,每個新分支環境裡面的每個POD都是一個新的ip,也不可能像之前那樣開放指定幾個中介軟體的埠給後端連線,那麼多環境每個都做設定的話,運維同學整天不用幹別的事了。也由此引出了今天要說的kt-connect工具,通過這個工具,後端研發原生的電腦可以代理存取到各個分支環境,也就是K8S裡面的名稱空間的所有服務,並且只需要啟動需要偵錯的服務,大大節省了電腦CPU記憶體佔用。

選型

在選擇代理存取K8S環境以便於本地偵錯的工具中,網上有幾種。

1. 埠轉發

使用Ingress、NodePort、LoadBalancer之類的將流量轉發到指定埠,如上文所說,會讓運維同學工作量比較大,也不便於分支環境的自動建立和回收,只適合需要暴露埠數量不多的場景。

2. VPN

通過在K8S每個名稱空間裡面設定一個執行有VPN服務的POD,後端研發筆電通過VPN使用者端連線代理進入到指定名稱空間,可以正常存取和解析叢集內各類服務,基本能滿足日常的要求,缺點是每個名稱空間都常駐了一個VPN服務的執行資源。

3. Telepresence

在搜尋的過程中發現了這個代理工具,幾乎可以說9成的中英文技術文章都推薦使用這個工具,功能非常強大,不但提供了VPN所具有的代理功能,可以存取到名稱空間內所有服務,還能指定各種規則攔截指定服務的流量到本地機器,相當於本地機器也能作為一個普通的POD提供對外服務。大體設計原理如下:

在研發本地電腦執行如下命令

telepresence helm install --kubeconfig .\kubeconfig
telepresence connect ---kubeconfig .\kubeconfig

就會自動在K8S叢集建立一個名稱空間ambassador,並且部署一個traffic-manager的pod,用於流量管理,而在研發筆電本地則會啟動2個daemon服務,其中一個叫Root Daemon,用於建立一條雙向代理通道,並管理本地電腦與K8S叢集之間的流量,另外一個User Daemon則是負責與Traffic Manager通訊,設定攔截規則,如果登入後還負責與Ambassador Cloud進行通訊。
通過設定攔截規則,攔截的POD裡面會安裝一個traffic-agent,官方檔案說明是類似K8S叢集的sidecar模式,對注入POD進行流量劫持,所有流量出入通過traffic-manager進行重新路由。

The Traffic Agent is a sidecar container that facilitates intercepts. When an intercept is first started, the Traffic Agent container is injected into the workload's pod(s).

雖然他的功能很強大,但是在目前2.5版本的使用過程中,為了使用他的攔截和Preview Url功能必須在他家的商業雲平臺Ambassador Cloud進行註冊登陸(注:不知道為什麼網上技術文章都沒提到這點,測試的時候非得要登入他家雲平臺),並且攔截規則的設定是通過雲平臺的網頁進行操作的,聯網的要求,包括可能存在的安全,洩露之類的隱患,我覺得是不可接受,也因此不得不放棄使用這個工具。
還有一個不得不說的缺點就是,老版本使用後可以清理掉自動建立的名稱空間(namespace)和pod、攔截agent的功能(telepresence uninstall)也沒了,在2.5版本的命令引數裡面完全消失了,這就導致每次使用後,如果想保持環境乾淨,還得麻煩運維同學去清理掉,非常麻煩,簡直逼死潔癖患者。

4. kt-connect

所幸開源社群又找到了另外一款類似Telepresence的工具,名為kt-connect,使用版本為v0.3.6(順便說下我們使用的K8S版本是1.24),並且它無需聯網登陸什麼賬號,結束命令執行預設還會自動清理。阿里出品,不確定是不是又一個KPI開源專案,但是至少這一刻我對這個工具是非常滿意的。

原理

同Telepresence類似,但不同的是,kt-connect只會在指定連線的名稱空間(namespace)裡面新建一個自用的pod,然後部署一個kt-connect-shadow的映象。相比Telepresence,它在模式進行了細分擴充套件,分為四大模式:

1. Connect模式

ktctl.exe connect --kubeconfig .\kubeconfig --namespace feature-N --debug

這個模式下,kt-connect起到的是一個類似於VPN的作用,研發本地電腦可以存取到連線的名稱空間(namespace)內的所有服務,但是並沒有加到叢集裡面其他服務裡面,其他服務的流量並不會轉發到本地電腦。

注1:與telepresence類似,kt-connect所有命令都要帶上--kubeconfig,確保有足夠許可權和能正確連線K8S叢集的API Server,很多文章都很少提到這點,假如K8S叢集限制許可權,或者與研發不在同一個網路,必須確保使用運維同學提供的有足夠許可權的授權檔案kubeconfig來進行連線。
注2:

Failed to setup port forward local:28344 -> pod kt-connect-shadow-gseak:53 error="error upgrading connection: error sending request: Post "https://10.0.8.101:8443/api/v1/namespaces/feature-N/pods/kt-connect-shadow-gseak/portforward": dial tcp 10.0.8.101:8443: connectex: A socket operation was attempted to an unreachable host.",

如果出現以上報錯的話,有可能是kt-connect路由BUG,可能本地電腦的路由與新加的通往API Server的路由有衝突,增加引數--excludeIps 10.0.8.101/32即可,如果網段衝突比較多,可以擴大網段範圍,例如--excludeIps 10.0.8.0/24 參考issue-302

ktctl.exe connect --kubeconfig .\kubeconfig --namespace feature-N --excludeIps 10.0.8.101/32 --debug

2. Exchange模式

ktctl.exe exchange serviceA --kubeconfig .\kubeconfig --namespace feature-N --expose 12001 --debug

這個模式類似於Telepresence攔截模式,將指定服務的所有流量攔截下來轉發到研發本地電腦的埠,使用這個模式能對環境裡的存取請求直接進行偵錯。
具體原理就是將service裡面的pod替換成一個serviceA-kt-exchange的pod。

注1:Exchange模式的流量方向是單向的,並不會將本地電腦主動發起的請求代理過去,如果K8S叢集跟研發本地電腦不在一個網段內,需要另外開一個命令列執行Connect模式,確保本地服務可以正常連線K8S叢集的其他服務,參考issue-216
注2:Exchange模式是通過攔截service進行流量轉發,假如叢集的請求沒有經過service,例如直接解析到pod之類,可能就會出現攔截失敗的情況(同理Mesh模式也是如此),所以出現問題記得跟運維同學確認K8S叢集內的路由情況。

3. Mesh模式

kctl.exe mesh serviceA --kubeconfig .\kubeconfig --namespace feature-N --expose 12001 --debug

執行命令後可以看到輸出紀錄檔裡面包含類似文字:

2:30PM INF Now you can access your service by header 'VERSION: xxxxx'

這個模式本地電腦的服務和K8S叢集裡面相同的服務同時對外響應請求,但是隻有通過指定的http請求頭VERSION: xxxx的請求才會轉發到本地電腦,相比Exchange模式,保證了其他人服務正常使用,同時研發又能進行本地偵錯。每次生成的請求頭VERSION的值都是動態生成的,如果要固定這個值,可以通過引數--versionMark寫死,例如固定值為test-version,命令如下:

kctl.exe mesh serviceA --kubeconfig .\kubeconfig --namespace feature-N --expose 12001 --debug --versionMark test-version

具體原理就是將serviceA裡面的Pod替換成一個serviceA-kt-router的路由映象,負責根據請求頭進行流量代理轉發,另外生成一個serviceA-kt-stuntman服務,這個就是線上正常執行的serviceA,還有一個serviceA-kt-mesh-xxxxx服務,這個就負責將代理流量到本地電腦。

4. Preview模式

kctl.exe preview serviceB --kubeconfig .\kubeconfig --namespace feature-N --expose 12001

不同於Exchange和Mesh模式要求K8S叢集有一個在執行的服務,Preview模式可以將本地電腦執行的程式部署到K8S叢集中作為一個全新的Service對外提供服務,非常便於新建服務的開發偵錯、預覽等作用。