DevOps Coach 週刊 #2

2020-08-11 20:35:07

宕機

上週全球重大宕機事故清單。

Facebook

  • 具英媒體報道:7月 28 日 12:20pm, Facebook, Instagram 和 WhatsApp 這三款使用者的一半以上的使用者,無法加載出頁面,無法正常使用服務。 Facebook 官方還沒有關於這次事故的迴應。實際上整個歐洲大陸,特別是葡萄牙和西班牙的故障更要嚴重一些。原因不明。
  • 影響範圍:London, Birmingham 和 Manchester.
  • 來源: https://metro.co.uk/2020/07/28/facebook-instagram-whatsapp-13048914/

fastly - 知名 CDN 服務商

  • 官方宣告:Fastly的網路具有內建冗餘和自動故障轉移路由,以確保最佳效能和正常執行時間。但當網路問題出現時,我們認爲我們的客戶應該得到清晰、透明的溝通,這樣他們才能 纔能保持對我們的服務和團隊的信任。當我們重新分配流量、升級硬體或在極少數情況下我們的網路不提供流量時,我們會在這裏發佈通知。如果您遇到問題而沒有看到張貼的通知,請發送電子郵件至 [email protected] 尋求幫助。
  • 影響範圍:North America (Ashburn (BWI), Ashburn (DCA), Ashburn (IAD), Ashburn (WDC), Atlanta (FTY), Atlanta (PDK), Dallas (DAL), Dallas (DFW), Jacksonville (JAX)).
  • 來源:https://status.fastly.com/history

Heroku

  • 官方宣告:JUL 28, 2020 09:15 UTC Heroku 平臺的很大的部分都遭受到可用性故障。然後開始和他們的服務提供商一起解決問題。一個多小時後平臺恢復了正常。
  • 來源:https://status.heroku.com/incidents/2090

新聞

DevOps實踐的採用與組織擁抱數位化轉型齊頭並進。這兩個短語都有被過度使用的風險,但這些貼文討論了一些有用的心理模型,以幫助聚焦對話。

  • https://aws.amazon.com/blogs/enterprise-strategy/mental-models-for-digital-transformation/
  • https://aws.amazon.com/blogs/enterprise-strategy/mental-models-to-clarify-the-goals-for-of-digital-transformation-part-2/

開發者平臺的哪些屬性會導致採用?下面 下麪的文章是專門關於大規模邊緣平臺的,但對於任何爲開發者構建各種平臺的人來說,包括在內部平臺團隊中這樣做的人來說,都是很好的閱讀。

  • https://blog.cloudflare.com/cloudflare-workers-serverless-week/

當第一次接受DevOps實踐和雲服務時,在大型組織中通常會建立一個卓越中心。在採取這種方法時,需要避免一些陷阱,下面 下麪的文章將討論這些陷阱。

  • https://www.contino.io/insights/cloud-centre-of-excellence-2020

最近的DevSecCon線上會議的視訊都可以看到,其中涵蓋了一系列有趣的主題,包括基礎設施作爲程式碼安全、持續審計合規、供應鏈攻擊等。

  • https://www.mydevsecops.io/post/devseccon24

關於無伺服器架構和單體應用之間的權衡,主要集中在較小規模的應用上,是一個不錯的討論。

  • https://dev.to/iamcherta/my-monolith-doesn-t-fit-in-your-serverless-311o

一篇關於linux內核新特性的深度技術文章,這些特性應該會讓非特權容器更受歡迎。對seccomp的細節也做了很好的介紹。

  • https://people.kernel.org/brauner/the-seccomp-notifier-new-frontiers-in-unprivileged-container-development

基於角色的存取控制在保護Kubernetes的安全方面發揮着重要作用。這個方便的網站將文章、工具和官方文件收集在一起。

  • https://rbac.dev/

對於任何使用Serverless技術的人來說,這是一項有趣的調查,來自該領域的衆多公司。我期待着結果公佈時的到來。

  • https://codingsans.typeform.com/to/mPinnC

文章

LaunchDarkly從基於 Polling 的架構開始,最終遷移到向客戶推播變化量(Streaming)。Dawn Parzych–LaunchDarkly。

  • https://launchdarkly.com/blog/launchdarklys-evolution-from-polling-to-streaming/

一個更簡單的分佈式跟蹤的替代方案,用於故障排除。
簡要概述了分佈式追蹤的一些問題,以及涉及人工智慧的另一種方式的建議。 Larry Lancaster - Zebrium

  • https://www.zebrium.com/blog/virtual-tracing-a-simpler-alternative-to-distributed-tracing-for-troubleshooting

谷歌雲 對 Classroom 的故障總結報告 2020-07-07
這是Google在7月7日對其Google Classroom 事件的事後報告。

  • https://static.googleusercontent.com/media/www.google.com/en//appsstatus/ir/u5sinmib27yly4i.pdf

面向領域的微服務架構介紹
長期以來,Uber一直是微服務的倡導者。現在,憑藉幾年的經驗,他們分享了他們所學到的經驗,以及如何處理一些陷阱。Adam Gluck - Uber

  • https://eng.uber.com/microservice-architecture/

通過遠端事件響應使PagerDuty始終保持開啓狀態。
本文開篇就從PagerDuty的角度對Cloudflare中斷的情況進行了有趣的描述。Dave Bresci - PagerDuty

  • https://www.pagerduty.com/blog/remote-incident-response/

安全是設計出來的?
這篇文章反映了兩種不同的安全理念。

  • 工程設計應確保系統的安全。
  • 單純的設計不能保證系統的安全
    Lorin Hochstein
  • https://surfingcomplexity.blog/2020/07/28/safe-by-design/

我們能做的就是發現問題
你不能用可用性指標來告知你的系統是否足夠可靠,因爲它們只能在你出現問題時告訴你。
Lorin Hochstein

  • https://surfingcomplexity.blog/2020/07/28/all-we-can-do-is-find-problems/

工具推薦

管理 K8s 命令列工具的工具,所有命令列工具一站式搞定,一鍵式安裝很多 k8s 叢集基礎。

  • https://github.com/alexellis/arkade/

一個在檔案系統之上的檔案系統。

  • https://github.com/carlosgaldino/gotenksfs

一個 Cloud-Native API Gateway

  • https://github.com/apache/apisix

一個簡單而全面的容器漏洞掃描器,適用於CI。

  • https://github.com/aquasecurity/trivy