宕機
上週全球重大宕機事故清單。
Facebook
- 具英媒體報道:7月 28 日 12:20pm, Facebook, Instagram 和 WhatsApp 這三款使用者的一半以上的使用者,無法加載出頁面,無法正常使用服務。 Facebook 官方還沒有關於這次事故的迴應。實際上整個歐洲大陸,特別是葡萄牙和西班牙的故障更要嚴重一些。原因不明。
- 影響範圍:London, Birmingham 和 Manchester.
- 來源: https://metro.co.uk/2020/07/28/facebook-instagram-whatsapp-13048914/
fastly - 知名 CDN 服務商
- 官方宣告:Fastly的網路具有內建冗餘和自動故障轉移路由,以確保最佳效能和正常執行時間。但當網路問題出現時,我們認爲我們的客戶應該得到清晰、透明的溝通,這樣他們才能 纔能保持對我們的服務和團隊的信任。當我們重新分配流量、升級硬體或在極少數情況下我們的網路不提供流量時,我們會在這裏發佈通知。如果您遇到問題而沒有看到張貼的通知,請發送電子郵件至 [email protected] 尋求幫助。
- 影響範圍:North America (Ashburn (BWI), Ashburn (DCA), Ashburn (IAD), Ashburn (WDC), Atlanta (FTY), Atlanta (PDK), Dallas (DAL), Dallas (DFW), Jacksonville (JAX)).
- 來源:https://status.fastly.com/history
Heroku
- 官方宣告:JUL 28, 2020 09:15 UTC Heroku 平臺的很大的部分都遭受到可用性故障。然後開始和他們的服務提供商一起解決問題。一個多小時後平臺恢復了正常。
- 來源:https://status.heroku.com/incidents/2090
新聞
DevOps實踐的採用與組織擁抱數位化轉型齊頭並進。這兩個短語都有被過度使用的風險,但這些貼文討論了一些有用的心理模型,以幫助聚焦對話。
- https://aws.amazon.com/blogs/enterprise-strategy/mental-models-for-digital-transformation/
- https://aws.amazon.com/blogs/enterprise-strategy/mental-models-to-clarify-the-goals-for-of-digital-transformation-part-2/
開發者平臺的哪些屬性會導致採用?下面 下麪的文章是專門關於大規模邊緣平臺的,但對於任何爲開發者構建各種平臺的人來說,包括在內部平臺團隊中這樣做的人來說,都是很好的閱讀。
- https://blog.cloudflare.com/cloudflare-workers-serverless-week/
當第一次接受DevOps實踐和雲服務時,在大型組織中通常會建立一個卓越中心。在採取這種方法時,需要避免一些陷阱,下面 下麪的文章將討論這些陷阱。
- https://www.contino.io/insights/cloud-centre-of-excellence-2020
最近的DevSecCon線上會議的視訊都可以看到,其中涵蓋了一系列有趣的主題,包括基礎設施作爲程式碼安全、持續審計合規、供應鏈攻擊等。
- https://www.mydevsecops.io/post/devseccon24
關於無伺服器架構和單體應用之間的權衡,主要集中在較小規模的應用上,是一個不錯的討論。
- https://dev.to/iamcherta/my-monolith-doesn-t-fit-in-your-serverless-311o
一篇關於linux內核新特性的深度技術文章,這些特性應該會讓非特權容器更受歡迎。對seccomp的細節也做了很好的介紹。
- https://people.kernel.org/brauner/the-seccomp-notifier-new-frontiers-in-unprivileged-container-development
基於角色的存取控制在保護Kubernetes的安全方面發揮着重要作用。這個方便的網站將文章、工具和官方文件收集在一起。
對於任何使用Serverless技術的人來說,這是一項有趣的調查,來自該領域的衆多公司。我期待着結果公佈時的到來。
- https://codingsans.typeform.com/to/mPinnC
文章
LaunchDarkly從基於 Polling 的架構開始,最終遷移到向客戶推播變化量(Streaming)。Dawn Parzych–LaunchDarkly。
- https://launchdarkly.com/blog/launchdarklys-evolution-from-polling-to-streaming/
一個更簡單的分佈式跟蹤的替代方案,用於故障排除。
簡要概述了分佈式追蹤的一些問題,以及涉及人工智慧的另一種方式的建議。 Larry Lancaster - Zebrium
- https://www.zebrium.com/blog/virtual-tracing-a-simpler-alternative-to-distributed-tracing-for-troubleshooting
谷歌雲 對 Classroom 的故障總結報告 2020-07-07
這是Google在7月7日對其Google Classroom 事件的事後報告。
- https://static.googleusercontent.com/media/www.google.com/en//appsstatus/ir/u5sinmib27yly4i.pdf
面向領域的微服務架構介紹
長期以來,Uber一直是微服務的倡導者。現在,憑藉幾年的經驗,他們分享了他們所學到的經驗,以及如何處理一些陷阱。Adam Gluck - Uber
- https://eng.uber.com/microservice-architecture/
通過遠端事件響應使PagerDuty始終保持開啓狀態。
本文開篇就從PagerDuty的角度對Cloudflare中斷的情況進行了有趣的描述。Dave Bresci - PagerDuty
- https://www.pagerduty.com/blog/remote-incident-response/
安全是設計出來的?
這篇文章反映了兩種不同的安全理念。
- 工程設計應確保系統的安全。
- 單純的設計不能保證系統的安全
Lorin Hochstein
- https://surfingcomplexity.blog/2020/07/28/safe-by-design/
我們能做的就是發現問題
你不能用可用性指標來告知你的系統是否足夠可靠,因爲它們只能在你出現問題時告訴你。
Lorin Hochstein
- https://surfingcomplexity.blog/2020/07/28/all-we-can-do-is-find-problems/
工具推薦
管理 K8s 命令列工具的工具,所有命令列工具一站式搞定,一鍵式安裝很多 k8s 叢集基礎。
- https://github.com/alexellis/arkade/
一個在檔案系統之上的檔案系統。
- https://github.com/carlosgaldino/gotenksfs
一個 Cloud-Native API Gateway
- https://github.com/apache/apisix
一個簡單而全面的容器漏洞掃描器,適用於CI。
- https://github.com/aquasecurity/trivy