锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

DevOps Coach 周刊 #6

时间:2022-09-12 00:00:00 cd4040bf3a集成电路

宕机

  • 上周新发的停机事故。
  • 最近对全球重大停机事故的分析总结和事后回顾。

May your queries flow and your pagers stay silent.
–Dave, Betsy, Niall, Stephen, and Ken

上周发生了故

  • Zoom 不能开始和加入会议, 官方报道 https://status.zoom.us/incidents/1z2lrf4nrv8p
  • Slack 官员:https://status.slack.com//2020-08/960bbb3c9d49a3cc
  • Let’s Encrypt 数据中心硬件模式故障 API 官方:https://status.io/pages/incident/55957a99e800baa4470002da/5f45330250878c04bf3fb6eb
  • NZX 新西兰证券交易所遭受重大痛苦DDoS攻击导致NZX停电,停止交易。https://www.stuff.co.nz/business/122562006/major-ddos-attack-causes-nzx-power-outage-trading-halt
  • eBay宕机。最新的服务器状态,DNS不可用的故障和服务错误,媒体:https://www.express.co.uk/life-style/science-technology/1329281/eBay-down-server-status-DNS-failure-service-unavailable-error
  • Heroku 发生大量的 H100 官方:https://status.heroku.com/incidents/2101
  • Fastly CDN 多区域性能故障发生在服务域性能故障,官方:https://status.fastly.com/incidents/p1lwmmv2j2gq
  • Cloudflare 上周的问题,我个人 blog 也遇到了,Google 搜索引服务记录了那些 500 错误,我也很惊讶;第三方传输供应商问题导致HTTP 5xx错误增加; 官方:https://www.cloudflarestatus.com/incidents/hptvkprkvp23

鳄鱼杯:2020年第二季度最大停机

来源:https://statusgator.com/blog/2020/08/21/5-biggest-outages-of-q2-2020/

[外链图片存储失败,源站可能有防盗链机制,建议保存图片直接上传(img-OzZaTuOD-1598851797605)(/images/crocodile-cup-3-1.jpg)]

任何可能发生的坏事都会发生。这句古老的谚语100%适用于技术行业。在这个行业,崩溃和中断比销售和营销团队想象的要普遍得多。然而,那些处理基础设施的人DevOps工程师知道保证一切都能按预期工作有多难–并配置监控,实际跟踪系统的健康状况,帮助防止崩溃和停机。

在StatusGator,我们监控800多个基于云服务的状态页面,并向用户提供即时通知。我们有停机和中断数据,可以看到全貌,所以我们决定每季度制定最高停机时间表。我们希望我们的发现能够得到激励DevOps为了提高自己的可靠性,工程师去看看别人是如何处理服务中断的。

请继续阅读,了解2020年第二季度的五大故障,以及Slack、Zoom、GitHub、IBM Cloud和T-Mobile如何在这些危机中行动。我们还对这些故障的结果进行了评级,并愿意听取您对我们评级的看法。

第一名 Slack 全球服务中断, May 12, 2020

Slack它是世界上数千家公司的主要沟通方式,因此其稳定的正常运行时间是最重要的问题。因此,当用户在美国东部时间晚上7:30左右停止发送和接收时,Slack情况迅速升级为全面问题。与之前的故障期不同,它影响了整个故障期Slack生态系统:没有人能登录Slack,没有人能收到任何通知。“Slack宕机了吗?”,用户们自问自答,答案是毋庸置疑的 “是!”

晚上10:26,美国东部时间,Slack该报告完全恢复了服务,并再次为不便道歉。更重要的是,他们在Medium上发表了一份详细的事后报告,解释了问题背后的原因,他们为克服这个问题所采取的行动,得出的结论,以及他们正在采取的措施,以消除类似情况再次发生的机会。

欢迎阅读本文后总结,其技术性很强,但即使是普通人也很容易理解。Slack在这里,他们向用户群成员展示–包括开发者和大众用户群–这篇文章投射的信心令人钦佩。

这里需要注意的是,虽然问题本身始于美国东部时间上午8:30,但许多用户报告了直到美国东部时间晚上7:30左右Slack只有这个问题才能完全被发现。在Slack在团队意识到这一点之前,他们在应用程序内部(当时大部分已经停机),Twitter上、Downdetector上、Slack该网站网站(很快就停机了)和其他很多渠道。

第二名 Zoom 宕机, May 17, 2020

自冠状病毒流行以来,越来越多的人远程工作和学习,Zoom利用率急剧上升。Zoom自4月以来,状态页面的订阅量也是如此,StatusGator订阅量急剧上升。

许多教会和其他公共组织除了被迫开始远程办公外,还开始使用它们Zoom周日来弥撒、会议和公共活动。因此,尽管周日不是工作日,但英国的许多付费账户很快发现他们无法主持或加入Zoom会议(免费账户似乎不受影响)。这个问题通过各种渠道报告,包括Twitter和监控Zoom状态的StatusGator。

Zoom发言人回应说,他承认自己意识到了这种情况,并提到影响子集的用户。然而,我们都知道子集可能是1%或99%,Zoom没有关于受影响用户数量的解释。提供更透明的受影响用户比例是高质量状态页面的标志,这是Zoom应该改进的地方。

第三名 GitHub 无法再访问. June 29, 2020

自从GitHub被微软以75亿美元收购后,GitHub好像又跌了很多。原因尚未披露,我们只能猜测原因。也许是与GitHub基础设施与微软系统的整合有关。也许是因为GitHub它发展得更快,增加了更多的功能。无论如何,收购已经快两年了,用户发现GitHub持续停机时间越来越长。我们对GitHub状态页面的独立分析证实,在过去的两年里,停机变得更加频繁。

微软正在努力将军GitHub成为比以前更好的开发者场所。今年早些时候,这家雷德蒙德巨头使所有的付费计划更加实惠,并免费提供一些关键功能,并将更多的工具放在上面IT专业人士手中。微软,苹果,AWS、谷歌、Facebook使用其他数千家公司GitHub存储和运行他们的代码仓库,所以它的正常运行时间是最重要的。

然而,GitHub2020年6月29日出现两小时故障。由于整个网站及其服务无法访问,许多开发人员甚至无法推送代码或部署他们的应用程序,因此GitHub集成量无响应。自然,这引起了很大的反应,并导致GitHub除状态页面外,还发布了月度可用性报告,详细说明了每次中断的原因和结果。

第四名 IBM Cloud 挂断,服务状态页面更新, June 10, 2020

任何基于云的服务都会犯的最大错误之一就是将其状态页面托管在自己的基础设施上。看来IBM云就是这样做的,所以当它的整个基础设施在6月份几个小时内无法访问时,它的状态页面也会随之而来。我们本可以期待IBM今年3月达拉斯停机后得出一些结论,但显然他们没有理会或做出足够的努力。

因此,2020年6月10日,IBM全球云基础设施停机。这次停机Watson AI、IBM Cloud Foundry、Kubernetes Service、云对象存储、身份访问和管理VPS的VPN、App Connect等功能完全无法访问。幸运的是,IBM Cloud状态页面只能在中断初期使用,然后断断续续地使用。这就是为什么StatusGator也可以订阅IBM Cloud用户发送状态页面提醒的原因。

该公司没有告知中断的原因和缓解影响的措施。后来,我从一家独立的监控服务机构了解到,第三方网络提供商广泛使用流量路线,导致流量路线IBM云配置带宽严重受限。IBM专家重新配置系统并恢复运行,但没有官方解释或公告–这让用户非常失望。

这不是IBM在公共关系中第一次失败,我们认为这不是最后一次。这可能是因为他们远远落后于多样化和有竞争力的云服务AWS、谷歌云平台,微软Azure其他云服务提供商的原因之一。

但IBM能做什么?自然有一个独立的状态页面! 这只是他们可以使用的一些变种。

第五名 T-Mobile2020年6月15日,冲洗其网络下水道。

作为美国、欧盟和英国最大的移动网络运营商之一,T-Mobile最近,我发现自己完美的风暴之中,连续13个小时无法在美国各地提供语音和短信服务。外部观察家马修·普林斯(Matthew Prince,CEO@Cloudflare)认为,“T-Mobile他们的网络发生了一些变化,但这改变出了问题,导致他们的用户出现了一连串的故障”。他还表示,“这场灾难几乎可以肯定完全是T-Mobile团队自己造成的”。

相反,T-Mobile技术总裁Neville Ray在推特上表示,虽然这确实是一个 “影响全国用户语音和文字服务的重大问题”,但它源于第三方供应商的系统故障,T-Mobile的工程师正在努力修复。随后,他在博客中详细阐述了这一话题,并对故障原因进行了解释。

引用雷先生的话说:"据悉,触发事件是东南部的第三方供应商的租用光纤电路故障。这是每一个移动网络都会发生的事情,所以我们与我们的供应商合作,建立冗余和弹性,以确保这种类型的电路故障不会影响客户。这种冗余让我们失败了,导致了过载的情况,然后又因为其他因素而变得更加复杂’。这导致IP池过载,美国所有地区都发生了崩溃。

由于无法接触到大多数服务,T-Mobile的客户开始报告Facebook、Instagram和其他平台无法使用,而实际上离线的是他们的移动运营商网络。Business Insider报道称,虽然T-mobile客户将故障归咎于AT&T和Verizon,但这两家运营商都是在正常的负载水平下运营的。不过,前述Neville Ray的帖子表示,T-Mobile正在采取一切必要措施,通过为所有核心系统建立双重弹性和冗余措施,确保未来不可能发生此类事件。

可以看到,公司无法明确表达自己的立场,从一开始就不愿意承担失败的责任,以及在故障发生后缺乏透明度,都没能让T-mobile毫无污点地走出困境。这甚至导致了他们面临大规模DDoS攻击却未能击退的传闻。

StatusGator为第二季参赛者颁奖

让我们根据这些宕机事件的发现、相关公司的沟通以及每个事件的结果来评定。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o8XvdLLw-1598851797607)(/images/gator-q2.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PHrHbbkU-1598851797608)(/images/Group-20-2048x1474.png)]

新闻

软件发布

  • Kubernetes 1.19 发布了, 它由34项增强功能组成。10个增强版转为稳定版,15个增强版在测试版,9个增强版在alpha版。
  • AWS 发布新的 EBS 卷类型 (io2) 提高 100x 持久性,和 10x 倍的 IOPS/GiB
  • Tekton Hub 预览版上线,随着该项目对底层流水线和构建的定义的日臻成熟,开放出一个相关的自由市场也是必然的,开源生态催生出来的上下游技术提供和消费的模式正在普及中,无周边生态的很难获利和发展,https://hub-preview.tekton.dev/

DevOps 大会/峰会

中国 DevOps 社区流水线大赛 – Pipeline Craft Championship

  • 8 月 18 日开始为期两个月,免费活动
  • 报名:https://wj.qq.com/s2/6852880/c181
  • 活动官网:https://Pipeline.devopsmeetup.com

SnykCon

  • 将在10月21日/22日举行一个关于所有应用安全和 DevOps 的在线活动。免费注册,CFP现在开放。
  • https://snyk.io/snykcon/

推荐和分享你感兴趣的大会和峰会给我和其它人吧?发邮件到:martin@devopscoach.org

文章

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J4UOd40R-1598851797610)(/images/WhyAvoidAutomation.gif)]

  • 这是一篇很好的文章,讲述了在整个组织中获得变革的支持时,自动化这个词所带来的问题,以及为什么观念很重要。

  • https://blogs.starcio.com/2020/08/avoid-calling-it-automation.html

  • 什么是Kubernetes Operators,为什么它对SRE很重要?

  • 在Kubernetes Operators: 自动化容器编排平台》中,作者Jason Dobies和Joshua Wood将Operators描述为 “其应用的自动化站点可靠性工程师”。鉴于SRE的多方面经验和多样化的工作量,这是一个大胆的说法。那么,Operators到底能做什么呢?

  • https://www.blameless.com/blog/what-is-a-kubernetes-operators-and-how-to-automate-sre

  • 探讨遗留IT系统的隐秘世界。探讨了一些值得注意的事件,以及我们需要更多地了解如何建立可长期运行的系统。

  • https://spectrum.ieee.org/computing/it/inside-hidden-world-legacy-it-systems

  • 一篇文章,讲述了随着组织的发展,增加一个总括性的平台团队的风险,以及为什么向平台组件和重用发展可以更具扩展性。

  • https://kislayverma.com/organizations/a-case-against-platform-teams/

  • NoOps Go on Cloud Run

  • https://medium.com/@peter.malina/noops-go-on-cloud-run-689d92215c5c

工具

学习资源

本周推荐如下 B 站学习资源。

Jenkins+Ansible+Gitlab自动化部署(CI/CD)

  • https://www.bilibili.com/video/BV1Dp411Z7Lf
  • 持续集成在工作中的应用。

通俗易懂ElasticSearch 项目实践课程

  • https://www.bilibili.com/video/BV1wA411n7LY
  • 搜房网实例项目讲解

【Python趣味教学】99%相似度!手把手教你用Python制作超级玛丽游戏

  • https://www.bilibili.com/video/BV1G54y197C2
  • 前26集都在这了,爱编程的小伙伴们,一起来重现童年经典吧!

Kubernetes教程 k8s企业级DevOps实践

  • https://www.bilibili.com/video/BV1c64y1F7wP
  • k8s是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署,规划,更新,维护的一种机制。
锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章