-
OpenAI全球宕机复盘:K8S循环依赖
2024年12月14日 in 云计算
12月11日,OpenAI 出现了全球范围内的不可用故障,影响了 ChatGPT,API,Sora,Playground 和 Labs 等服务。影响范围从 12 月 11 日下午 3:16 至晚上 7:38 期间,持续时间超过四个小时,产生显著影响。 根据 OpenIA 在事后发布的故障报告,此次故障的直接原因是新部署了一套监控,压垮了 Kubernetes 控制面。然后因为控制面故障导致无法直接回滚,进一步放大的故障影响,导致了长时间的不可用。 其实这个故障和去年双十一 阿里云全球史诗故障 非 …
-
云计算泥石流:文章导航
2024年11月14日 in 云计算
世人常道云上好,托管服务烦恼少。我言云乃杀猪盘,溢价百倍实厚颜。 赛博地主搞垄断,坐地起价剥血汗。运维外包嫖开源,租赁电脑炒概念。 世人皆趋云上游,不觉开销似水流。云租天价难为持,开源自建更稳实。 下云先锋把路趟,引领潮流一肩扛。不畏浮云遮望眼,只缘身在最前线。 曾几何时,“上云“近乎成为技术圈的政治正确,整整一代应用开发者的视野被云遮蔽。就让我们用实打实的数据分析与亲身经历,讲清楚公有云租赁模式的价值与陷阱 —— 在这个降本增效的时代中,供您借鉴与参考。 下云案例篇 DHH:下云超预期,能省 …
-
WordPress社区内战:论共同体划界问题
2024年10月17日 in 云计算
“我想直率地说:多年来,我们就像个傻子一样,他们拿着我们开发的东西大赚了一笔”。 —— Redis Labs 首席执行官 Ofer Bengal 的这句名言,成为 WordPress 社区内战,以及开源社区与商业利益之间的冲突的生动注脚。 我认为这个事件非常有代表性和启发意义 —— 当开源理想与商业利益出现冲突时,应该怎么做?一个开源项目的创始人,应当用什么样的方式来保护自己的利益,并维护社区的健康与可持续发展?这对 PostgreSQL 社区和其他开源软件社区与云厂商之间的冲突又能带来什么启 …
-
云数据库:用米其林的价格,吃预制菜大锅饭
2024年10月06日 in 云计算
云数据库是不是天价大锅饭 RDS带来的数据库范式转变 质量安全效率成本剖析核算, 下云数据库自建,如何实战! 太长;不看 从商业软件到开源软件再到云软件,软件行业的范式出现了嬗变,数据库自然也不例外:云厂商拿着开源数据库内核,干翻了传统企业级数据库公司。 云数据库是一门非常有利可图的生意:可以将成本不到 20¥/核·月的硬件算力卖出十倍到几十倍的溢价,轻松实现 50% - 70% 甚至更高的毛利率。 然而,随着硬件遵循摩尔定律发展,云管控软件出现开源平替,这个生意面临着严峻的挑战:云数据库服务丧 …
-
阿里云:高可用容灾神话破灭
2024年09月17日 in 云计算
2024年9月10日,阿里云新加坡可用区C数据中心因锂电池爆炸导致火灾,到现在已经过去一周了,仍未完全恢复。 按照月度 SLA 定义的可用性计算规则(7天+/30天≈75%),服务可用性别说几个9了,连一个8都不剩了,而且还在进一步下降中。 当然,可用性八八九九已经是小问题了 —— 真正的问题是,放在单可用区里的数据还能不能找回来? 截止至 09-17,关键服务如 ECS, OSS, EBS, NAS, RDS 等仍然处于异常状态 通常来说,如果只是机房小范围失火的话,问题并不会特别大,因为电源 …
-
云计算泥石流:合订本
2024年09月11日 in 云计算
世人常道云上好,托管服务烦恼少。我言云乃杀猪盘,溢价百倍实厚颜。 赛博地主搞垄断,坐地起价剥血汗。运维外包嫖开源,租赁电脑炒概念。 世人皆趋云上游,不觉开销似水流。云租天价难为持,开源自建更稳实。 下云先锋把路趟,引领潮流一肩扛。不畏浮云遮望眼,只缘身在最前线。 曾几何时,“上云“近乎成为技术圈的政治正确,整整一代应用开发者的视野被云遮蔽。就让我们用实打实的数据分析与亲身经历,讲清楚公有云租赁模式的价值与陷阱 —— 在这个降本增效的时代中,供您借鉴与参考。 云基础资源篇 剖析云算力成本,阿里云 …
-
草台班子唱大戏,阿里云PG翻车记
2024年08月19日 in 云计算
在《云数据库是不是智商税》中,我对云数据库 RDS 的评价是:“用五星酒店价格卖给用户天价预制菜”—— 但正规的预制菜大锅饭也是能吃的 也一般吃不死人,不过最近一次发生在阿里云上的的故障让我改变了看法。 我有一位客户L,这两天跟我吐槽了一个在云数据库上遇到的离谱连环故障:一套高可用 PG RDS 集群,因为扩容个内存,主库从库都挂了,给他们折腾到凌晨。期间建议昏招迭出,给出的复盘也相当敷衍。经过客户L同意后,我将这个案例分享出来,也供大家借鉴参考品评。 事故经过:匪夷所思 内存扩容:无事生非 从 …
-
我们能从网易云音乐故障中学到什么?
2024年08月18日 in 云计算
今天下午 14:44 左右,网易云音乐出现 不可用故障,至 17:11 分恢复。网传原因为基础设施/云盘存储相关问题。 故障经过 故障期间,网易云音乐客户端可以正常播放离线下载的音乐,但访问在线资源会直接提示报错,网页版则直接出现 502 服务器报错无法访问。 在此期间,网易 163门户也出现 502 服务器报错,并在一段时间后 302 重定向到移动版主站。期间也有用户反馈网易新闻与其他服务也受到影响。 许多用户都反馈连不上网易云音乐后,以为是自己网断了,卸了APP重装,还有以为公司 IT 禁了 …
-
蓝屏星期五:甲乙双方都是草台班子
2024年07月23日 in 云计算
最近,因为网络安全公司 CrowdStrike 发布的一个配置更新,全球范围内无数 Windows 电脑都陷入蓝屏死机状态,无数的混乱 —— 航司停飞,医院取消手术,超市、游乐园、各行各业歇业。 表:受到影响的行业领域、国家地区与相关机构(CrowdStrike导致大规模系统崩溃事件的技术分析) 涉及领域 相关机构 航空运输 美国、澳大利亚、英国、荷兰、印度、捷克、匈牙利、西班牙、中国香港、瑞士等部分航空公司出现航班延误或机场服务中断。美国达美航空、美国航空和忠实航空宣布停飞所有航班。 …
-
Ahrefs不上云,省下四亿美元
2024年05月22日 in 云计算
原文:How Ahrefs Saved US$400M in 3 Years by NOT Going to the Cloud 最近云计算在 IT 基础设施领域非常流行,上云成为一种趋势。基础设施即服务云(IaaS)确实有很多优点:灵活、部署敏捷、伸缩简便、在全球多地区都能即时上线,等等等等。 云服务提供商已经成为专业的 IT 服务外包供应商,提供便捷且易用的服务 —— 通过出色的营销、会议、认证和精心挑选的使用案例,他们很容易让人以为,云计算是现代企业 IT 的唯一合理选择。 但是,这些外 …