有史以来 Bug引发的大事故盘点

无论工程师做了多少枯燥的测试工作,无论他们熬了多少不眠之夜在编程,但最终他们得到的是:会导致软件彻底出问题的 bug。你知道吗,由于软件故障(bug),美国经济每年在浪费生产力、返工和实际毁坏上损失了数十亿美元。

软件故障背后的常见原因有:

  • 错误的结构定义和底层设计;

  • 脱离大量可靠数据和分析的强制性计划或里程碑日期;

  • 没有考虑和调整需求增长;

  • 整合过量员工去实现不现实的进度压缩;

  • 利益相关者基于直觉或情感的谈判;

  • 沟通不畅、自负以及消极的态度;

本文列举了一些由软件 Bug 引发重大事故,其结果是大量金钱损失,甚至人员死亡。

10.Mydoom 病毒(2004年)

Mydoom 是一种计算机病毒,于 2004 年 1 月 26 日首次出现。病毒出现第二天,SCO 组织悬赏 25 万美元,以奖励提供病毒作者信息的人。据 MessageLabs 称,当时每十二封电子邮件中就有一封携带这种病毒。

损失:380 亿美元

故障原因:该病毒能够在操作系统中创建一个后门,让未经授权的用户访问您的个人数据。同时,它可以欺骗邮件,使其源头很难被跟踪。和其他病毒一样,Mydoom 可以搜索电子邮件里的联系人,并将请求发送给所有的搜索引擎。

9.哈特福德体育馆倒塌

1978 年 1 月 18 日,(美国康涅狄格州的)哈特福德市中心体育馆在近 5000 名观众离开后的几个小时内轰然倒塌。其钢网壳组成的屋顶在雪的重压下崩塌。

损失:7000 万美元 + 当地经济的 2000 万美元损失

故障原因:有很多相互冲突的失败原因,包括设计流程、结构以及编程错误。CAD 程序员假设屋顶支撑结构仅需要面临纯压缩,从而做出错误的设计。

此外,计算机模型假设所有的顶部弦杆进行了横向支撑,但实际上只有内部框架符合标准。固定荷载被低估了超过 20%。当顶部其中一个支架被大雪意外压弯时,便引发了屋顶其他部分的连锁反应。

8.火星气候探测者号

火星气候探测者号是由美国宇航局于 1998 年发射的一个空间探测器,用于研究火星的大气层、气候以及表层变化。发射后第 286 天,进入火星轨道时失去了通讯。导航故障让火箭过于靠近火星大气层,从而导致燃烧并解体。

损失:1.25 亿美元

故障原因:任务失败的主要原因是人为失误。火星气候探测者号上的飞行系统软件使用公制单位牛顿计算推进器动力,而地面人员输入的方向校正量和推进器参数则使用英制单位磅力。这个因计量单位混淆的错误在此后的所有任务中被 NASA 小心地避免。

7. IRS:缺少欺诈检测系统

2006 年,美国国内税收系统(IRS)缺少自动还款欺诈检测系统,无法监测返还申报资金时的潜在欺诈案件,损失了数百万。

损失:3 亿美元的损失,21 美元修复

故障原因:在 2005 年 1 月,计算机科学公司本应交付电子欺诈系统(EFDS)。然而在 2004 年 10 月,IRS 担心他们的 2100 万个系统将无法按时准备好,这也是为什么他们决定在 2005 年的归档阶段使用旧系统。

据 IRS 局长 Mark Everson 称,IRS 及其承包商在提高自动还款欺诈检测系统方面管理不足,不可接受。

6.阿丽亚娜 5 型运载火箭

1996 年,阿丽亚娜 5 型运载火箭首次飞行,搭载发射星群航天器(欧洲航天局的四大航天器之一的星座)。然而由于运载火箭无法到达指定轨道,任务以失败告终。

损失:3.7 亿美元

故障原因:阿丽亚娜5型运载火箭基于前一代4型火箭开发。在4型火箭系统中,对一个水平速率的测量值使用了16位的变量及内存,因为在4型火箭系统中反复验证过,这一值不会超过16位的变量,而5型火箭的开发人员简单复制了这部分程序,而没有对新火箭进行数值的验证,结果发生了致命的数值溢出。因此,飞行器在发射后 37 秒便从原始路径偏移。最终不得不启动了火箭自毁程序。

5.奔腾的长除法

1994 年,英特尔的奔腾微处理器芯片的浮点计算单元出现了一个 Bug。对于精确计算,处理器将返回不正确的十进制值。当时有大概 500 万个缺陷芯片在流通,英特尔最终决定为所有投诉的人更换芯片。这之后,英特尔把他们的故障处理器做成了钥匙链。

损失:4.75 亿美元 + 品牌名誉受损

故障原因:在奔腾浮点单元的分频器中有一个有缺陷的除法表,在约一千个条目中丢失了五条纪录。然而,这个错误在 90 亿随机浮点小数的除法中仅可能出现一次。例如,将 4195835.0 除以 3145727.0 得出 1.333739068902037589,而不是 1.333820449136241002,有 0.006% 的误差。

4. 1987 年的华尔街崩盘

1987 年 10 月 19 日(也被称为黑色星期一),道琼斯工业平均指数(DJIA)下跌了 508 个点,损失了总价值的 22.61%,且标准普尔 500 指数下跌了 20.4%。这是华尔街一天之内见过的最大损失。

损失:一天 5000 亿美元

故障原因:问题出在交易程序和估价程序。在交易程序中,计算机基于外部输入执行快速股票交易,如相关证券的价格。该交易程序理应实施投资组合保险策略,并试图从事套利。

1987 年初,美国证券交易委员会针对内幕交易开始了一系列的调查。直到 10 月,投资者决定搬出华尔街。随着人们开始大规模外流,计算机交易程序出现了大量的销售订单至 DOT(订单转送及成交回报系统),于是系统超出负载、市场崩溃以及所有的投资者懵逼了。

3.千禧危机

千年虫(千年问题)是计算机系统的编码问题,在从 1999年 12 月 31 号过渡到 2000 年 1 月 1 号时,这个错误将在计算机网络和软件中引发一场浩劫。

损失:5000 亿美元

故障原因:为了节省计算机存储空间,大多数传统软件使用两位数字来存储日期中的年份,例如,用“97”来代表 1997 年。这导致了 2000 年 1 月之后日期相关程序的错误操作。

此外,有些程序没有考虑到 2000 年是闰年。甚至在 2000 年到来之前,人们都在担心一些软件可能在 1999 年 9 月 9 号(表示为 9/9/99)无法工作,因为早期的开发人员常使用一系列的 9 来表示一段程序代码的结束。

2.癌症治疗与致死性放射治疗

1985 年到 1987 年期间,Therac-25 医疗放射治疗装置让成百上千的患者暴露在大量过量的辐射之中,少数患者接受了高达预期 100 倍的放射剂量。2000 年,巴拿马城也发生了同样的辐射剂量误差。

损失:10 余人死亡,20 人重伤

故障原因:基于输入数据的顺序,治疗计划软件计算出并提供双倍剂量的辐射。

1.爱国者导弹

1991 年 2 月第一次海湾战争期间,部署在沙特宰赫兰的美国爱国者导弹系统未能成功追踪和拦截来袭的伊拉克飞毛腿导弹。结果飞毛腿导弹击中美国军营。

损失:28 名士兵死亡,100 多人受伤

故障原因:时间计算不精确以及计算机算术错误导致了系统故障。从技术角度来讲,这是一个小的截断误差。当时,负责防卫该基地的爱国者反导弹系统已经连续工作了100个小时,每工作一个小时,系统内的时钟会有一个微小的毫秒级延迟,这就是这个失效悲剧的根源。爱国者反导弹系统的时钟寄存器设计为24位,因而时间的精度也只限于24位的精度。在长时间的工作后,这个微小的精度误差被渐渐放大。在工作了100小时后,系统时间的延迟是三分之一秒。

0.33 秒对常人来说微不足道。但是对一个需要跟踪并摧毁一枚空中飞弹的雷达系统来说,这是灾难性的。飞毛腿导弹空速达4.2马赫(每秒1.5公里),这个”微不足道的”0.33秒相当于大约 600 米的误差。在宰赫兰导弹事件中,雷达在空中发现了导弹,但由于时钟误差没能精确跟踪,反导导弹因而没有发射拦截。


未经允许请勿转载:程序喵 » 有史以来 Bug引发的大事故盘点

点  赞 (0) 打  赏
分享到: