那一天,人們終于想起了被藍屏所支配的恐懼,以及面對Windows系統(tǒng)無能為力的屈辱
當(dāng)?shù)貢r間7月19日,全球無數(shù)打工人突然發(fā)現(xiàn),他們的電腦屏幕要么藍屏要么連不上系統(tǒng)服務(wù)器。而往常非常管用的“重啟大法”也失去了效果,重啟之后依然得面對那碩大的藍屏。
這次微軟藍屏導(dǎo)致的系統(tǒng)癱瘓遍布全球,但在北美尤其嚴重,對社會運行產(chǎn)生了嚴重影響:航班停飛、911熱線打不通、酒店無法辦理入住、醫(yī)院取消手術(shù)、商店無法營業(yè),而這一切都源于一家鮮為人知的網(wǎng)絡(luò)安全公司CrowdStrike——當(dāng)然現(xiàn)在已經(jīng)變成家喻戶曉了。
這次全球性的“藍屏事件”發(fā)生的原因說白了并不那么讓人意外。作為全球網(wǎng)絡(luò)安全與云計算端點保護領(lǐng)域頂尖公司之一,有大量公司和云服務(wù)器使用CrowdStrike公司的Falcon平臺,并且運行在Windows平臺上。
此次事件,就是由于CrowdStrike最新的一個軟件更新與Windows平臺出現(xiàn)了嚴重的兼容性問題,并由此導(dǎo)致出現(xiàn)了大面積的“藍屏死機”,而且“無限循環(huán)”。如果僅僅局限于個人電腦上也就罷了,但問題更新同樣應(yīng)用在云服務(wù)器上(比如微軟自家的Azure云服務(wù))并且同樣導(dǎo)致了嚴重問題,這使得“藍屏事件”對公共領(lǐng)域造成廣泛影響,而航空業(yè)又首當(dāng)其沖。
01. “藍屏”中的美國航司
由于各個國家的航空公司所采用的信息系統(tǒng)方案各不相同,使得在“藍屏事件”中受到的影響也各不相同:有些是自助值機系統(tǒng)無法使用只能柜臺辦理,有些是登機牌無法打印只能手寫,有些則是從值機到配載系統(tǒng)全部無法使用,徹底喪失運作能力。
航空公司的信息系統(tǒng)涉及到微軟Azure云服務(wù)以及基于Windows系統(tǒng)的終端是重災(zāi)區(qū),最要命的是那些在云服務(wù)上運行的信息系統(tǒng)服務(wù)器。
由于身處美國具有“地利”,美國航空公司就成了本輪“藍屏事件”的重災(zāi)區(qū)了,美國三大航(達美、美國、美聯(lián)航)一個不落全部遭殃,對所有航班發(fā)出地面停飛指令,FAA要求空中交通管制員告知飛行員,航空公司目前遇到了通信問題。除此之外,捷藍航空、邊境航空、精神航空這些中小航空公司也受到嚴重影響,關(guān)鍵系統(tǒng)無法使用并導(dǎo)致航班大量取消。
可以看到由于系統(tǒng)崩潰,7月19日美國飛行的航班數(shù)量比起前一天明顯減少
作為本輪藍屏事件的主要受害者,達美、美國航、美聯(lián)航有大量航班被取消,而其中受影響最大的是美國客流量最大的機場——亞特蘭大機場。作為全美最大的樞紐機場也是達美航空的基地機場,在本輪“藍屏事件”中累計取消了五百多班航班,其中多為達美航空的航班。緊隨其后的是芝加哥奧黑爾機場取消了近200班、紐約拉瓜迪亞機場取消了三分之一航班。而美國之外歐洲機場的航班也受到了不小的影響,阿姆斯特丹機場進出港航班有40%延誤,柏林機場有三分之一航班取消。
有意思的是,這一輪大規(guī)模系統(tǒng)故障卻沒有對美西南航空與阿拉斯加航空造成影響,還包括UPS、FEDEX這兩個航空貨運,而其背后的原因又堪稱“黑色幽默”。
美西南航空目前使用的航班運控系統(tǒng)是基于1992年的Windows3.1系統(tǒng)運行的,而其機組調(diào)配體系則是基于電話呼叫。因此這一輪由于錯誤更新包導(dǎo)致的Windows系統(tǒng)與云服務(wù)大規(guī)模系統(tǒng)宕機事件,對美西南航空來說真就是“系統(tǒng)過于落后,所以毫無影響”。
UPS和FEDEX也是差不多的情況,他們?nèi)匀辉谑褂?span lang="EN-US">Windows95或者Windows3.1來運行其關(guān)鍵運營系統(tǒng),因此得以躲過這一劫。
而其他沒有受到影響的美國航司多是一些地區(qū)性的支線航空公司,這些小航空公司的信息與運行系統(tǒng)較為原始,用不起昂貴的云服務(wù),因此也逃過一劫得以正常運行。聯(lián)想到2022年圣誕節(jié)北美暴雪天氣帶來的大范圍延誤中,美西南由于系統(tǒng)過于落后導(dǎo)致遲遲無法恢復(fù)航班運行,本次事件也算是“風(fēng)水輪流轉(zhuǎn)”,證明了“成熟系統(tǒng)”所具備的“高穩(wěn)定性”優(yōu)勢。
三十二年陳的Windows系統(tǒng)避免了美西南無法運行 雅虎新聞
02. 缺位的應(yīng)急處置 在本輪更新導(dǎo)致大規(guī)模系統(tǒng)崩潰的“藍屏事件”中,最讓人大跌眼鏡的莫過于美國三大航在系統(tǒng)崩潰發(fā)生后,直截了當(dāng)?shù)卮虺隽税灼欤ow所有航班。在我看來,這無疑是非常匪夷所思的,因為這些運控系統(tǒng)都是重要系統(tǒng),不僅僅關(guān)系到航空公司自己的日常運控,也是國家關(guān)鍵交通系統(tǒng)的一部分。 此類航空運控系統(tǒng),往往對其可靠性與強韌性都有著極高的要求,確保不會因為崩潰對航空運作造成嚴重影響。國際民用航空組織(ICAO)就在一系列文件中對航空運控系統(tǒng)的備份和冗余提出了具體的要求,以避免單一系統(tǒng)崩潰造成嚴重后果,包括: 要求定期備份關(guān)鍵運營數(shù)據(jù)。 必須在硬件和軟件上實現(xiàn)冗余,包括備用服務(wù)器、存儲設(shè)備等。 必須制定詳細的災(zāi)難恢復(fù)計劃,涵蓋各種災(zāi)難性場景。 關(guān)鍵系統(tǒng)(如空中管制系統(tǒng))需要具備自動故障切換功能且運行數(shù)據(jù)同步,主系統(tǒng)一旦發(fā)生故障,可以立即切換到備用模式運行。 如果我們看本次“藍屏事件”的話,會發(fā)現(xiàn)那些美國航司并沒有(或者說沒做到)災(zāi)難恢復(fù)計劃,也沒有實現(xiàn)關(guān)鍵系統(tǒng)故障后自動切換到備份。當(dāng)然有一種可能是他們確實有備份,但是備份同樣遭遇了藍屏(例如同樣基于Windows系統(tǒng)運行且被錯誤更新影響),這就給人一種“為了避免雞蛋放在一個籃子里,于是買了多個P2P理財防止暴雷”的感覺。 作為一個有著豐富現(xiàn)場經(jīng)驗的人,我對本次美國同行們的表現(xiàn)也是頗為不解,因為航空公司對于此類情況必然會有應(yīng)急預(yù)案,在系統(tǒng)降級或完全不可用的情況下確保最低限度的運作。以我在一線工作中的經(jīng)歷而言,飛機的配載雖然現(xiàn)在都是通過信息化系統(tǒng)進行,但每一個配載人員都保留著手工畫配載表的手藝活。一旦發(fā)生配載系統(tǒng)故障無法使用,就照著機號對應(yīng)的機型翻出配載表的PDF文檔,將配載表打印出來,然后手工配載手工計算,獲得飛機起飛數(shù)據(jù)。而這種手工操作是極為基礎(chǔ)的業(yè)務(wù)技能,年年練、月月練、周周練,就是為了確保需要切手動計算的關(guān)鍵時刻不會掉鏈子。 手工操作是這個行業(yè)的基本功 而其他相關(guān)環(huán)節(jié)及部門也一樣對應(yīng)急演練有著近乎偏執(zhí)的要求。作為與值機部門有工作交叉的部門,我們幾乎每個月都能接到來自值機的電話,要求建立一個虛擬航班以供他們進行應(yīng)急演練。而值機應(yīng)急演練的內(nèi)容就是中航信系統(tǒng)(國內(nèi)使用的民航運營系統(tǒng))宕機的情況下,基于本地模式進行旅客值機和登機牌辦理,甚至在無法打印的情況下給旅客手寫登機牌讓旅客登機。 也因此,當(dāng)看著美國同行因為值機系統(tǒng)、配載系統(tǒng)等諸多系統(tǒng)隨著“藍屏事件”掛掉,導(dǎo)致航班運作徹底癱瘓時,我就很不解:你們平時不練手工的么?你們就沒有應(yīng)急預(yù)案么?你們應(yīng)急預(yù)案不演練的么?你們沒有備份系統(tǒng)么? 03. 為何中國沒有受到影響 這次影響全球的“藍屏事件”對中國幾乎沒有造成影響,中國民航運作完全正常,僅有一些外航航班(如美國航空、美聯(lián)航)受國外影響導(dǎo)致了延誤,其原因也并不復(fù)雜。 首先,對于終端電腦來說,是使用Windows系統(tǒng)且涉及到安裝了CrowdStrike公司的安全軟件,在更新了錯誤補丁后,才會產(chǎn)生無限“藍屏重啟”的問題,而國內(nèi)航司電腦終端往往并不使用該公司的安全軟件。而且對于系統(tǒng)更新往往是比較謹慎的態(tài)度,沒事不會更新,使用的Windows版本也是更成熟穩(wěn)定的老版本為主。 其次,國內(nèi)航空公司大部分使用的都是中航信系統(tǒng),其運行環(huán)境基于Linux,也沒有使用微軟的Azure云服務(wù)或者亞馬遜的AWS。這一定程度上避免了我國民航關(guān)鍵基礎(chǔ)系統(tǒng)遭遇錯誤更新所導(dǎo)致的全面崩潰。 作為事關(guān)中國民航運作的重要系統(tǒng),中航信所運營的計算機系統(tǒng)和網(wǎng)絡(luò)屬于一種“關(guān)鍵基礎(chǔ)信息系統(tǒng)”,被列入國務(wù)院監(jiān)管的八大重點系統(tǒng)之一。除春秋航空等少數(shù)航空公司外,其他航空公司均使用中航信系統(tǒng)。中航信系統(tǒng)的安全性和穩(wěn)定性也得到了國家的高度重視和嚴格監(jiān)管,確保了系統(tǒng)的穩(wěn)定性與可靠性。 當(dāng)然這并不代表中航信系統(tǒng)不會出現(xiàn)問題,在2020年8月25日就曾發(fā)生過中航信離港系統(tǒng)使用異常,導(dǎo)致部分機場無法值機的問題。根據(jù)通報,在當(dāng)天上午10點32分發(fā)生異常導(dǎo)致部分機場無法值機,在11點07分就全部恢復(fù)了正常。雖然造成了一定影響,但由于僅持續(xù)了半個小時,因此沒有造成較大影響,總體運行平穩(wěn)。 雖說中航信系統(tǒng)幾十年不改的指令操作界面飽受詬病,但對關(guān)鍵基礎(chǔ)信息系統(tǒng)來說,運行穩(wěn)定是壓倒一切的。而基于完全自主的信息系統(tǒng)與運行環(huán)境,也讓我們得以避免遭受“藍屏事件”的池魚之禍,避免如美國同行那樣鬧個大笑話。 通過這起事件,我們也更加意識到了,在關(guān)鍵信息系統(tǒng)已經(jīng)成為重要基礎(chǔ)設(shè)施的當(dāng)下,實現(xiàn)完全的自主可控是極為重要的。而這不僅僅包括信息系統(tǒng),也包括操作系統(tǒng)。在網(wǎng)絡(luò)安全形勢越發(fā)嚴峻的當(dāng)下,其必要性已經(jīng)無需質(zhì)疑了,這不僅僅是技術(shù)層面的選擇,更是國家安全與產(chǎn)業(yè)發(fā)展的戰(zhàn)略需要。 文/觀察者網(wǎng)專欄作者 張仲麟;民航工作者,民航業(yè)評論員;來源:科工力量微信號
1、本文只代表作者個人觀點,不代表本站觀點,僅供大家學(xué)習(xí)參考;
2、本站屬于非營利性網(wǎng)站,如涉及版權(quán)和名譽問題,請及時與本站聯(lián)系,我們將及時做相應(yīng)處理;
3、歡迎各位網(wǎng)友光臨閱覽,文明上網(wǎng),依法守規(guī),IP可查。
作者 相關(guān)信息
張仲麟:一份客觀公正嚴謹?shù)氖鹿收{(diào)查報告,是最
2022-03-28內(nèi)容 相關(guān)信息
? 昆侖專題 ?
? 高端精神 ?
? 新征程 新任務(wù) 新前景 ?
? 國策建言 ?
? 國資國企改革 ?
? 雄安新區(qū)建設(shè) ?
? 黨要管黨 從嚴治黨 ?
? 社會調(diào)查 ?