阿里旗下語(yǔ)雀宕機(jī)近10小時(shí) 企業(yè)關(guān)鍵業(yè)務(wù)如何避免被“云”拖累

據(jù)多位用戶(hù)反饋,螞蟻集團(tuán)旗下的在線文檔編輯與協(xié)同工具語(yǔ)雀在23日14:00~15:00之間出現(xiàn)大規(guī)模服務(wù)器故障,在線文檔和官網(wǎng)目前均無(wú)法打開(kāi)。在經(jīng)歷了近10小時(shí)的故障之后,語(yǔ)雀服務(wù)現(xiàn)已全部恢復(fù)正常,各端語(yǔ)雀都可以正常訪問(wèn),功能也恢復(fù)。不過(guò),對(duì)于此次故障原因,官方也進(jìn)行了回應(yīng):“目前因網(wǎng)絡(luò)故障,出現(xiàn)無(wú)法訪問(wèn)的情況。此故障不會(huì)影響用戶(hù)在語(yǔ)雀存儲(chǔ)的數(shù)據(jù),不會(huì)引起數(shù)據(jù)丟失,我們正在緊急恢復(fù)中,再次抱歉給你帶來(lái)的損失。”
語(yǔ)雀長(zhǎng)達(dá)數(shù)小時(shí)的宕機(jī),在網(wǎng)絡(luò)上引發(fā)巨大討論。在這段時(shí)間內(nèi),眾多語(yǔ)雀用戶(hù)在網(wǎng)上紛紛吐槽,他們對(duì)在線文檔的可靠性提出質(zhì)疑,提起“宕機(jī)”這個(gè)詞,大多數(shù)企業(yè)管理層、技術(shù)人員都不會(huì)陌生,雷暴、地震、光纖被挖斷、停電等各種情況都會(huì)導(dǎo)致宕機(jī),但是面對(duì)突發(fā)情況服務(wù)商如何應(yīng)對(duì)、如何減少客戶(hù)的損失,是SaaS行業(yè)健康發(fā)展的一大難題。
今年早些時(shí)候,微軟的公有云服務(wù)、Office365等,因?yàn)闃O端天氣下備用方案未能及時(shí)響應(yīng),導(dǎo)致澳洲用戶(hù)出現(xiàn)了超過(guò)24小時(shí)的云服務(wù)“暫停”。互聯(lián)網(wǎng)時(shí)代對(duì)系統(tǒng)的可靠性提出了更高的要求。在未來(lái),系統(tǒng)架構(gòu)會(huì)越來(lái)越復(fù)雜,整體的數(shù)據(jù)和流量也會(huì)越來(lái)越大,關(guān)鍵系統(tǒng)往往要求每年的不可用時(shí)間不能超過(guò)53分鐘,而基本上我們知道的很多事故都遠(yuǎn)遠(yuǎn)超過(guò)了故障預(yù)算。宕機(jī)事件雖然是偶發(fā),但對(duì)于建立在高度依賴(lài)底層數(shù)據(jù)流轉(zhuǎn)帶動(dòng)企業(yè)運(yùn)營(yíng)的現(xiàn)代企業(yè)來(lái)說(shuō),一次事故給企業(yè)帶來(lái)的成本代價(jià)愈來(lái)愈高,企業(yè)愈來(lái)愈無(wú)法承受因?yàn)閿?shù)據(jù)資產(chǎn)丟失導(dǎo)致的根基損失。
另一起影響較大的宕機(jī)事故是2022年4月,國(guó)際知名的項(xiàng)目管理軟件巨頭Atlassian發(fā)生一起影響超700家企業(yè)用戶(hù)的宕機(jī)和無(wú)法訪問(wèn)事故,這家巨頭即使已擁有十多年SaaS服務(wù)的運(yùn)維經(jīng)驗(yàn)、6年的SRE經(jīng)驗(yàn),以及具備成熟的災(zāi)備和恢復(fù)計(jì)劃和經(jīng)驗(yàn),仍然無(wú)法做到事前發(fā)現(xiàn)、及時(shí)阻止,也無(wú)法兌現(xiàn)其承諾的服務(wù)水準(zhǔn)——8.76小時(shí)內(nèi)復(fù)原數(shù)據(jù),導(dǎo)致不少企業(yè)客戶(hù)直到事故發(fā)生14天后,才得以打開(kāi)自己的敏捷項(xiàng)目數(shù)據(jù)。
不過(guò),有難題就一定會(huì)有解決方案,這也是SaaS提供商一直在探索的課題。
對(duì)于公有云用戶(hù),為了避免使用的公有云服務(wù)影響企業(yè)業(yè)務(wù)正常運(yùn)行,可以考慮以下方案:多區(qū)域部署、備份和災(zāi)難恢復(fù)計(jì)劃、自動(dòng)化監(jiān)控和警報(bào)、彈性架構(gòu)、數(shù)據(jù)冗余:在不同的區(qū)域或數(shù)據(jù)中心中復(fù)制關(guān)鍵數(shù)據(jù),確保即使一個(gè)數(shù)據(jù)中心發(fā)生故障,仍然可以訪問(wèn)備份數(shù)據(jù)、容錯(cuò)測(cè)試等,以降低因?yàn)楣性棋礄C(jī)給企業(yè)帶來(lái)的損失,并確保企業(yè)業(yè)務(wù)能夠在不可避免的故障發(fā)生時(shí)繼續(xù)運(yùn)行。對(duì)于采用私有云部署的用戶(hù),則能擁有更大的控制權(quán),提高物理安全性,實(shí)現(xiàn)定制化和性能優(yōu)化,并且減少共享資源,當(dāng)然私有化部署在成本投入,可伸縮性限制和維護(hù)更新上也有一些更高要求。有一種常見(jiàn)的方法是采用混合云策略,結(jié)合公有云和私有化,以在不同的需求情況下獲得最佳的性能、可用性和成本效益。這樣可以在降低宕機(jī)風(fēng)險(xiǎn)的同時(shí),靈活地滿足不同業(yè)務(wù)需求。
像國(guó)內(nèi)主流的項(xiàng)目管理軟件UniPro,能支持以上公有云、私有化以及混合云部署,最大程度滿足客戶(hù)的行業(yè)特殊性需求,此外還可跟據(jù)數(shù)據(jù)權(quán)限等敏感信息,在企業(yè)內(nèi)設(shè)置分組等,最大程度上減少宕機(jī)帶來(lái)的損失。

[免責(zé)聲明]
原文標(biāo)題: 阿里旗下語(yǔ)雀宕機(jī)近10小時(shí) 企業(yè)關(guān)鍵業(yè)務(wù)如何避免被“云”拖累
本文由作者原創(chuàng)發(fā)布于36氪企服點(diǎn)評(píng);未經(jīng)許可,禁止轉(zhuǎn)載。




