早在好幾年前,我就在天翼云服務器上部署了Zabbix,用于監測客戶的服務器,以及關鍵的網絡設備,比如防火墻、路由器、核心交換機等等。
并且也部署了堡壘機,以便于安全地遠程管理客戶的服務器和網絡設備。
應該說,還是相當有用的,很多次都提前發現了問題,并妥善處理了。
這不,前天它又給我來活了——突然收到好幾封郵件警告,仔細一看,每封郵件就是一條內存壞,一共三條內存,都壞了!
其實這臺服務器上,原來有4條16G內存,去年已經壞了一條,因為不影響使用,我跟客戶講了一聲,也就沒采購,估計這回是真不行了。
趕緊遠程登錄iDRAC看一下,果然是“嚴重”警告。
點開“內存”查看詳細信息;
好家伙,三條內存都是一樣的“檢測到存在嚴重錯誤”,直接在控制臺重啟服務器,并沒有用,再看日志,還是報錯
而且,服務器也是無法啟動的,說明內存故障嚴重。
我前幾年也遇到過,同樣是戴爾服務器,其中一條16G的內存變成4G了,服務器還在跑呢,重啟也能起來,只是反復提示要更換內存條,想來,不是嚴重問題,系統還是能啟動的。
但,這次顯然不行了,只能換內存了。
iDRAC控制臺關閉服務器,開著也沒用了,就省一晚上的電吧。
給客戶發截圖,報價,由于是金蝶服務器,停一天都不行,客戶很快確認了,第二天早上,一路趕去更換內存。
因為原來就是64G內存,所以這次直接換了兩條32G的,算是恢復到原來的內存容量了。
更換完成后,再次登錄 iDRAC,查看系統狀態,內存告警沒了,一切都正常了,另外兩個報錯,重啟后也就消失了,可能不是什么實質性的問題,也可能就是由內存引起的,總之,現在恢復正常就行了。
趕緊提醒客戶,測試金蝶。
任務完成,趕往下一站,20多年IT運維外包,不就是這么過來的,嘿嘿。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.