一、服務器怎么運營?
檢查磁(ci)(ci)盤(pan)使(shi)用(yong)率,當(dang)磁(ci)(ci)盤(pan)使(shi)用(yong)率超過80%,可(ke)以清除一些日志(zhi)文件;
檢(jian)(jian)查內存(cun)使(shi)用情況,當內存(cun)使(shi)用過多(duo)時,需要檢(jian)(jian)查是哪個(ge)進程占(zhan)用,是否合理;
檢查CPU使(shi)用(yong)情(qing)況(kuang),負載(zai)大(da)小(xiao);當(dang)CPU使(shi)用(yong)過多(duo),負載(zai)過大(da)時(shi),需要檢查是哪(na)個(ge)進程占用(yong),是否合理。
檢查(cha)服務(wu)器網(wang)卡接(jie)口的數據(ju)統計和每秒收發包的個數和流(liu)量(liang)。
還需(xu)要(yao)結合服(fu)務(wu)(wu)器的業務(wu)(wu),當然,這(zhe)些(xie)可用(yong)使用(yong)監(jian)控軟件(jian)自動檢查,故障報警等,實時掌(zhang)握(wo)服(fu)務(wu)(wu)器的運行情況。
二、服務器運營注意事項
1、提前檢查
服務器和網站(zhan)漏洞(dong)檢測,對Web漏洞(dong)、弱口令、潛(qian)在的惡意(yi)行為、違(wei)法信(xin)息等(deng)進行定期(qi)掃(sao)描。
代碼的定期檢查(cha)(cha)(cha),安(an)全檢查(cha)(cha)(cha),漏洞(dong)檢查(cha)(cha)(cha)。
服務器安全加固,安全基線設置(zhi),安全基線檢查。
數(shu)據庫執行的(de)命令(ling),添加字段、加索引等,必(bi)須是(shi)經過(guo)測試檢查的(de)命令(ling),才能在正式環境運行。
2、數據備份
服務器數據備(bei)(bei)份,包括(kuo)網站程序文件備(bei)(bei)份,數據庫文件備(bei)(bei)份、配置文件備(bei)(bei)份,如有資源(yuan)最好每小時備(bei)(bei)份和異地備(bei)(bei)份。
建立五重備(bei)份(fen)(fen)機制:常規備(bei)份(fen)(fen)、自(zi)動(dong)同(tong)步、LVM快照、Azure備(bei)份(fen)(fen)、S3備(bei)份(fen)(fen)。
定期檢查備(bei)份文(wen)件是(shi)否可(ke)用,避免(mian)出(chu)故障(zhang)后,備(bei)份數據(ju)不(bu)可(ke)用。
重要(yao)數據多重加(jia)密(mi)算法加(jia)密(mi)處理。
程序文件版本控(kong)制,測(ce)試,發(fa)布,故障回滾。
3、安全監控
nagios監控服務(wu)器常規狀態CPU負載(zai)、內存、磁盤、流(liu)量,超過閾值告警(jing)。
zabbix或(huo)cacti監控服務(wu)器常(chang)規狀(zhuang)態CPU負載(zai)、內(nei)存、磁盤、流量等狀(zhuang)態,可以顯示歷史(shi)曲(qu)線,方便(bian)排(pai)查問(wen)題。
監控服務器SSH登錄記錄、iptables狀態、進程狀態,有異常(chang)記錄告警。
監控(kong)網站(zhan)WEB日(ri)(ri)志(zhi)(包括nginx日(ri)(ri)志(zhi)php日(ri)(ri)志(zhi)等),可(ke)以采用(yong)EKL來(lai)收集管(guan)理,有異(yi)常日(ri)(ri)志(zhi)告警。
運(yun)(yun)維(wei)(wei)人員都(dou)要(yao)接(jie)收告(gao)(gao)警(jing)郵件和短信,至(zhi)少所負責的業(ye)務告(gao)(gao)警(jing)郵件和短信必須接(jie)收,運(yun)(yun)維(wei)(wei)經(jing)理接(jie)收重要(yao)業(ye)務告(gao)(gao)警(jing)郵件和短信。(除非(fei)是專職運(yun)(yun)維(wei)(wei)開(kai)發)
除服(fu)務器內部(bu)監控(kong)(kong)外,最(zui)好使用第三方(fang)監控(kong)(kong),從外部(bu)監控(kong)(kong)業務是(shi)否正常(chang)(監控(kong)(kong)URL、端口(kou)等),比如:監控(kong)(kong)寶。
4、故障避免預防
網站(zhan)WEB增加WAF,避(bi)免(mian)XSS跨站(zhan)腳本、SQL注入、網頁掛馬等漏洞威(wei)脅。
程序代碼(ma)連(lian)接數(shu)據庫、memcache、redis等,可(ke)以使用域名(ming)(域名(ming)HOSTS指(zhi)定(ding)IP),當出(chu)問題,有備用的服務(wu)器,就可(ke)以通過修改DNS或者(zhe)HOSTS,恢復服務(wu)。
建立(li)應急預案(an)機制,定期演練事故場景,估(gu)算(suan)修復時間。
部署蜜(mi)罐系統,防范企業和服(fu)務器內網APT攻擊(ji)。
建(jian)立雙活集群,包(bao)括業(ye)務(wu)服務(wu)的高可用,避免(mian)業(ye)務(wu)服務(wu)單點。
服(fu)務(wu)器集群(qun)采用跳板機(ji)或堡壘機(ji)登錄,避免服(fu)務(wu)器集群(qun)每臺服(fu)務(wu)器可(ke)以遠程連接管理。
操作(zuo)重(zhong)要業務升級、遷移、擴容……之前,列一(yi)下(xia)操作(zuo)步(bu)驟,越詳細越好,實際操作(zuo)按步(bu)驟操作(zuo),操作(zuo)完做好記錄。
5、事中操作
網站WEB增加(jia)WAF,發現(xian)XSS、SQL注入、網頁(ye)掛馬等攻擊(ji),會(hui)自動攔(lan)截,并記錄日志(zhi)。
檢查(cha)服務(wu)器數(shu)據備份是否(fou)可用(yong)。
在(zai)處(chu)理(li)需求和(he)故障時,執行(xing)風險命令(比(bi)如rm、restart、reboot等)需再(zai)三確認,執行(xing)命令前,檢查所在(zai)服務器,所在(zai)服務器路徑(jing),再(zai)執行(xing)!
不(bu)要(yao)疲勞駕駛,喝(he)酒不(bu)上機,上機不(bu)喝(he)酒,尤其別(bie)動數據庫,避免在不(bu)清醒的(de)狀態(tai)下,在服務器上執行(xing)了(le)錯誤命(ming)令(ling),導致數據丟失或(huo)業務故障。
在處(chu)(chu)理事故時,一定(ding)要考(kao)慮處(chu)(chu)理措施是否會引發連鎖故障,重要操作三思而(er)行。
6、事后檢查分析
實現網絡安全可視化管理,可以看到每天有那些異常IP和異常URL請求,服務器集群開放端口列表等。能對全網進行安全策略集中管(guan)理。統一(yi)日志收集(ji)和分析。
備份及(ji)篡改恢復功能(neng),程序文件、圖片、數據文件、配置文件的(de)備份,故障回滾機制。
對攻擊日志(zhi)進(jin)行深度分析,展現攻擊路(lu)徑、攻擊源,協助管理員溯(su)源。
踐行(xing)DevOps的無指(zhi)責(ze)文化(hua),尤其(qi)是在(zai)做事故分析時。事故分析重在(zai)定(ding)位原因,制定(ding)改進措施(shi)。