今年上班第一天就遇到了生產事故~跟大家分享下處理流程。
有1300+的事務在running狀態,同時后續數據庫有新的請求進來
3.初步懷疑是數據庫中的長事務導致數據庫鎖異常,鎖請求沒有釋放導致后續的程序異常。zabbix中的鎖信息:
4.手工kill掉長事務進程,發現這個時候數據庫已經不能正常釋放連接數了,而新的請求還在不斷的加多。數據庫連接數已經漲到1600+。5.由于業務方壓力,只能強行重啟數據庫釋放資源后問題暫時解決。
發現數據庫中14:05的時候出現了異常鏈接,同時應用報鎖超時錯誤。通過查看事務等待可以發現801事務阻塞了后續的update請求
同時innodb的狀態信息可以看到該異常事務鎖住了20行記錄。
手工kill掉進程后,程序恢復正常。新聞熱點
疑難解答