產(chǎn)品分類+
什么是TCP心跳機(jī)制
很多應(yīng)用層協(xié)議都有HeartBeat機(jī)制,通常是客戶端每隔一小段時間向服務(wù)器發(fā)送一個數(shù)據(jù)包,通知服務(wù)器自己仍然在線,并傳輸一些可能必要的數(shù)據(jù)。使用心跳包的典型協(xié)議是IM,比如QQ/MSN/飛信等協(xié)議。
心跳包之所以叫心跳包是因為:它像心跳一樣每隔固定時間發(fā)一次,以此來告訴服務(wù)器,這個客戶端還活著。事實上這是為了保持長連接,至于這個包的內(nèi)容,是沒有什么特別規(guī)定的,不過一般都是很小的包,或者只包含包頭的一個空包。
在TCP的機(jī)制里面,本身是存在有心跳包的機(jī)制的,也就是TCP的選項:SO_KEEPALIVE。系統(tǒng)默認(rèn)是設(shè)置的2小時的心跳頻率。但是它檢查不到機(jī)器斷電、網(wǎng)線拔出、防火墻這些斷線。而且邏輯層處理斷線可能也不是那么好處理。一般,如果只是用于?;钸€是可以的。
心跳包一般來說都是在邏輯層發(fā)送空的echo包來實現(xiàn)的。下一個定時器,在一定時間間隔下發(fā)送一個空包給客戶端,然后客戶端反饋一個同樣的空包回來,服務(wù)器如果在一定時間內(nèi)收不到客戶端發(fā)送過來的反饋包,那就只有認(rèn)定說掉線了。
其實,要判定掉線,只需要send或者recv一下,如果結(jié)果為零,則為掉線。但是,在長連接下,有可能很長一段時間都沒有數(shù)據(jù)往來。理論上說,這個連接是一直保持連接的,但是實際情況中,如果中間節(jié)點出現(xiàn)什么故障是難以知道的。更要命的是,有的節(jié)點(防火墻)會自動把一定時間之內(nèi)沒有數(shù)據(jù)交互的連接給斷掉。在這個時候,就需要我們的心跳包了,用于維持長連接,?;睢?/span>
在獲知了斷線之后,服務(wù)器邏輯可能需要做一些事情,比如斷線后的數(shù)據(jù)清理呀,重新連接呀……當(dāng)然,這個自然是要由邏輯層根據(jù)需求去做了。
總的來說,心跳包主要也就是用于長連接的保活和斷線處理。一般的應(yīng)用下,判定時間在30-40秒比較不錯。如果實在要求高,那就在6-9秒。
心跳包的發(fā)送,通常有兩種技術(shù)
方法1:應(yīng)用層自己實現(xiàn)的心跳包
由應(yīng)用程序自己發(fā)送心跳包來檢測連接是否正常,大致的方法是:服務(wù)器在一個 Timer事件中定時 向客戶端發(fā)送一個短小精悍的數(shù)據(jù)包,然后啟動一個低級別的線程,在該線程中不斷檢測客戶端的回應(yīng), 如果在一定時間內(nèi)沒有收到客戶端的回應(yīng),即認(rèn)為客戶端已經(jīng)掉線;同樣,如果客戶端在一定時間內(nèi)沒 有收到服務(wù)器的心跳包,則認(rèn)為連接不可用。
方法2:TCP的KeepAlive?;顧C(jī)制
因為要考慮到一個服務(wù)器通常會連接多個客戶端,因此由用戶在應(yīng)用層自己實現(xiàn)心跳包,代碼較多 且稍顯復(fù)雜,而利用TCP/IP協(xié)議層為內(nèi)置的KeepAlive功能來實現(xiàn)心跳功能則簡單得多。 不論是服務(wù)端還是客戶端,一方開啟KeepAlive功能后,就會自動在規(guī)定時間內(nèi)向?qū)Ψ桨l(fā)送心跳包, 而另一方在收到心跳包后就會自動回復(fù),以告訴對方我仍然在線。 因為開啟KeepAlive功能需要消耗額外的寬帶和流量,所以TCP協(xié)議層默認(rèn)并不開啟KeepAlive功 能,盡管這微不足道,但在按流量計費的環(huán)境下增加了費用,另一方面,KeepAlive設(shè)置不合理時可能會 因為短暫的網(wǎng)絡(luò)波動而斷開健康的TCP連接。并且,默認(rèn)的KeepAlive超時需要7,200,000 MilliSeconds, 即2小時,探測次數(shù)為5次。對于很多服務(wù)端應(yīng)用程序來說,2小時的空閑時間太長。
因此,我們需要手工開啟KeepAlive功能并設(shè)置合理的KeepAlive參數(shù)。 心跳檢測步驟:
1客戶端每隔一個時間間隔發(fā)生一個探測包給服務(wù)器
2客戶端發(fā)包時啟動一個超時定時器
3服務(wù)器端接收到檢測包,應(yīng)該回應(yīng)一個包
4如果客戶機(jī)收到服務(wù)器的應(yīng)答包,則說明服務(wù)器正常,刪除超時定時器
5如果客戶端的超時定時器超時,依然沒有收到應(yīng)答包,則說明服務(wù)器掛了