本文實(shí)例講述了PHP實(shí)現(xiàn)通過中文字符比率來判斷垃圾評(píng)論的方法。分享給大家供大家參考。具體實(shí)現(xiàn)方法如下:
一、需求:
最近一段時(shí)間常常出現(xiàn)這類垃圾評(píng)論:一大段英文字符里夾雜一兩個(gè)生僻漢字,包含了中文字符,而且又沒包含啥中文的敏感詞,所以就堂而皇之的通過了評(píng)論過濾。對(duì)這類評(píng)論的處理可以采取判斷中文字符的比率來確認(rèn),但是也會(huì)存在一定的誤判。
二、解決方案:
要用到php的兩個(gè)函數(shù)strlen和mb_strlen,strlen會(huì)把單個(gè)漢字長(zhǎng)度認(rèn)定為3,mb_strlen單個(gè)漢字長(zhǎng)度為1。同一段字符通過兩個(gè)函數(shù)取得的長(zhǎng)度之差就是實(shí)際漢字字符數(shù)的二倍,除以二就得到實(shí)際的字符數(shù),在與mb_strlen取得的長(zhǎng)度求比值就得到漢字占總字符數(shù)的比率。
三、實(shí)現(xiàn)代碼:
如果在評(píng)論中貼代碼的話,就會(huì)造成中文字符比率低,需要過濾掉代碼字段再來判斷。
希望本文所述對(duì)大家的PHP程序設(shè)計(jì)有所幫助。
新聞熱點(diǎn)
疑難解答