国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > JSP > 正文

Jsp敏感詞過(guò)濾的示例代碼

2024-09-05 00:23:18
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

大部分論壇、網(wǎng)站等,為了方便管理,都進(jìn)行了關(guān)于敏感詞的設(shè)定。

在多數(shù)網(wǎng)站,敏感詞一般是指帶有敏感政治傾向(或反執(zhí)政黨傾向)、暴力傾向、不健康色彩的詞或不文明語(yǔ),也有一些網(wǎng)站根據(jù)自身實(shí)際情況,設(shè)定一些只適用于本網(wǎng)站的特殊敏感詞。

比如,當(dāng)你發(fā)貼的時(shí)候帶有某些事先設(shè)定的詞時(shí),這個(gè)貼是不能發(fā)出的。或者這個(gè)詞被自動(dòng)替換為星號(hào)(*)或叉號(hào)(X)等,或者說(shuō)是被和諧掉了。

在我看來(lái)敏感詞過(guò)濾最重要的是在寫過(guò)濾詞匯的算法,如何過(guò)濾出大批量的敏感詞,我感覺(jué)DFA的思想不錯(cuò)

DFA簡(jiǎn)介

在實(shí)現(xiàn)文字過(guò)濾的算法中,DFA是唯一比較好的實(shí)現(xiàn)算法。DFA即Deterministic Finite Automaton,也就是確定有窮自動(dòng)機(jī),它是是通過(guò)event和當(dāng)前的state得到下一個(gè)state,即event+state=nextstate。下圖展示了其狀態(tài)的轉(zhuǎn)換

Jsp,敏感詞,過(guò)濾

在這幅圖中大寫字母(S、U、V、Q)都是狀態(tài),小寫字母a、b為動(dòng)作。通過(guò)上圖我們可以看到如下關(guān)系

a b b
S -----> U S -----> V U -----> V

在實(shí)現(xiàn)敏感詞過(guò)濾的算法中,我們必須要減少運(yùn)算,而DFA在DFA算法中幾乎沒(méi)有什么計(jì)算,有的只是狀態(tài)的轉(zhuǎn)換。

Java實(shí)現(xiàn)DFA算法實(shí)現(xiàn)敏感詞過(guò)濾

在Java中實(shí)現(xiàn)敏感詞過(guò)濾的關(guān)鍵就是DFA算法的實(shí)現(xiàn)。首先我們對(duì)上圖進(jìn)行剖析。在這過(guò)程中我們認(rèn)為下面這種結(jié)構(gòu)會(huì)更加清晰明了。

Jsp,敏感詞,過(guò)濾

同時(shí)這里沒(méi)有狀態(tài)轉(zhuǎn)換,沒(méi)有動(dòng)作,有的只是Query(查找)。我們可以認(rèn)為,通過(guò)S query U、V,通過(guò)U query V、P,通過(guò)V query U P。通過(guò)這樣的轉(zhuǎn)變我們可以將狀態(tài)的轉(zhuǎn)換轉(zhuǎn)變?yōu)槭褂肑ava集合的查找。

誠(chéng)然,加入在我們的敏感詞庫(kù)中存在如下幾個(gè)敏感詞:日本人、日本鬼子、毛.澤.東。那么我需要構(gòu)建成一個(gè)什么樣的結(jié)構(gòu)呢?

首先:query 日 ---> {本}、query 本 --->{人、鬼子}、query 人 --->{null}、query 鬼 ---> {子}。形如下結(jié)構(gòu):

Jsp,敏感詞,過(guò)濾

下面我們?cè)趯?duì)這圖進(jìn)行擴(kuò)展:

Jsp,敏感詞,過(guò)濾

 這樣我們就將我們的敏感詞庫(kù)構(gòu)建成了一個(gè)類似與一顆一顆的樹(shù),這樣我們判斷一個(gè)詞是否為敏感詞時(shí)就大大減少了檢索的匹配范圍。比如我們要判斷日本人,根據(jù)第一個(gè)字我們就可以確認(rèn)需要檢索的是那棵樹(shù),然后再在這棵樹(shù)中進(jìn)行檢索。

這個(gè)思想留著以后用,我先寫一個(gè)過(guò)濾詞匯的一些簡(jiǎn)單方法,沒(méi)有涉及到算法

Java代碼實(shí)現(xiàn)

基本思路:重寫HttpServletRequestWrapper中的getParameter方法,讓用戶輸入的字通過(guò)這個(gè)過(guò)濾,寫一個(gè)類繼承他,重寫方法,在寫一個(gè)過(guò)濾詞匯的詞典,來(lái)與輸入的對(duì)比

先寫一個(gè)jsp頁(yè)面,js是用Ajax去刷新的,最近學(xué)的想用用試試看,感覺(jué)不錯(cuò),Ajax是需要引js文件的 

<body>  <input type="text" name="word" onblur="filter(this.value);" id="filter"/>  <input type="submit" value="敏感詞過(guò)濾" /><script type="text/javascript" src="js/jquery.js"></script><script type="text/javascript">  function filter(num){    $.ajax({      type:"post",//提交方式      url:"FilterWordServlet",      async:true,//是否異步請(qǐng)求      dataType:"html",//數(shù)據(jù)的返回類型      data:{"num":num},//數(shù)據(jù)傳過(guò)去的值      success:function(data,textStatus){//成功的執(zhí)行之后,回調(diào)這個(gè)函數(shù)處理事務(wù)        $("#filter").val(data);      },      error:function(){//失敗執(zhí)行這個(gè)函數(shù),處理失敗的事務(wù)        alert("error");      }    })  }</script></body>

再繼承HttpServletRequestWrapper在重寫getParameter方法,

//主要思路是繼承HttpServletRequestWrapper,去改寫他的getParameter方法,讓其有過(guò)濾的業(yè)務(wù)public class WordFilter extends HttpServletRequestWrapper{  public WordFilter(HttpServletRequest request) {    super(request);    // TODO Auto-generated constructor stub  }  @Override  public String getParameter(String name){    //先得到父親的方法,傳入值,得到的值在跟過(guò)濾字典中的比較看是否含有,有則替換,沒(méi)有放過(guò)返回    String word=super.getParameter(name);    //調(diào)用字典中的文字    List<String> list=Words.getList();    for (String string : list) {      //判斷是否含有這樣字典中的文字      if (word.contains(string)) {          //將字符串中含有的替換掉        word=word.replace(string, "**");      }    }    return word;  }  }

再寫一個(gè)Servlet,去獲取用戶輸入的字,進(jìn)行過(guò)濾操作 

@WebServlet("/FilterWordServlet")public class FilterWordServlet extends HttpServlet {  private static final long serialVersionUID = 1L;  protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {    //設(shè)置請(qǐng)求和編碼格式    request.setCharacterEncoding("utf-8");    response.setCharacterEncoding("utf-8");    //自己創(chuàng)建的請(qǐng)求方法,繼承與原來(lái)的,改寫了getParameter方法讓其有過(guò)濾的業(yè)務(wù)    WordFilter wFilter=new WordFilter(request);     String string=wFilter.getParameter("num");     System.out.println("---------------");     //out的響應(yīng)方法。輸出在頁(yè)面上,讓ajax得到這個(gè)去處理一些業(yè)務(wù)     PrintWriter out=response.getWriter();     out.println(string);       }    protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {    // TODO Auto-generated method stub    doGet(request, response);  }}

我自己建了一個(gè)list集合的過(guò)濾詞匯,以后修改可以從這里開(kāi)始詞匯的搜索算法,先建一個(gè)詞匯類

public class Words {  //過(guò)濾詞匯的詞典  static List<String> list=new ArrayList<>();  static{    list.add("你妹的");    list.add("sb");    list.add("滾");  }  public static List<String> getList() {    return list;  }  public static void setList(List<String> list) {    Words.list = list;  }  }

這只是最基礎(chǔ)的一種。高級(jí)的需要算法的實(shí)現(xiàn),可以思考一下這個(gè)DFA算法,我感覺(jué)很不錯(cuò)

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持VeVb武林網(wǎng)。


注:相關(guān)教程知識(shí)閱讀請(qǐng)移步到JSP教程頻道。
發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 武清区| 江阴市| 闽清县| 门源| 嵊泗县| 宁蒗| 邳州市| 泽库县| 祥云县| 乳山市| 天全县| 苏尼特左旗| 香河县| 兰考县| 新津县| 醴陵市| 日照市| 来宾市| 潞西市| 阿巴嘎旗| 长岛县| 永年县| 清涧县| 东阿县| 丰原市| 安化县| 丽水市| 邵东县| 科尔| 贺兰县| 黄山市| 三门峡市| 基隆市| 磐石市| 奉贤区| 阿瓦提县| 德惠市| 莲花县| 塘沽区| 界首市| 鄱阳县|