偶爾會在數(shù)據(jù)中看到諸如' 這樣的字符,特征如下
以&#開頭,中間是一串?dāng)?shù)字,以;結(jié)尾
以&開頭,中間一串字符,以;結(jié)尾
比如最常見的 或者等價(jià)的 
瀏覽器遇到這些轉(zhuǎn)義符,會轉(zhuǎn)義回來,但如何通過代碼識別? org.apache.commons.lang.StringEscapeUtils.unescapeHtml提供了很好的說明
遇到上面的第一種情況,中間是數(shù)字的,直接將數(shù)字(unicode)轉(zhuǎn)為char
遇到第二情況,中間是字符,只能查映射表了,從映射表中找到字符對應(yīng)的數(shù)字再轉(zhuǎn)換為char 看看代碼就一目了然了
看看HTML40如何定義的