国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > Java > 正文

使用Pinyin4j進行拼音分詞的方法

2024-07-13 10:15:53
字體:
來源:轉載
供稿:網友

使用maven引入相關的jar

<dependency> <groupId>com.belerweb</groupId> <artifactId>pinyin4j</artifactId> <version>2.5.1</version></dependency>

創建Pinyin4jUtil

package com.os.core.util.solr;import net.sourceforge.pinyin4j.PinyinHelper;import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination;import java.util.ArrayList;import java.util.Hashtable;import java.util.List;import java.util.Map;/** * 漢語拼音工具類 * Created by PengSongHe on 2017/2/9 0009. */public class Pinyin4jUtil { public static void main(String[] args) {  String str = "測試";  String pinyin = Pinyin4jUtil.converterToSpell(str);  System.out.println(str + " pin yin :" + pinyin);  pinyin = Pinyin4jUtil.converterToFirstSpell(str);  System.out.println(str + " short pin yin :" + pinyin); } /**  * 漢字轉換位漢語拼音首字母,英文字符不變,特殊字符丟失 支持多音字,生成方式如(長沙市長:cssc,zssz,zssc,cssz)  *  * @param chines 漢字  * @return 拼音  */ public static String converterToFirstSpell(String chines) {  StringBuffer pinyinName = new StringBuffer();  char[] nameChar = chines.toCharArray();  HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();  defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);  defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);  for (int i = 0; i < nameChar.length; i++) {   if (nameChar[i] > 128) {    try {     // 取得當前漢字的所有全拼     String[] strs = PinyinHelper.toHanyuPinyinStringArray(       nameChar[i], defaultFormat);     if (strs != null) {      for (int j = 0; j < strs.length; j++) {       // 取首字母       pinyinName.append(strs[j].charAt(0));       if (j != strs.length - 1) {        pinyinName.append(",");       }      }     }     // else {     // pinyinName.append(nameChar[i]);     // }    } catch (BadHanyuPinyinOutputFormatCombination e) {     e.printStackTrace();    }   } else {    pinyinName.append(nameChar[i]);   }   pinyinName.append(" ");  }  // return pinyinName.toString();  return parseTheChineseByObject(discountTheChinese(pinyinName.toString())); } /**  * 漢字轉換位漢語全拼,英文字符不變,特殊字符丟失  * 支持多音字,生成方式如(重當參:zhongdangcen,zhongdangcan,chongdangcen  * ,chongdangshen,zhongdangshen,chongdangcan)  *  * @param chines 漢字  * @return 拼音  */ public static String converterToSpell(String chines) {  StringBuffer pinyinName = new StringBuffer();  char[] nameChar = chines.toCharArray();  HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();  defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);  defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);  for (int i = 0; i < nameChar.length; i++) {   if (nameChar[i] > 128) {    try {     // 取得當前漢字的所有全拼     String[] strs = PinyinHelper.toHanyuPinyinStringArray(       nameChar[i], defaultFormat);     if (strs != null) {      for (int j = 0; j < strs.length; j++) {       pinyinName.append(strs[j]);       if (j != strs.length - 1) {        pinyinName.append(",");       }      }     }    } catch (BadHanyuPinyinOutputFormatCombination e) {     e.printStackTrace();    }   } else {    pinyinName.append(nameChar[i]);   }   pinyinName.append(" ");  }  // return pinyinName.toString();  return parseTheChineseByObject(discountTheChinese(pinyinName.toString())); } /**  * 去除多音字重復數據  *  * @param theStr  * @return  */ private static List<Map<String, Integer>> discountTheChinese(String theStr) {  // 去除重復拼音后的拼音列表  List<Map<String, Integer>> mapList = new ArrayList<Map<String, Integer>>();  // 用于處理每個字的多音字,去掉重復  Map<String, Integer> onlyOne = null;  String[] firsts = theStr.split(" ");  // 讀出每個漢字的拼音  for (String str : firsts) {   onlyOne = new Hashtable<String, Integer>();   String[] china = str.split(",");   // 多音字處理   for (String s : china) {    Integer count = onlyOne.get(s);    if (count == null) {     onlyOne.put(s, new Integer(1));    } else {     onlyOne.remove(s);     count++;     onlyOne.put(s, count);    }   }   mapList.add(onlyOne);  }  return mapList; } /**  * 解析并組合拼音,對象合并方案(推薦使用)  *  * @return  */ private static String parseTheChineseByObject(   List<Map<String, Integer>> list) {  Map<String, Integer> first = null; // 用于統計每一次,集合組合數據  // 遍歷每一組集合  for (int i = 0; i < list.size(); i++) {   // 每一組集合與上一次組合的Map   Map<String, Integer> temp = new Hashtable<String, Integer>();   // 第一次循環,first為空   if (first != null) {    // 取出上次組合與此次集合的字符,并保存    for (String s : first.keySet()) {     for (String s1 : list.get(i).keySet()) {      String str = s + s1;      temp.put(str, 1);     }    }    // 清理上一次組合數據    if (temp != null && temp.size() > 0) {     first.clear();    }   } else {    for (String s : list.get(i).keySet()) {     String str = s;     temp.put(str, 1);    }   }   // 保存組合數據以便下次循環使用   if (temp != null && temp.size() > 0) {    first = temp;   }  }  String returnStr = "";  if (first != null) {   // 遍歷取出組合字符串   for (String str : first.keySet()) {    returnStr += (str + ",");   }  }  if (returnStr.length() > 0) {   returnStr = returnStr.substring(0, returnStr.length() - 1);  }  return returnStr; }}

以上這篇使用Pinyin4j進行拼音分詞的方法就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持VeVb武林網。


注:相關教程知識閱讀請移步到JAVA教程頻道。
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 崇阳县| 靖安县| 丹棱县| 林甸县| 罗田县| 泉州市| 丰原市| 鄂州市| 镇坪县| 淳化县| 勐海县| 惠州市| 蓝山县| 尼玛县| 确山县| 敦煌市| 郎溪县| 青州市| 新丰县| 呼玛县| 南雄市| 高要市| 东安县| 连城县| 三穗县| 吉林省| 瑞安市| 汾西县| 五家渠市| 香格里拉县| 广西| 札达县| 天等县| 新巴尔虎右旗| 田阳县| 杭锦旗| 文成县| 巴林右旗| 东光县| 偏关县| 成武县|