說明
在處理文本的時候,第一步往往是將字符串進行分詞,得到一個個關鍵詞。蘋果從很早就開始支持中文分詞了,而且我們幾乎人人每天都會用到,回想一下,在使用手機時,長按一段文字,往往會選中按住位置的一個詞語,這里就是一個分詞的絕佳用例,而iOS自帶的分詞效果非常棒,大家可以自己平常注意觀察一下,基本對中文也有很好的效果。而這個功能也開放了API供開發者調用,我試用了一下,很好用!
效果如下:
實現
其實蘋果給出了完整的API,想要全面了解的可以直接看文檔:CFStringTokenizer Reference
這里說說簡單的一個實現:
// 要分詞的字符串 NSString *string = @"俠士隱鋒,莽夫露刃"; self.keywords = [[NSMutableArray alloc] init]; CFStringTokenizerRef ref = CFStringTokenizerCreate(NULL, (__bridge CFStringRef)string, CFRangeMake(0, string.length), kCFStringTokenizerUnitWord, NULL);// 創建分詞器 CFRange range;// 當前分詞的位置 // 獲取第一個分詞的范圍 CFStringTokenizerAdvanceToNextToken(ref); range = CFStringTokenizerGetCurrentTokenRange(ref); // 循環遍歷獲取所有分詞并記錄到數組中 NSString *keyWord; while (range.length>0) { keyWord = [string substringWithRange:NSMakeRange(range.location, range.length)]; [self.keywords addObject:keyWord]; CFStringTokenizerAdvanceToNextToken(ref); range = CFStringTokenizerGetCurrentTokenRange(ref); }
其實邏輯很簡單:創建分詞器 主站蜘蛛池模板: 揭西县| 额敏县| 东阿县| 大渡口区| 洛川县| 安新县| 九寨沟县| 上高县| 黑水县| 边坝县| 连云港市| 兴文县| 华池县| 昌宁县| 尖扎县| 三亚市| 屏山县| 泉州市| 鄂尔多斯市| 青河县| 东山县| 台南市| 金乡县| 怀仁县| 华蓥市| 高雄县| 偃师市| 井研县| 石柱| 阿拉善右旗| 留坝县| 渭南市| 湟中县| 沁源县| 勃利县| 北宁市| 修文县| 正蓝旗| 玉溪市| 措勤县| 大城县|