国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > 綜合 > 正文

大數據語義:靈玖軟件智能漢語分詞系統

2024-07-21 02:51:38
字體:
來源:轉載
供稿:網友

  近年來,隨著國民經濟信息化的不斷發展以及Internet的普及,中文信息處理技術的應用日益廣泛。由于中文文本的按句連寫的,詞間無間隙,因而中文信息處理的首要問題是詞的切割問題,智能自動分詞已成為中文信息處理的一個重要課題。

  靈玖軟件智能漢語分詞系統是自然語言處理的基礎與關鍵。公司在多年研究工作積累的基礎上,研制出了NLPIR分詞系統中的智能功能,主要功能包括中文分詞;英文分詞;詞性標注;命名實體識別;新詞識別;關鍵詞提取;支持用戶專業詞典與微博分析。

  智能漢語分詞系統主要特點:

(1)自動索引:可以用機器抽取或賦予索引詞,索引詞是指與文本信息主題相符的或密切相關的詞語,也是文本信息的關鍵詞和主題詞。所以中文文本自動索引中離不開詞這個基本單元。

(2)自動分類:可以按照計算機系統一定的實體或對象進行分類,包括建立分類體系及自動更新,主要是文檔聚類和關鍵詞聚類等領域。自動聚類由計算機系統按照被考察對象的內部或外部特征,根據一定的要求(如類別的數量限制,同類對象的親近程度等等),將相近、相似或相同特征的對象聚合在一起的過程。

(3)信息智能檢索:可以對信息按照一定的方式組織、存儲,智能的從海量的大數據中找到滿足用戶信息需求的知識,尤其指對非結構化或半結構化文本的檢索(注:在這一點上,信息檢索與基于數據庫的檢索不同。在數據庫領域,數據之間有特定關系并按照這種關系進行結構化存儲。檢索時可按照這種邏輯關系直接找到需要的信息),其主要目的是從海量文檔集中高效檢索出與用戶需求相關的文檔,其研究涉及海量信息采集、表示、組織、內容分析與知識挖掘、索引、訪問、表現等方面。

(4)信息智能抽取:可以從文檔中所尋到所需的信息應用,可以抽取到更精確的信息表達。并且對中英文混合詞、新詞識別能夠自動識別進行分詞功能。同時,可以單條導入用戶詞典,也可以批量導入用戶詞典。如可以定“舉報信 敏感點”,其中舉報信是用戶詞,敏感點是用戶自定義的詞性標記。

智能漢語分詞系統可以對漢語語言進行詞性的自動標注,它能夠真正理解中文,自動根據語言環境將詞語諸如“建設”標注為“名詞”或“動詞”,一級詞性標注準確率接近99%,具備準確率高、速度快、可適應性強等優勢。


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 白河县| 扶沟县| 莱西市| 昭苏县| 绥棱县| 乌拉特中旗| 年辖:市辖区| 双流县| 寿阳县| 镇平县| 汉源县| 蒲江县| 漯河市| 烟台市| 明水县| 南充市| 织金县| 罗定市| 启东市| 灵石县| 定陶县| 沈丘县| 江津市| 曲周县| 建瓯市| 宁南县| 赤城县| 靖安县| 遵义县| 龙里县| 阳谷县| 潜江市| 乐业县| 沅江市| 年辖:市辖区| 泸西县| 仁怀市| 安岳县| 巴东县| 罗定市| 芦溪县|