国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

用Python進行一些簡單的自然語言處理的教程

2020-02-23 00:29:26
字體:
來源:轉載
供稿:網友

本月的每月挑戰會主題是NLP,我們會在本文幫你開啟一種可能:使用pandas和python的自然語言工具包分析你Gmail郵箱中的內容。

NLP-風格的項目充滿無限可能:

    情感分析是對諸如在線評論、社交媒體等情感內容的測度。舉例來說,關于某個話題的tweets趨向于正面還是負面的意見?一個新聞網站涵蓋的主題,是使用了更正面/負面的詞語,還是經常與某些情緒相關的詞語?這個“正面”的Yelp點評不是很諷刺么?(祝最后去的那位好運!)     分析語言在文學中的使用,進而衡量詞匯或者寫作風格隨時間/地區/作者的變化趨勢.     通過識別所使用的語言的關鍵特征,標記是否為垃圾內容。     基于評論所覆蓋的主題,使用主題抽取進行相似類別的劃分。     通過NLTK's的語料庫,應用Elastisearch和WordNet的組合來衡量Twitter流API上的詞語相似度,進而創建一個更好的實時Twitter搜索。     加入NaNoGenMo項目,用代碼生成自己的小說,你可以從這里大量的創意和資源入手。

將Gmail收件箱加載到pandas

讓我們從項目實例開始!首先我們需要一些數據。準備你的Gmail的數據存檔(包括你最近的垃圾郵件和垃圾文件夾)。

https://www.google.com/settings/takeout

現在去散步吧,對于5.1G大小的信箱,我2.8G的存檔需要發送一個多小時。

當你得到數據并為工程配置好本地環境之后好,使用下面的腳本將數據讀入到pandas(強烈建議使用IPython進行數據分析)
 

from mailbox import mboximport pandas as pd def store_content(message, body=None): if not body:  body = message.get_payload(decode=True) if len(message):  contents = {   "subject": message['subject'] or "",   "body": body,   "from": message['from'],   "to": message['to'],   "date": message['date'],   "labels": message['X-Gmail-Labels'],   "epilogue": message.epilogue,  }  return df.append(contents, ignore_index=True) # Create an empty DataFrame with the relevant columnsdf = pd.DataFrame( columns=("subject", "body", "from", "to", "date", "labels", "epilogue")) # Import your downloaded mbox filebox = mbox('All mail Including Spam and Trash.mbox') fails = []for message in box: try:  if message.get_content_type() == 'text/plain':   df = store_content(message)  elif message.is_multipart():   # Grab any plaintext from multipart messages   for part in message.get_payload():    if part.get_content_type() == 'text/plain':     df = store_content(message, part.get_payload(decode=True))     break except:  fails.append(message)

上面使用Python的mailbox模塊讀取并解析mbox格式的郵件。當然還可以使用更加優雅的方法來完成(比如,郵件中包含大量冗余、重復的數據,像回復中嵌入的“>>>”符號)。另外一個問題是無法處理一些特殊的字符,簡單起見,我們進行丟棄處理;確認你在這一步沒有忽略信箱中重要的部分。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 塘沽区| 陆良县| 沁阳市| 乌拉特后旗| 宁晋县| 东安县| 四平市| 鄂尔多斯市| 盘山县| 疏勒县| 张家界市| 凤城市| 通州市| 莒南县| 聊城市| 嘉定区| 明水县| 澜沧| 道孚县| 中超| 凤冈县| 长岭县| 墨竹工卡县| 佛冈县| 昂仁县| 马公市| 贡嘎县| 聂拉木县| 阿瓦提县| 措勤县| 华池县| 新竹县| 崇文区| 清新县| 和田县| 寿宁县| 绥棱县| 博白县| 荃湾区| 芜湖县| 永靖县|