盤點(diǎn)一個(gè)英文文本中統(tǒng)計(jì)關(guān)鍵詞的方法
回復(fù)“資源”即可獲贈(zèng)Python學(xué)習(xí)資料
今
日
【資料圖】
雞
湯
冉冉幾盈虛,澄澄變今古。大家好,我是皮皮。
一、前言前幾天在Python最強(qiáng)王者交流群【W(wǎng)endy Zheng】問(wèn)了一個(gè)英文文本中統(tǒng)計(jì)關(guān)鍵詞的問(wèn)題,這里拿出來(lái)給大家分享下。
二、實(shí)現(xiàn)過(guò)程針對(duì)這個(gè)問(wèn)題,本文給出一個(gè)思路方法,也許有幫助,首先我們需要將Excel中的文本進(jìn)行導(dǎo)入到一個(gè)文本文件中去,代碼如下:
#coding:utf-8importpandasaspddf=pd.read_excel("./文本.xlsx")#print(df.head())#df["專業(yè)關(guān)鍵詞"]fortextindf["工作要求"]:#print(text)iftextisnotNone:withopen("工作要求.txt",mode="a",encoding="utf-8")asfile:file.write(str(text))print("寫入完成")
接下來(lái)就可以針對(duì)這個(gè)文本文件進(jìn)行相關(guān)的詞頻統(tǒng)計(jì)了,如果你有自己自定義的關(guān)鍵詞,也可以就著關(guān)鍵詞去統(tǒng)計(jì),沒(méi)有的話,就自己在關(guān)鍵詞范圍內(nèi),任意取多少個(gè)關(guān)鍵詞都可以,相關(guān)的代碼如下所示:
fromcollectionsimportCounterimportpandasaspddf=pd.read_excel("./文本.xlsx")#print(df.head())words=[]withopen("工作要求.txt","r",encoding="utf-8")asf:line=f.readlines()forwordinline[0].split(""):words.append(word)print(len(words))counter=Counter(words)#print(counter)#df["專業(yè)關(guān)鍵詞"]fortextindf["專業(yè)關(guān)鍵詞"]:fork,vincounter.items():ifk==text:print(k,v)
這個(gè)代碼對(duì)于英文文本還是適用的,不過(guò)有個(gè)小問(wèn)題,如下。
最后這里也給出中文分詞的代碼和可視化代碼,兩者結(jié)合在一起的,感興趣的小伙伴們可以試試看。
fromcollectionsimportCounter#統(tǒng)計(jì)詞頻frompyecharts.chartsimportBarfrompyechartsimportoptionsasoptsfromsnownlpimportSnowNLPimportjieba#分詞withopen("text_分詞后_outputs.txt","r",encoding="utf-8")asf:read=f.read()withopen("stop_word.txt","r",encoding="utf-8")asf:stop_word=f.read()word=jieba.cut(read)words=[]foriinlist(word):ifinotinstop_word:words.append(i)columns=[]data=[]fork,vindict(Counter(words).most_common(10)).items():columns.append(k)data.append(v)bar=(Bar().add_xaxis(columns).add_yaxis("詞頻",data).set_global_opts(title_opts=opts.TitleOpts(title="詞頻top10")))bar.render("詞頻.html")三、總結(jié)
大家好,我是皮皮。這篇文章主要盤點(diǎn)了一個(gè)英文文本中統(tǒng)計(jì)關(guān)鍵詞方法處理的問(wèn)題,文中針對(duì)該問(wèn)題,給出了具體的解析和代碼實(shí)現(xiàn),幫助粉絲順利解決了問(wèn)題。
最后感謝粉絲【W(wǎng)endy Zheng】提問(wèn),感謝【Python進(jìn)階者】給出的思路和代碼解析,感謝【Python狗】等人參與學(xué)習(xí)交流。
大家在學(xué)習(xí)過(guò)程中如果有遇到問(wèn)題,歡迎隨時(shí)聯(lián)系我解決(我的微信:pdcfighting),應(yīng)粉絲要求,我創(chuàng)建了一些高質(zhì)量的Python付費(fèi)學(xué)習(xí)交流群和付費(fèi)接單群,歡迎大家加入我的Python學(xué)習(xí)交流群和接單群!
小伙伴們,快快用實(shí)踐一下吧!如果在學(xué)習(xí)過(guò)程中,有遇到任何問(wèn)題,歡迎加我好友,我拉你進(jìn)Python學(xué)習(xí)交流群共同探討學(xué)習(xí)。
-------------------End-------------------
往期精彩文章推薦:
使用Pandas分組對(duì)另一列聚合怎么破?
盤點(diǎn)一個(gè)pandas兩個(gè)數(shù)據(jù)橫向拼接的問(wèn)題
盤點(diǎn)一個(gè)Python列表append后的竟然結(jié)果案例
盤點(diǎn)一個(gè)使用Python批量處理文件時(shí)文件名對(duì)齊的問(wèn)題
歡迎大家點(diǎn)贊,留言,轉(zhuǎn)發(fā),轉(zhuǎn)載,感謝大家的相伴與支持
想加入Python學(xué)習(xí)群請(qǐng)?jiān)诤笈_(tái)回復(fù)【入群】
萬(wàn)水千山總是情,點(diǎn)個(gè)【在看】行不行
/今日留言主題/
隨便說(shuō)一兩句吧~~
關(guān)鍵詞: 學(xué)習(xí)交流 工作要求 文本文件
相關(guān)閱讀
-
世界熱推薦:今晚7:00直播丨下一個(gè)突破...
今晚19:00,Cocos視頻號(hào)直播馬上點(diǎn)擊【預(yù)約】啦↓↓↓在運(yùn)營(yíng)了三年... -
NFT周刊|Magic Eden宣布支持Polygon網(wǎng)...
Block-986在NFT這樣的市場(chǎng),每周都會(huì)有相當(dāng)多項(xiàng)目起起伏伏。在過(guò)去... -
環(huán)球今亮點(diǎn)!頭條觀察 | DeFi的興衰與...
在比特幣得到機(jī)構(gòu)關(guān)注之后,許多財(cái)務(wù)專家預(yù)測(cè)世界將因?yàn)榧用茇泿诺?.. -
重新審視合作,體育Crypto的可靠關(guān)系才能雙贏
Block-987即使在體育Crypto領(lǐng)域,人們的目光仍然集中在FTX上。隨著... -
簡(jiǎn)訊:前端單元測(cè)試,更進(jìn)一步
前端測(cè)試@2022如果從2014年Jest的第一個(gè)版本發(fā)布開(kāi)始計(jì)算,前端開(kāi)發(fā)... -
焦點(diǎn)熱訊:劉強(qiáng)東這波操作秀
近日,劉強(qiáng)東發(fā)布京東全員信,信中提到:自2023年1月1日起,逐步為...