当前位置:首页 » 编程语言 » python淘宝评论

python淘宝评论

发布时间: 2023-11-08 18:26:27

python SnowNLP情感分析实践与优化总结

由于语料缺乏,前期若使用到情感分析,建议暂时使用SnowNLP(此模块主要使用淘宝评论语料)做情感挖掘,但不仅仅为单纯调用,需要优化,下面是一些实践思考:

可在此基础上优化,比如文本需要特别处理,除了平常的去停用词外,还可以需要对输入的文本结合词性等进行处理。

下面是一些常识:

一)无情感的词语(如去停用词,去掉语气词,无词性标签的词语)

二)对于文本过长,则可以考虑提取关键词或抽取文本摘要后再提取关键词

对于后者实践结果差异明显:

以"发布了头条文章: 《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显 "为例子, 显然该文本为“积极****”文本。

1)s = SnowNLP("发布了头条文章:《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显")

得分为0.5,明显不符合

2)s = SnowNLP(“ ”.join(jieba.analyse.textrank("发布了头条文章:《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显")))

而对于文本特别长的,则可以先抽取摘要,再对摘要提取关键词。

这主要由于此SnowNLP主要用贝叶斯机器学习方法进行训练文本,机器学习在语料覆盖上不够,特征上工程处理不当会减分,也没考虑语义等。

为何要考虑语义层面:

以“ 苏宁易购,是谁给你们下架OV的勇气****” 中的“ 下架”其实才是中心词(为表达愤怒的文本),但“ 勇气 ”为下架的宾语(其为积极的文本),此句应该结果小于0.5,但实际为0.88,去掉“苏宁易购”则为0.6>

⑵ 怎样用python抓取淘宝评论

#coding=utf-8

importurllib2
importsys
importjson
importre

#设置系统默认编码为utf-8
reload(sys)
sys.setdefaultencoding("utf-8")

#Onlyforpython2
'''
只是简单的示例,没有检查无评论的情况,其它异常也可能没有检查,
你可以根据自己的需要再对代码修改
'''

#解析网页数据
defparseData(html_data,reg_str):
pattern=re.compile(reg_str)
result=re.search(pattern,html_data)
ifresult:
returnresult.groups()


#commodity_url为商品详情页面
commodity_url="http://item.taobao.com/item.htm?spm=a1z10.1-c.w4004-9140345655.2.y3LCj0&id=44454286657"

html_data=urllib2.urlopen(commodity_url).read()
#获取用户ID和商品ID
auction_msg=parseData(html_data,r'userNumId=(.*?)&auctionNumId=(.*?)&')
ifnotauction_msg:
print"Getreviewsfailed!"#获取失败,退出
sys.exit()

reviews_url="http://rate.taobao.com/feedRateList.htm?callback=jsonp_reviews_list&currentPageNum=1&rateType=&orderType=sort_weight&userNumId=%s&auctionNumId=%s"%auction_msg

response=urllib2.urlopen(reviews_url)
reviews_data=response.read().decode("gbk")

#获取评论数据
json_str=parseData(reviews_data,r'((.*))')[0]
ifnotjson_str:
print"Getreviewsfailed!"#获取失败,退出
sys.exit()

jdata=json.loads(json_str)

#下面只打印了第一条评论,如需要打印所有,则遍历jdata["comments"]即可
printjdata["comments"][0]["content"]

热点内容
信息存储与信息检索 发布:2025-08-21 02:22:32 浏览:122
android异步数据加载数据 发布:2025-08-21 02:09:33 浏览:245
凯美瑞20e配置怎么样 发布:2025-08-21 02:08:43 浏览:504
云服务器停止运行 发布:2025-08-21 02:03:55 浏览:805
如何把手机相册加密码 发布:2025-08-21 01:58:14 浏览:211
开缓存 发布:2025-08-21 01:51:38 浏览:667
编程自行车 发布:2025-08-21 01:45:24 浏览:156
杀毒软件解除ftp连接 发布:2025-08-21 01:45:14 浏览:472
安卓手机怎么提取音频做铃声 发布:2025-08-21 01:43:58 浏览:201
android按钮页面跳转页面 发布:2025-08-21 01:34:49 浏览:227