当前位置:首页 » 编程语言 » python文本分类代码

python文本分类代码

发布时间: 2022-12-25 07:01:29

‘壹’ 如何用python对文本进行聚类

实现原理:
首先从Tourist_spots_5A_BD.txt中读取景点信息,然后通过调用无界面浏览器PhantomJS(Firefox可替代)访问网络链接"http://ke..com/",通过Selenium获取输入对话框ID,输入关键词如"故宫",再访问该网络页面。最后通过分析DOM树结构获取摘要的ID并获取其值。核心代码如下:
driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")

PS:Selenium更多应用于自动化测试,推荐Python爬虫使用scrapy等开源工具。
# coding=utf-8
"""
Created on 2015-09-04 @author: Eastmount
"""

import time
import re
import os
import sys
import codecs
import shutil
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui
from selenium.webdriver.common.action_chains import ActionChains

#Open PhantomJS
driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")
#driver = webdriver.Firefox()
wait = ui.WebDriverWait(driver,10)

#Get the Content of 5A tourist spots
def getInfobox(entityName, fileName):
try:
#create paths and txt files
print u'文件名称: ', fileName
info = codecs.open(fileName, 'w', 'utf-8')

#locate input notice: 1.visit url by unicode 2.write files
#Error: Message: Element not found in the cache -
# Perhaps the page has changed since it was looked up
#解决方法: 使用Selenium和Phantomjs
print u'实体名称: ', entityName.rstrip('\n')
driver.get("http://ke..com/")
elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")
elem_inp.send_keys(entityName)
elem_inp.send_keys(Keys.RETURN)
info.write(entityName.rstrip('\n')+'\r\n') #codecs不支持'\n'换行
time.sleep(2)

#load content 摘要
elem_value = driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")
for value in elem_value:
print value.text
info.writelines(value.text + '\r\n')
time.sleep(2)

except Exception,e: #'utf8' codec can't decode byte
print "Error: ",e
finally:
print '\n'
info.close()

#Main function
def main():
#By function get information
path = "BaiSpider\\"
if os.path.isdir(path):
shutil.rmtree(path, True)
os.makedirs(path)
source = open("Tourist_spots_5A_BD.txt", 'r')
num = 1
for entityName in source:
entityName = unicode(entityName, "utf-8")
if u'故宫' in entityName: #else add a '?'
entityName = u'北京故宫'
name = "%04d" % num
fileName = path + str(name) + ".txt"
getInfobox(entityName, fileName)
num = num + 1
print 'End Read Files!'
source.close()
driver.close()

if __name__ == '__main__':
main()

‘贰’ 如何将文本分类成积极和消极的 python

导入文件很简单,如果路径是中文,需要注意,在Windows上需要用Unicode(path,'utf8')转换路径名称

文件中出现大量连续空格、换行符,所以使用正则匹配方法将之替换成一个空格

数字(这里暂且认为数字没有用处),中文英文标点符号,都没有用,过滤掉

也可以将他们写入停用词,然后全部一并过滤掉

用jieba分词,遇到空格也会作为一个单词,分完词后,将空格全部过滤掉

‘叁’ Python基本编码格式

1、一般来说,声明编码格式在脚本中是必需的。2、如果Python源码文件没有声明编码格式,Python解释器会默认使用ASCII编码。但出现非ASCII编码的字符,Python解释器就会报错。

1、Python 采用代码缩进和冒号( : )来区分代码块之间的层次。2、在 Python 中,对于类定义、函数定义、流程控制语句、异常处理语句等,行尾的冒号和下一行的缩进,表示下一个代码块的开始,而缩进的结束则表示此代码块的结束。3、Python 中实现对代码的缩进,可以使用空格或者 Tab 键实现。但无论是手动敲空格,还是使用 Tab 键,通常情况下都是采用 4 个空格长度作为一个缩进量(默认情况下,一个 Tab 键就表示 4 个空格)。4、对于 Python 缩进规则,初学者可以这样理解,Python 要求属于同一作用域中的各行代码,它们的缩进量必须一致,但具体缩进量为多少,并不做硬性规定。

正确示例代码:

错误示例代码:

Python中使用 # 进行注释,我们在使用# 的时候,# 号后面要空一格在行内注释的时候,中间应该至少加两个空格

print("你好,世界") # 注释

** 使用的一般性原则:**

1、在二元运算符两边各空一格,算术操作符两边的空格可灵活使用,但两侧务必要保持一致2、不要在逗号、分号、冒号前面加空格,但应该在它们后面加(除非在行尾)3、函数的参数列表中,逗号之后要有空格4、函数的参数列表中,默认值等号两边不要添加空格5、左括号之后,右括号之前不要加添加空格6、参数列表, 索引或切片的左括号前不应加空格

使用的一般性原则:

1、编码格式声明、模块导入、常量和全局变量声明、顶级定义和执行代码之间空两行2、顶级定义之间空两行,方法定义之间空一行3、在函数或方法内部,可以在必要的地方空一行以增强节奏感,但应避免连续空行

1、导入总应该放在文件顶部,位于模块注释和文档字符串之后,模块全局变量和常量之前。

2、导入应该按照从最通用到最不通用的顺序分组,分组之间空一行:

3、每个 import 语句只导入一个模块,尽量避免一次导入多个模块

命名规范这一块的大家应该都比较熟悉了,但是不同的编程语言之间的明明规范也是有所区别的~

Python命名建议遵循的一般性原则:

引号使用的一般性原则:

Python跟其他几个主流编程语言的分号使用区别很大Python的代码末尾不需要加分号,而Java和C#等都需要添加

不要在行尾添加分号,也不要用分号将两条命令放在同一行,例如:

Python学习日记

‘肆’ python必背入门代码是什么

python必背代码是:

defnot_empty(s):

returnsandlen(s。strip())>0

#returnsands。strip()

#如果直接单写s。strip()那么s如果是None,会报错,因为None没有strip方法。

#如果s是None,那么Noneand任何值都是False,直接返回false

#如果s非None,那么判定s。trip()是否为空。

这样子filter能过滤到None,"",""这样的值。

分成两部分看。第一部分是对长度进行序列。相当于就是range(5)他的结果就是。01234。第二部分就是具体的排序规则。排序规则是用nums的值进行排序,reverse没申明就是默认升序。就是用nums(0到4)的值进行排序,根据这个结果返回的一个range(5)的数组。

python必背内容:

1、变量。指在程序执行过程中,可变的量。定义一个变量,就会伴随有3个特征,分别是内存ID,数据类型和变量值。常量,指在程序执行过程中,不可变的量。一般都用大写字母定义常量。

2、与程序交互。古时候,我们去银行取钱,需要有一个银行业务员等着我们把自己的账号密码输入给他,然后他去进行验证等成功后,我们再将取款金额输入,告诉他。

骄傲的现代人,会为客户提供一台ATM机,让ATM机跟用户交互,从而取代人力。然而机器是死的,我们必须为其编写程序来运行,这就要求我们的编程语言中能够有一种能与用户交互,接收用户输入数据的机制。

‘伍’ python 3 文本处理例子求代码

#coding:utf-8
#file: FileSplit.py

import os,os.path,time

def FileSplit(sourceFile, targetFolder):
sFile = open(sourceFile, 'r')
number = 1000 #每个小文件中保存100000条数据
dataLine = sFile.readline()
tempData = [] #缓存列表
fileNum = 1
if not os.path.isdir(targetFolder): #如果目标目录不存在,则创建
os.mkdir(targetFolder)
while dataLine: #有数据
for row in range(number):
tempData.append(dataLine) #将一行数据添加到列表中
dataLine = sFile.readline()
if not dataLine :
break
tFilename = os.path.join(targetFolder,os.path.split(sourceFile)[1] + str(fileNum) + ".txt")
tFile = open(tFilename, 'a+') #创建小文件
tFile.writelines(tempData) #将列表保存到文件中
tFile.close()
tempData = [] #清空缓存列表
print(tFilename + " 创建于: " + str(time.ctime()))
fileNum += 1 #文件编号

sFile.close()

if __name__ == "__main__" :
FileSplit("access.log","access")
#coding:utf-8
#file: Map.py

import os,os.path,re

def Map(sourceFile, targetFolder):
sFile = open(sourceFile, 'r')
dataLine = sFile.readline()
tempData = {} #缓存列表
if not os.path.isdir(targetFolder): #如果目标目录不存在,则创建
os.mkdir(targetFolder)
while dataLine: #有数据
p_re = re.compile(r'(GET|POST)\s(.*?)\sHTTP/1.[01]',re.IGNORECASE) #用正则表达式解析数据
match = p_re.findall(dataLine)
if match:
visitUrl = match[0][1]
if visitUrl in tempData:
tempData[visitUrl] += 1
else:
tempData[visitUrl] = 1
dataLine = sFile.readline() #读入下一行数据

sFile.close()

tList = []
for key,value in sorted(tempData.items(),key = lambda k:k[1],reverse = True):
tList.append(key + " " + str(value) + '\n')

tFilename = os.path.join(targetFolder,os.path.split(sourceFile)[1] + "_map.txt")
tFile = open(tFilename, 'a+') #创建小文件
tFile.writelines(tList) #将列表保存到文件中
tFile.close()

if __name__ == "__main__" :
Map("access\\access.log1.txt","access")
Map("access\\access.log2.txt","access")
Map("access\\access.log3.txt","access")
#coding:utf-8
#file: Rece.py

import os,os.path,re

def Rece(sourceFolder, targetFile):
tempData = {} #缓存列表
p_re = re.compile(r'(.*?)(\d{1,}$)',re.IGNORECASE) #用正则表达式解析数据
for root,dirs,files in os.walk(sourceFolder):
for fil in files:
if fil.endswith('_map.txt'): #是rece文件
sFile = open(os.path.abspath(os.path.join(root,fil)), 'r')
dataLine = sFile.readline()

while dataLine: #有数据
subdata = p_re.findall(dataLine) #用空格分割数据
#print(subdata[0][0]," ",subdata[0][1])
if subdata[0][0] in tempData:
tempData[subdata[0][0]] += int(subdata[0][1])
else:
tempData[subdata[0][0]] = int(subdata[0][1])
dataLine = sFile.readline() #读入下一行数据

sFile.close()

tList = []
for key,value in sorted(tempData.items(),key = lambda k:k[1],reverse = True):
tList.append(key + " " + str(value) + '\n')

tFilename = os.path.join(sourceFolder,targetFile + "_rece.txt")
tFile = open(tFilename, 'a+') #创建小文件
tFile.writelines(tList) #将列表保存到文件中
tFile.close()

if __name__ == "__main__" :
Rece("access","access")

‘陆’ python简单的编程代码

输入两个数字,比较大小,然后按照大小输出

def cmpNum():
a = input("请输入一个数字:")
b = input("请输入一个数字:")
if a >= b:
print(a, b)
else:
print(b, a)

cmpNum()

结果一:

请输入一个数字:159
请输入一个数字:456
456 159

结果二:
请输入一个数字:9568
请输入一个数字:1452
9568 1452

‘柒’ Python中的9个代码小实例!

1、串联比较

2、串联函数调用

3、复制列表

4、字典获取元素值

5、 按值排序字典

6、 For Else

7、列表转换为逗号分隔的字符串

8、合并字典

9、寻找列表中最大和最小元素的索引

若有不明白的地方,请移步Python视频教程继续学习!!

‘捌’ TextGrocery,实用的短文本分类Python库

在目前能看到的文本分类技术中,最好的毋庸置疑就是支持向量机------SVM。
但是在我初次接触分类技术时,不断的接触着算法原理,分词,向量化,tf-idf等技术基础,随后就是sklearn这样的超大功能技术包,sklearn有的时候就有一种大材小用的感觉了。
于是在一次机缘巧合中,我遇到了tgrocery,随后就有一种相见恨晚的感觉。那么这个怎么用,有什么用呢?

我们可以用pip简单的进行包的安装

让文本分类变得简单!
GitHub传送门 —> TextGrocery

这个神奇的包,让我们处理一些类似于标题的短文本的分类问题变得简单。
相对与sklearn的svm和nb,这个在进行分类的用时更加迅速。

‘玖’ 6 个值得玩味的 Python 代码

先选取了 6 个自己认为值得玩味的 python代码,希望对正在学习 python 的你有所帮助。

1、类有两个方法,一个是 new,一个是 init,有什么区别,哪个会先执行呢?

运行结果如下:

再来看另一个例子

运行结果如下:

这里给出官方的解释: init 作用是类实例进行初始化,第一个参数为 self,代表对象本身,可以没有返回值。 new 则是返回一个新的类的实例,第一个参数是 cls 代表该类本身,必须有返回值。很明显,类先实例化才能产能对象,显然是 new 先执行,然后再 init ,实际上,只要 new 返回的是类本身的实例,它会自动调用 init 进行初始化。但是有例外,如果 new 返回的是其他类的实例,则它不会调用当前类的 init 。下面我们分别输出下对象 a 和对象 b 的类型:

可以看出,a 是 test 类的一个对象,而 b 就是 object 的对象。

2、map 函数返回的对象

map()函数第一个参数是 fun,第二个参数是一般是 list,第三个参数可以写 list,也可以不写,作用就是对列表中 list 的每个元素顺序调用函数 fun 。

有没有发现,第二次输出 b 中的元素时,发现变成空了。原因是 map() 函数返回的是一个迭代器,并用对返回结果使用了 yield,这样做的目的在于节省内存。 举个例子:

执行结果为:

这里如果不用 yield,那么在列表中的元素非常大时,将会全部装入内存,这是非常浪费内存的,同时也会降低效率。

3、正则表达式中 compile 是否多此一举?

比如现在有个需求,对于文本 中国 ,用正则匹配出标签里面的“中国”,其中 class 的类名是不确定的。有两种方法,代码如下:

这里为什么要用 compile 多写两行代码呢? 原因是 compile 将正则表达式编译成一个对象,加快速度,并重复使用。

4、[[1,2],[3,4],[5,6]]一行代码展开该列表,得出[1,2,3,4,5,6]

5、一行代码将字符串 "->" 插入到 "abcdefg"中每个字符的中间

这里也建议多使用 os.path.join() 来拼接操作系统的文件路径。

6、zip 函数

zip() 函数在运算时,会以一个或多个序列(可迭代对象)做为参数,返回一个元组的列表。同时将这些序列中并排的元素配对。zip() 参数可以接受任何类型的序列,同时也可以有两个以上的参数;当传入参数的长度不同时,zip 能自动以最短序列长度为准进行截取,获得元组。

‘拾’ python基础代码是什么

代码:

defnot_empty(s):

returnsandlen(s。strip())>0

#returnsands。strip()

#如果直接单写s。strip()那么s如果是None,会报错,因为None没有strip方法。

#如果s是None,那么Noneand任何值都是False,直接返回false

#如果s非None,那么判定s。trip()是否为空。

这样子filter能过滤到None,"",""这样的值。

分成两部分看。第一部分是对长度进行序列。相当于就是range(5)他的结果就是。01234。第二部分就是具体的排序规则。排序规则是用nums的值进行排序,reverse没申明就是默认升序。就是用nums(0到4)的值进行排序,根据这个结果返回的一个range(5)的数组。

(10)python文本分类代码扩展阅读:

根据PEP的规定,必须使用4个空格来表示每级缩进。使用Tab字符和其它数目的空格虽然都可以编译通过,但不符合编码规范。支持Tab字符和其它数目的空格仅仅是为兼容很旧的的Python程序和某些有问题的编辑程序。

Python的函数支持递归、默认参数值、可变参数,但不支持函数重载。为了增强代码的可读性,可以在函数后书写“文档字符串”(Documentation Strings,或者简称docstrings),用于解释函数的作用、参数的类型与意义、返回值类型与取值范围等。可以使用内置函数help()打印出函数的使用帮助。

热点内容
致炫x自豪版有哪些配置 发布:2024-05-16 17:04:12 浏览:669
关掉密码要往哪里关 发布:2024-05-16 16:46:03 浏览:369
网站源码查杀 发布:2024-05-16 16:02:53 浏览:834
服务器不用导轨怎么办 发布:2024-05-16 15:49:09 浏览:180
如何查看pppoe密码 发布:2024-05-16 15:38:02 浏览:174
云服务器成本价大概多少 发布:2024-05-16 15:33:42 浏览:446
正式服海岛冰茶怎么配置 发布:2024-05-16 15:25:39 浏览:290
安卓怎么注销探探 发布:2024-05-16 15:24:38 浏览:960
ata72x是多大的压缩机 发布:2024-05-16 15:07:59 浏览:95
安卓如何实现carplay的功能 发布:2024-05-16 15:02:54 浏览:713