python文本分类代码

发布时间: 2022-12-25 07:01:29

‘壹’ 如何用python对文本进行聚类

实现原理：
首先从Tourist_spots_5A_BD.txt中读取景点信息，然后通过调用无界面浏览器PhantomJS（Firefox可替代）访问网络链接"http://ke..com/"，通过Selenium获取输入对话框ID，输入关键词如"故宫"，再访问该网络页面。最后通过分析DOM树结构获取摘要的ID并获取其值。核心代码如下：
driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")

PS：Selenium更多应用于自动化测试，推荐Python爬虫使用scrapy等开源工具。
# coding=utf-8
"""
Created on 2015-09-04 @author: Eastmount
"""

import time
import re
import os
import sys
import codecs
import shutil
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui
from selenium.webdriver.common.action_chains import ActionChains

#Open PhantomJS
driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")
#driver = webdriver.Firefox()
wait = ui.WebDriverWait(driver,10)

#Get the Content of 5A tourist spots
def getInfobox(entityName, fileName):
try:
#create paths and txt files
print u'文件名称: ', fileName
info = codecs.open(fileName, 'w', 'utf-8')

#locate input notice: 1.visit url by unicode 2.write files
#Error: Message: Element not found in the cache -
# Perhaps the page has changed since it was looked up
#解决方法: 使用Selenium和Phantomjs
print u'实体名称: ', entityName.rstrip('\n')
driver.get("http://ke..com/")
elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")
elem_inp.send_keys(entityName)
elem_inp.send_keys(Keys.RETURN)
info.write(entityName.rstrip('\n')+'\r\n') #codecs不支持'\n'换行
time.sleep(2)

#load content 摘要
elem_value = driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")
for value in elem_value:
print value.text
info.writelines(value.text + '\r\n')
time.sleep(2)

except Exception,e: #'utf8' codec can't decode byte
print "Error: ",e
finally:
print '\n'
info.close()

#Main function
def main():
#By function get information
path = "BaiSpider\\"
if os.path.isdir(path):
shutil.rmtree(path, True)
os.makedirs(path)
source = open("Tourist_spots_5A_BD.txt", 'r')
num = 1
for entityName in source:
entityName = unicode(entityName, "utf-8")
if u'故宫' in entityName: #else add a '?'
entityName = u'北京故宫'
name = "%04d" % num
fileName = path + str(name) + ".txt"
getInfobox(entityName, fileName)
num = num + 1
print 'End Read Files!'
source.close()
driver.close()

if __name__ == '__main__':
main()

‘贰’ 如何将文本分类成积极和消极的 python

导入文件很简单，如果路径是中文，需要注意，在Windows上需要用Unicode(path,'utf8')转换路径名称

文件中出现大量连续空格、换行符，所以使用正则匹配方法将之替换成一个空格

数字（这里暂且认为数字没有用处），中文英文标点符号，都没有用，过滤掉

也可以将他们写入停用词，然后全部一并过滤掉

用jieba分词，遇到空格也会作为一个单词，分完词后，将空格全部过滤掉

‘叁’ Python基本编码格式

1、一般来说，声明编码格式在脚本中是必需的。2、如果Python源码文件没有声明编码格式，Python解释器会默认使用ASCII编码。但出现非ASCII编码的字符，Python解释器就会报错。

1、Python 采用代码缩进和冒号（ : ）来区分代码块之间的层次。2、在 Python 中，对于类定义、函数定义、流程控制语句、异常处理语句等，行尾的冒号和下一行的缩进，表示下一个代码块的开始，而缩进的结束则表示此代码块的结束。3、Python 中实现对代码的缩进，可以使用空格或者 Tab 键实现。但无论是手动敲空格，还是使用 Tab 键，通常情况下都是采用 4 个空格长度作为一个缩进量（默认情况下，一个 Tab 键就表示 4 个空格）。4、对于 Python 缩进规则，初学者可以这样理解，Python 要求属于同一作用域中的各行代码，它们的缩进量必须一致，但具体缩进量为多少，并不做硬性规定。

正确示例代码:

错误示例代码:

Python中使用 # 进行注释，我们在使用# 的时候，# 号后面要空一格在行内注释的时候，中间应该至少加两个空格

print("你好，世界") # 注释

** 使用的一般性原则：**

1、在二元运算符两边各空一格，算术操作符两边的空格可灵活使用，但两侧务必要保持一致2、不要在逗号、分号、冒号前面加空格，但应该在它们后面加（除非在行尾）3、函数的参数列表中，逗号之后要有空格4、函数的参数列表中，默认值等号两边不要添加空格5、左括号之后，右括号之前不要加添加空格6、参数列表，索引或切片的左括号前不应加空格

使用的一般性原则：

1、编码格式声明、模块导入、常量和全局变量声明、顶级定义和执行代码之间空两行2、顶级定义之间空两行，方法定义之间空一行3、在函数或方法内部，可以在必要的地方空一行以增强节奏感，但应避免连续空行

1、导入总应该放在文件顶部，位于模块注释和文档字符串之后，模块全局变量和常量之前。

2、导入应该按照从最通用到最不通用的顺序分组，分组之间空一行：

3、每个 import 语句只导入一个模块，尽量避免一次导入多个模块

命名规范这一块的大家应该都比较熟悉了，但是不同的编程语言之间的明明规范也是有所区别的~

Python命名建议遵循的一般性原则：

引号使用的一般性原则：

Python跟其他几个主流编程语言的分号使用区别很大Python的代码末尾不需要加分号，而Java和C#等都需要添加

不要在行尾添加分号，也不要用分号将两条命令放在同一行，例如：

Python学习日记

‘肆’ python必背入门代码是什么

python必背代码是：

defnot_empty（s）：

returnsandlen（s。strip（））>0

#returnsands。strip（）

#如果直接单写s。strip（）那么s如果是None，会报错，因为None没有strip方法。

#如果s是None，那么Noneand任何值都是False，直接返回false

#如果s非None，那么判定s。trip（）是否为空。

这样子filter能过滤到None，""，""这样的值。

分成两部分看。第一部分是对长度进行序列。相当于就是range(5)他的结果就是。01234。第二部分就是具体的排序规则。排序规则是用nums的值进行排序，reverse没申明就是默认升序。就是用nums(0到4)的值进行排序，根据这个结果返回的一个range(5)的数组。

python必背内容：

1、变量。指在程序执行过程中，可变的量。定义一个变量，就会伴随有3个特征，分别是内存ID，数据类型和变量值。常量，指在程序执行过程中，不可变的量。一般都用大写字母定义常量。

2、与程序交互。古时候，我们去银行取钱，需要有一个银行业务员等着我们把自己的账号密码输入给他，然后他去进行验证等成功后，我们再将取款金额输入，告诉他。

骄傲的现代人，会为客户提供一台ATM机，让ATM机跟用户交互，从而取代人力。然而机器是死的，我们必须为其编写程序来运行，这就要求我们的编程语言中能够有一种能与用户交互，接收用户输入数据的机制。

‘伍’ python 3 文本处理例子求代码

#coding:utf-8
#file: FileSplit.py

import os,os.path,time

def FileSplit(sourceFile, targetFolder):
sFile = open(sourceFile, 'r')
number = 1000 #每个小文件中保存100000条数据
dataLine = sFile.readline()
tempData = [] #缓存列表
fileNum = 1
if not os.path.isdir(targetFolder): #如果目标目录不存在，则创建
os.mkdir(targetFolder)
while dataLine: #有数据
for row in range(number):
tempData.append(dataLine) #将一行数据添加到列表中
dataLine = sFile.readline()
if not dataLine :
break
tFilename = os.path.join(targetFolder,os.path.split(sourceFile)[1] + str(fileNum) + ".txt")
tFile = open(tFilename, 'a+') #创建小文件
tFile.writelines(tempData) #将列表保存到文件中
tFile.close()
tempData = [] #清空缓存列表
print(tFilename + " 创建于: " + str(time.ctime()))
fileNum += 1 #文件编号

sFile.close()

if __name__ == "__main__" :
FileSplit("access.log","access")
#coding:utf-8
#file: Map.py

import os,os.path,re

def Map(sourceFile, targetFolder):
sFile = open(sourceFile, 'r')
dataLine = sFile.readline()
tempData = {} #缓存列表
if not os.path.isdir(targetFolder): #如果目标目录不存在，则创建
os.mkdir(targetFolder)
while dataLine: #有数据
p_re = re.compile(r'(GET|POST)\s(.*?)\sHTTP/1.[01]',re.IGNORECASE) #用正则表达式解析数据
match = p_re.findall(dataLine)
if match:
visitUrl = match[0][1]
if visitUrl in tempData:
tempData[visitUrl] += 1
else:
tempData[visitUrl] = 1
dataLine = sFile.readline() #读入下一行数据

sFile.close()

tList = []
for key,value in sorted(tempData.items(),key = lambda k:k[1],reverse = True):
tList.append(key + " " + str(value) + '\n')

tFilename = os.path.join(targetFolder,os.path.split(sourceFile)[1] + "_map.txt")
tFile = open(tFilename, 'a+') #创建小文件
tFile.writelines(tList) #将列表保存到文件中
tFile.close()

if __name__ == "__main__" :
Map("access\\access.log1.txt","access")
Map("access\\access.log2.txt","access")
Map("access\\access.log3.txt","access")
#coding:utf-8
#file: Rece.py

import os,os.path,re

def Rece(sourceFolder, targetFile):
tempData = {} #缓存列表
p_re = re.compile(r'(.*?)(\d{1,}$)',re.IGNORECASE) #用正则表达式解析数据
for root,dirs,files in os.walk(sourceFolder):
for fil in files:
if fil.endswith('_map.txt'): #是rece文件
sFile = open(os.path.abspath(os.path.join(root,fil)), 'r')
dataLine = sFile.readline()

while dataLine: #有数据
subdata = p_re.findall(dataLine) #用空格分割数据
#print(subdata[0][0]," ",subdata[0][1])
if subdata[0][0] in tempData:
tempData[subdata[0][0]] += int(subdata[0][1])
else:
tempData[subdata[0][0]] = int(subdata[0][1])
dataLine = sFile.readline() #读入下一行数据

sFile.close()

tList = []
for key,value in sorted(tempData.items(),key = lambda k:k[1],reverse = True):
tList.append(key + " " + str(value) + '\n')

tFilename = os.path.join(sourceFolder,targetFile + "_rece.txt")
tFile = open(tFilename, 'a+') #创建小文件
tFile.writelines(tList) #将列表保存到文件中
tFile.close()

if __name__ == "__main__" :
Rece("access","access")

‘陆’ python简单的编程代码

输入两个数字，比较大小，然后按照大小输出

def cmpNum():
a = input("请输入一个数字：")
b = input("请输入一个数字：")
if a >= b:
print(a, b)
else:
print(b, a)

cmpNum()

结果一：

请输入一个数字：159
请输入一个数字：456
456 159

结果二：
请输入一个数字：9568
请输入一个数字：1452
9568 1452

‘柒’ Python中的9个代码小实例！

1、串联比较

2、串联函数调用

3、复制列表

4、字典获取元素值

5、按值排序字典

6、 For Else

7、列表转换为逗号分隔的字符串

8、合并字典

9、寻找列表中最大和最小元素的索引

若有不明白的地方，请移步Python视频教程继续学习！！

‘捌’ TextGrocery，实用的短文本分类Python库

在目前能看到的文本分类技术中，最好的毋庸置疑就是支持向量机------SVM。
但是在我初次接触分类技术时，不断的接触着算法原理，分词，向量化，tf-idf等技术基础，随后就是sklearn这样的超大功能技术包，sklearn有的时候就有一种大材小用的感觉了。
于是在一次机缘巧合中，我遇到了tgrocery，随后就有一种相见恨晚的感觉。那么这个怎么用，有什么用呢？

我们可以用pip简单的进行包的安装

让文本分类变得简单！
GitHub传送门 —> TextGrocery

这个神奇的包，让我们处理一些类似于标题的短文本的分类问题变得简单。
相对与sklearn的svm和nb，这个在进行分类的用时更加迅速。

‘玖’ 6 个值得玩味的 Python 代码

先选取了 6 个自己认为值得玩味的 python代码，希望对正在学习 python 的你有所帮助。

1、类有两个方法，一个是 new,一个是 init,有什么区别，哪个会先执行呢？

运行结果如下：

再来看另一个例子

运行结果如下：

这里给出官方的解释： init 作用是类实例进行初始化，第一个参数为 self，代表对象本身，可以没有返回值。 new 则是返回一个新的类的实例，第一个参数是 cls 代表该类本身，必须有返回值。很明显，类先实例化才能产能对象，显然是 new 先执行，然后再 init ，实际上，只要 new 返回的是类本身的实例，它会自动调用 init 进行初始化。但是有例外，如果 new 返回的是其他类的实例，则它不会调用当前类的 init 。下面我们分别输出下对象 a 和对象 b 的类型：

可以看出，a 是 test 类的一个对象，而 b 就是 object 的对象。

2、map 函数返回的对象

map（）函数第一个参数是 fun，第二个参数是一般是 list，第三个参数可以写 list，也可以不写，作用就是对列表中 list 的每个元素顺序调用函数 fun 。

有没有发现，第二次输出 b 中的元素时，发现变成空了。原因是 map() 函数返回的是一个迭代器，并用对返回结果使用了 yield，这样做的目的在于节省内存。举个例子：

执行结果为：

这里如果不用 yield，那么在列表中的元素非常大时，将会全部装入内存，这是非常浪费内存的，同时也会降低效率。

3、正则表达式中 compile 是否多此一举？

比如现在有个需求，对于文本中国，用正则匹配出标签里面的“中国”，其中 class 的类名是不确定的。有两种方法，代码如下：

这里为什么要用 compile 多写两行代码呢？原因是 compile 将正则表达式编译成一个对象，加快速度，并重复使用。

4、[[1,2],[3,4],[5,6]]一行代码展开该列表，得出[1,2,3,4,5,6]

5、一行代码将字符串 "->" 插入到 "abcdefg"中每个字符的中间

这里也建议多使用 os.path.join() 来拼接操作系统的文件路径。

6、zip 函数

zip() 函数在运算时，会以一个或多个序列（可迭代对象）做为参数，返回一个元组的列表。同时将这些序列中并排的元素配对。zip() 参数可以接受任何类型的序列，同时也可以有两个以上的参数;当传入参数的长度不同时，zip 能自动以最短序列长度为准进行截取，获得元组。

‘拾’ python基础代码是什么

代码：

defnot_empty（s）：

returnsandlen（s。strip（））>0

#returnsands。strip（）

#如果直接单写s。strip（）那么s如果是None，会报错，因为None没有strip方法。

#如果s是None，那么Noneand任何值都是False，直接返回false

#如果s非None，那么判定s。trip（）是否为空。

这样子filter能过滤到None，""，""这样的值。

(10)python文本分类代码扩展阅读：

根据PEP的规定，必须使用4个空格来表示每级缩进。使用Tab字符和其它数目的空格虽然都可以编译通过，但不符合编码规范。支持Tab字符和其它数目的空格仅仅是为兼容很旧的的Python程序和某些有问题的编辑程序。

Python的函数支持递归、默认参数值、可变参数，但不支持函数重载。为了增强代码的可读性，可以在函数后书写“文档字符串”(Documentation Strings，或者简称docstrings)，用于解释函数的作用、参数的类型与意义、返回值类型与取值范围等。可以使用内置函数help()打印出函数的使用帮助。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：1105

制作脚本网站发布：2025-10-20 08:17:34 浏览：1381

python中的init方法发布：2025-10-20 08:17:33 浏览：1070

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1245

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：1111

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1461

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：667

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：564

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1240

python股票数据获取发布：2025-10-20 07:39:44 浏览：1272

python文本分类代码

与python文本分类代码相关的资讯