Python27字元
Ⅰ python2.7 字元集轉換問題
這個沒有辦法的,因為字元集不一樣,解碼方式就不一樣,你可以使用chardet模塊檢測編碼,然後解碼成unicode再操作。
>>> import chardet
>>> f = open('songs.txt','r')
>>> result = chardet.detect(f.read())
>>> result
{'confidence': 0.99, 'encoding': 'utf-8'}
Ⅱ python2.7.x的字元串編碼到底什麼鬼
一直以來我其實一直對python的編碼弄得非常暈,能正常編碼,也能處理一些情況。但是始終不明白有些問題究竟為何出,原因是什麼,為什麼要這樣用。
今天晚上正好好好研究了一番解答了自己心中的困惑。
Q:python2.7.x裡面的中文表示到底是什麼鬼?
A:直接來看看
In [23]: x = '好不好喝都要喝'
In [24]: x
Out[24]: '\xe5\xa5\xbd\xe4\xb8\x8d\xe5\xa5\xbd\xe5\x96\x9d\xe9\x83\xbd\xe8\xa6\x81\xe5\x96\x9d'
這個x列印值相信熟悉編碼的盆友都知道,這是utf-8編碼。也就是說python2.7.x 在默認情況下將中文默認轉到了utf-8編碼。
這里type(x)得到結果是str
Q:python2.7.x里的unicode究竟什麼鬼?
A:還是通過例子來看看
In [16]: x = u'好不好喝就很好喝'
In [17]: type(x)
Out[17]: unicode
在2.7.x在中,u寫在字元串前面將會將一個字元串轉成unicode對象。
Q:python2.7.x中unicode可以和str相加嗎?
A:還是來看例子
In [62]: z = '好不好喝'
In [63]: x = u'好不好喝都要喝'
In [64]: z+x
---------------------------------------------------------------------------
UnicodeDecodeError Traceback (most recent call last)
<ipython-input-64-f964ff206363> in <mole>()
----> 1 z+x
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)
熟悉的報錯,可見在python2.7.x中,unicode中文和utf8中文是不能相加的因為是不同類型。
Q:那麼英文字元串可以相加嗎?
A:可以。具體就不掩飾了大家可以自己試試。而且最終得到的結果會被轉成全unicode
這兩個庫在對無論utf8還是unicode對象進行中文編碼的時候,都會將內容轉成unicode再編碼。最後你拿到結果decode之後就變成了unicode對象,想要再拿到utf8對象,就需要再encode一次才可以了。
一不注意就踩坑。
Ⅲ python 每個字元後面增加空格,怎麼做
#!/usr/bin/python27
#coding:utf8
'''
將文件中的每個字元後面加個空格
'''
withopen('a.txt','r+')asfilehandler:
withopen('newtxt.txt','w')asfilehandler2:
filehandler2.write(''.join([f+''forfhinfilehandlerforfinfh]))
Ⅳ 享學課堂盤點python字元串是什麼及簡單操作方法
python 字元串str是在Python編寫程序過程中,最常見的一種基本數據類型。字元串是許多單個子串組成的序列,其主要是用來表示文本。字元串是不可變數據類型,也就是說你要改變原字元串內的元素,只能是新建另一個字元串。雖然這樣,但python中的字元串還是有許多很實用的操作方法。
Python 字元串操作方法大全
1、去空格及特殊符號
復制代碼代碼如下:
s.strip().lstrip().rstrip(',')
2、復制字元串
復制代碼代碼如下:
#strcpy(sStr1,sStr2)
sStr1 = 'strcpy'
sStr2 = sStr1
sStr1 = 'strcpy2'
print sStr2
3、連接字元串
復制代碼代碼如下:
#strcat(sStr1,sStr2)
sStr1 = 'strcat'
sStr2 = 'append'
sStr1 += sStr2
print sStr1
4、查找字元
復制代碼代碼如下:
#strchr(sStr1,sStr2)
# < 0 為未找到
sStr1 = 'strchr'
sStr2 = 's'
nPos = sStr1.index(sStr2)
print nPos
5、比較字元串
復制代碼代碼如下:
#strcmp(sStr1,sStr2)
sStr1 = 'strchr'
sStr2 = 'strch'
print cmp(sStr1,sStr2)
6、掃描字元串是否包含指定的字元
復制代碼代碼如下:
#strspn(sStr1,sStr2)
sStr1 = '12345678'
sStr2 = '456'
#sStr1 and chars both in sStr1 and sStr2
print len(sStr1 and sStr2)
7、字元串長度
復制代碼代碼如下:
#strlen(sStr1)
sStr1 = 'strlen'
print len(sStr1)
8、將字元串中的大小寫轉換
復制代碼代碼如下:
S.lower() #小寫
S.upper() #大寫
S.swapcase() #大小寫互換
S.capitalize() #首字母大寫
String.capwords(S) #這是模塊中的方法。它把S用split()函數分開,然後用capitalize()把首字母變成大寫,最後用join()合並到一起
#實例:
#strlwr(sStr1)
sStr1 = 'JCstrlwr'
sStr1 = sStr1.upper()
#sStr1 = sStr1.lower()
print sStr1
9、追加指定長度的字元串
復制代碼代碼如下:
#strncat(sStr1,sStr2,n)
sStr1 = '12345'
sStr2 = 'abcdef'
n = 3
sStr1 += sStr2[0:n]
print sStr1
10、字元串指定長度比較
復制代碼代碼如下:
#strncmp(sStr1,sStr2,n)
sStr1 = '12345'
sStr2 = '123bc'
n = 3
print cmp(sStr1[0:n],sStr2[0:n])
11、復制指定長度的字元
復制代碼代碼如下:
#strncpy(sStr1,sStr2,n)
sStr1 = ''
sStr2 = '12345'
n = 3
sStr1 = sStr2[0:n]
print sStr1
12、將字元串前n個字元替換為指定的字元
復制代碼代碼如下:
#strnset(sStr1,ch,n)
sStr1 = '12345'
ch = 'r'
n = 3
sStr1 = n * ch + sStr1[3:]
print sStr1
13、掃描字元串
復制代碼代碼如下:
#strpbrk(sStr1,sStr2)
sStr1 = 'cekjgdklab'
sStr2 = 'gka'
nPos = -1
for c in sStr1:
if c in sStr2:
nPos = sStr1.index(c)
break
print nPos
14、翻轉字元串
復制代碼代碼如下:
#strrev(sStr1)
sStr1 = 'abcdefg'
sStr1 = sStr1[::-1]
print sStr1
15、查找字元串
復制代碼代碼如下:
#strstr(sStr1,sStr2)
sStr1 = 'abcdefg'
sStr2 = 'cde'
print sStr1.find(sStr2)
16、分割字元串
復制代碼代碼如下:
#strtok(sStr1,sStr2)
sStr1 = 'ab,cde,fgh,ijk'
sStr2 = ','
sStr1 = sStr1[sStr1.find(sStr2) + 1:]
print sStr1
#或者
s = 'ab,cde,fgh,ijk'
print(s.split(','))
17、連接字元串
復制代碼代碼如下:
delimiter = ','
mylist = ['Brazil', 'Russia', 'India', 'China']
print delimiter.join(mylist)
18、PHP 中 addslashes 的實現
復制代碼代碼如下:
def addslashes(s):
d = {'"':'\\"', "'":"\\'", "\0":"\\\0", "\\":"\\\\"}
return ''.join(d.get(c, c) for c in s)
s = "John 'Johny' Doe (a.k.a. \"Super Joe\")\\\0"
print s
print addslashes(s)
19、只顯示字母與數字
復制代碼代碼如下:
def OnlyCharNum(s,oth=''):
s2 = s.lower();
fomart = ''
for c in s2:
if not c in fomart:
s = s.replace(c,'');
return s;
print(OnlyStr("a000 aa-b"))
20、截取字元串
復制代碼代碼如下:
str = '0123456789′
print str[0:3] #截取第一位到第三位的字元
print str[:] #截取字元串的全部字元
print str[6:] #截取第七個字元到結尾
print str[:-3] #截取從頭開始到倒數第三個字元之前
print str[2] #截取第三個字元
print str[-1] #截取倒數第一個字元
print str[::-1] #創造一個與原字元串順序相反的字元串
print str[-3:-1] #截取倒數第三位與倒數第一位之前的字元
print str[-3:] #截取倒數第三位到結尾
print str[:-5:-3] #逆序截取,具體啥意思沒搞明白?
21、字元串在輸出時的對齊
復制代碼代碼如下:
S.ljust(width,[fillchar])
#輸出width個字元,S左對齊,不足部分用fillchar填充,默認的為空格。
S.rjust(width,[fillchar]) #右對齊
S.center(width, [fillchar]) #中間對齊
S.zfill(width) #把S變成width長,並在右對齊,不足部分用0補足
22、字元串中的搜索和替換
復制代碼代碼如下:
S.find(substr, [start, [end]])
#返回S中出現substr的第一個字母的標號,如果S中沒有substr則返回-1。start和end作用就相當於在S[start:end]中搜索
S.index(substr, [start, [end]])
#與find()相同,只是在S中沒有substr時,會返回一個運行時錯誤
S.rfind(substr, [start, [end]])
#返回S中最後出現的substr的第一個字母的標號,如果S中沒有substr則返回-1,也就是說從右邊算起的第一次出現的substr的首字母標號
S.rindex(substr, [start, [end]])
S.count(substr, [start, [end]]) #計算substr在S中出現的次數
S.replace(oldstr, newstr, [count])
#把S中的oldstar替換為newstr,count為替換次數。這是替換的通用形式,還有一些函數進行特殊字元的替換
S.strip([chars])
#把S中前後chars中有的字元全部去掉,可以理解為把S前後chars替換為None
S.lstrip([chars])
S.rstrip([chars])
S.expandtabs([tabsize])
#把S中的tab字元替換沒空格,每個tab替換為tabsize個空格,默認是8個
23、字元串的分割和組合
復制代碼代碼如下:
S.split([sep, [maxsplit]])
#以sep為分隔符,把S分成一個list。maxsplit表示分割的次數。默認的分割符為空白字元
S.rsplit([sep, [maxsplit]])
S.splitlines([keepends])
#把S按照行分割符分為一個list,keepends是一個bool值,如果為真每行後而會保留行分割符。
S.join(seq) #把seq代表的序列──字元串序列,用S連接起來
24、字元串的mapping,這一功能包含兩個函數
復制代碼代碼如下:
String.maketrans(from, to)
#返回一個256個字元組成的翻譯表,其中from中的字元被一一對應地轉換成to,所以from和to必須是等長的。
S.translate(table[,deletechars])
# 使用上面的函數產後的翻譯表,把S進行翻譯,並把deletechars中有的字元刪掉。需要注意的是,如果S為unicode字元串,那麼就不支持 deletechars參數,可以使用把某個字元翻譯為None的方式實現相同的功能。此外還可以使用codecs模塊的功能來創建更加功能強大的翻譯表。
25、字元串還有一對編碼和解碼的函數
復制代碼代碼如下:
S.encode([encoding,[errors]])
# 其中encoding可以有多種值,比如gb2312 gbk gb18030 bz2 zlib big5 bzse64等都支持。errors默認值為"strict",意思是UnicodeError。可能的值還有'ignore', 'replace', 'xmlcharrefreplace', 'backslashreplace' 和所有的通過codecs.register_error注冊的值。這一部分內容涉及codecs模塊,不是特明白
S.decode([encoding,[errors]])
26、字元串的測試、判斷函數,這一類函數在string模塊中沒有,這些函數返回的都是bool值
復制代碼代碼如下:
S.startswith(prefix[,start[,end]])
#是否以prefix開頭
S.endswith(suffix[,start[,end]])
#以suffix結尾
S.isalnum()
#是否全是字母和數字,並至少有一個字元
S.isalpha() #是否全是字母,並至少有一個字元
S.isdigit() #是否全是數字,並至少有一個字元
S.isspace() #是否全是空白字元,並至少有一個字元
S.islower() #S中的字母是否全是小寫
S.isupper() #S中的字母是否便是大寫
S.istitle() #S是否是首字母大寫的
27、字元串類型轉換函數,這幾個函數只在string模塊中有
復制代碼代碼如下:
string.atoi(s[,base])
#base默認為10,如果為0,那麼s就可以是012或0x23這種形式的字元串,如果是16那麼s就只能是0x23或0X12這種形式的字元串
string.atol(s[,base]) #轉成long
string.atof(s[,base]) #轉成float
這里再強調一次,字元串對象是不可改變的,也就是說在python創建一個字元串後,你不能把這個字元中的某一部分改變。任何上面的函數改變了字元串後,都會返回一個新的字元串,原字串並沒有變。其實這也是有變通的辦法的,可以用S=list(S)這個函數把S變為由單個字元為成員的list,這樣的話就可以使用S[3]='a'的方式改變值,然後再使用S=" ".join(S)還原成字元串
Ⅳ python 新手請教,用python取字元串中最後的一個特定字元之前的字元串,謝謝了
s="C:/Python27/1/3.py"
pos=s.rfind("/")
s[:pos]#"C:/Python27/1"
Ⅵ Python 2.7 中位元組字元串的處理求助
唔,你也沒寫具體問題…… 給你個python的字元串處理匯總吧。
str='python String function'
生成字元串變數str='python String function'
字元串長度獲取:len(str)
例:print '%s length=%d' % (str,len(str))
一、字母處理
全部大寫:str.upper()
全部小寫:str.lower()
大小寫互換:str.swapcase()
首字母大寫,其餘小寫:str.capitalize()
首字母大寫:str.title()
print '%s lower=%s' % (str,str.lower())
print '%s upper=%s' % (str,str.upper())
print '%s swapcase=%s' % (str,str.swapcase())
print '%s capitalize=%s' % (str,str.capitalize())
print '%s title=%s' % (str,str.title())
二、格式化相關
獲取固定長度,右對齊,左邊不夠用空格補齊:str.ljust(width)
獲取固定長度,左對齊,右邊不夠用空格補齊:str.ljust(width)
獲取固定長度,中間對齊,兩邊不夠用空格補齊:str.ljust(width)
獲取固定長度,右對齊,左邊不足用0補齊
print '%s ljust=%s' % (str,str.ljust(20))
print '%s rjust=%s' % (str,str.rjust(20))
print '%s center=%s' % (str,str.center(20))
print '%s zfill=%s' % (str,str.zfill(20))
三、字元串搜索相關
搜索指定字元串,沒有返回-1:str.find('t')
指定起始位置搜索:str.find('t',start)
指定起始及結束位置搜索:str.find('t',start,end)
從右邊開始查找:str.rfind('t')
搜索到多少個指定字元串:str.count('t')
上面所有方法都可用index代替,不同的是使用index查找不到會拋異常,而find返回-1
print '%s find nono=%d' % (str,str.find('nono'))
print '%s find t=%d' % (str,str.find('t'))
print '%s find t from %d=%d' % (str,1,str.find('t',1))
print '%s find t from %d to %d=%d' % (str,1,2,str.find('t',1,2))
#print '%s index nono ' % (str,str.index('nono',1,2))
print '%s rfind t=%d' % (str,str.rfind('t'))
print '%s count t=%d' % (str,str.count('t'))
四、字元串替換相關
替換old為new:str.replace('old','new')
替換指定次數的old為new:str.replace('old','new',maxReplaceTimes)
print '%s replace t to *=%s' % (str,str.replace('t', '*'))
print '%s replace t to *=%s' % (str,str.replace('t', '*',1))
五、字元串去空格及去指定字元
去兩邊空格:str.strip()
去左空格:str.lstrip()
去右空格:str.rstrip()
去兩邊字元串:str.strip('d'),相應的也有lstrip,rstrip
str=' python String function '
print '%s strip=%s' % (str,str.strip())
str='python String function'
print '%s strip=%s' % (str,str.strip('d'))
按指定字元分割字元串為數組:str.split(' ')
六、默認按空格分隔
str='a b c de'
print '%s strip=%s' % (str,str.split())
str='a-b-c-de'
print '%s strip=%s' % (str,str.split('-'))
七、字元串判斷相關
是否以start開頭:str.startswith('start')
是否以end結尾:str.endswith('end')
是否全為字母或數字:str.isalnum()
是否全字母:str.isalpha()
是否全數字:str.isdigit()
是否全小寫:str.islower()
是否全大寫:str.isupper()
str='python String function'
print '%s startwith t=%s' % (str,str.startswith('t'))
print '%s endwith d=%s' % (str,str.endswith('d'))
print '%s isalnum=%s' % (str,str.isalnum())
str='pythonStringfunction'
print '%s isalnum=%s' % (str,str.isalnum())
print '%s isalpha=%s' % (str,str.isalpha())
print '%s isupper=%s' % (str,str.isupper())
print '%s islower=%s' % (str,str.islower())
print '%s isdigit=%s' % (str,str.isdigit())
str='3423'
print '%s isdigit=%s' % (str,str.isdigit())
Ⅶ 如何理解Python中字元
學過c的朋友都知道,字元(『 』)和字元串(「 」)是不一樣的,可是在python中,這些東西的方方面面的門道比較多,在我剛學習的時候也懵比了好一陣子,也就想著總結總結
首先我們需要了解的是在學習python中,可以簡單地理解單引號,雙引號,三引號,他們括起來的東西都是字元串,也就是說在開始學習python的過程中,就當做是沒有字元一說
1,
Ⅷ Python2.7 中文字元編碼,使用Unicode時,選擇什麼編碼格式
關於編碼和亂碼的問題,我簡單講一下。
通常問這類問題的人是混淆了若干個不同的概念,並且他們自己也沒有意識到自己混淆了這些概念的。
終端顯示字元的編碼(windows下終端是cmd,linux下是各種terminal,遠程登錄是putty或者xshell)
shell環境的編碼。比如中文版windows用的是gbk(向下兼容gb2312),大多數linux發行版使用的是utf-8(LANG=zh_CN.UTF-8)。
文本文件的編碼。這個通常取決於你的編輯器,而且有的編輯器支持多種編碼的話,你可以在文本開頭位置指定編輯器使用特定編碼。比如# -*- coding: utf8 -*-,vim看到這行會默認將這個腳本認定為utf-8兼容編碼格式。
應用程序的內部編碼。一個字元串,作為數據只是一個位元組數組,但是作為字元的數組,就有一個解析方式。java和python的內部字元編碼是utf-16,python和java都支持用不同的編碼來對位元組數組進行decode來得到字元數組。
拿題主的問題來解釋一下。
我在ubuntu kylin中文環境下默認terminal中做了同樣的實驗,但是結果和題主恰好相反:
看見沒有?
題主和我都沒有說謊,這是為什麼呢?
因為
unicode("漢字","gb2312")
這坨代碼的含義實際上是:將這里顯示的這坨看上去像「漢字」的東西,用gb2312解碼,轉換為unicode字元串。unicode("漢字","utf-8")類似,只不過是用utf-8解碼,轉成unicode字元串。
(註:這里涉及到兩個概念——unicode字元集和utf-8編碼——很多時候會用混淆,一個字元集表示一堆符號,而一種編碼是用二進製表示這個字元集的一種編碼方式。同樣是unicode字元集,可以有utf-8、utf-16、utf-32等等編碼方式。)
那這里顯示的看上去像「漢字」的,tmd的到底是個什麼東西?
如果是在我的環境下,也就是linux utf-8環境下一個utf-8顯示終端,能顯示成「漢字」的這坨東西,它實際上是以utf-8編碼的「漢」字和「字」字兩個unicode字元。它們的真實字元值就是u'\u6c49\u5b57'(內碼),可以用"漢字".encode("hex")來查看當前終端下(utf-8編碼值)的十六進制碼。
。所以我的命令是,將'e6b189e5ad97'這坨位元組數組,轉換為unicode的字元數組。——結果毫無難度,沒有錯誤,因為它本來就是utf-8編碼,所以能夠正常作為unicode字元解碼。
但是unicode("漢字", "gb2312")就不一樣了,這個命令等同於「將'e6b189e5ad97'這坨東西,用gb2312編碼方式來解碼成字元」,但是實際上由於編碼空間並不兼容,使用gb2312編碼方式無法解碼這么一坨奇葩的數據,所以葛屁了。
在題主的環境下,因為系統終端和默認文件編碼都是GBK,所以這個數實際上是
這個實際上是gbk(兼容gb2312)的字元「漢字」的真實位元組數組。
所以對這坨數據做unicode("漢字","utf8")會失敗——因為不管你怎麼想,雖然看上去是一樣,但是實際上不是同一坨東西啊!
題主現在弄了一個文件,在開始加上了
# -*- coding: utf8 -*-
這下編輯器看到了,知道這文件是utf-8的了。所以編輯器對讀入的一坨坨位元組用utf-8來解碼,對於輸出到磁碟的漢字也用utf-8來編碼。所以你在文件裡面看到的看上去像「漢字」的東西,就和第一種情況下想同了,當然代碼就跑得通。
順便說一下,如果編輯器無視行首這行編碼聲明,或者編輯器無法支持utf-8格式,那麼你弄好的文件在那個編輯器下就會顯示亂碼,多麼簡單的道理啊。
所以,要能夠正常的顯示中文(或者其他什麼亂七八糟奇葩的多位元組文字),以下條件缺一不可:
終端和環境的編碼一致(本機通常是一致的,不一致常常出現在遠程登錄);如果不一致就需要有編輯器或者文本閱讀器做一個兼容兩者的轉換。
編輯器能夠認識文本編碼
系統擁有能顯示這種字元的字體。
這也就是我為什麼一直反對在程序文本中使用除ascii之外的所有編碼字元的原因。環境太復雜了,繞開問題遠比解決問題輕松。
Ⅸ python 字元與數字如何轉換
一、python中字元串轉換成數字
(1)import string
t='555'
ts=string.atoi(tt)
ts即為tt轉換成的數字
轉換為浮點數 string.atof(tt)
(2)直接int
int(tt)即可。
二、數字轉換成字元串
tt=322
tem='%d' %tt
tem即為tt轉換成的字元串
(9)Python27字元擴展閱讀:
Python 是一門有條理的和強大的面向對象的程序設計語言,類似於Perl, Ruby, Scheme, Java.Python的設計目標之一是讓代碼具備高度的可閱讀性。它設計時盡量使用其它語言經常使用的標點符號和英文單字,讓代碼看起來整潔美觀。它不像其他的靜態語言如C、Pascal那樣需要重復書寫聲明語句,也不像它們的語法那樣經常有特殊情況和意外。
Ⅹ python怎麼判斷中文字元編碼
#!/usr/bin/env python
# -*- coding:GBK -*-
"""漢字處理的工具:
判斷unicode是否是漢字,數字,英文,或者其他字元。
全形符號轉半形符號。"""
__author__="internetsweeper <[email protected]>"
__date__="2007-08-04"
def is_chinese(uchar):
"""判斷一個unicode是否是漢字"""
if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
return True
else:
return False
def is_number(uchar):
"""判斷一個unicode是否是數字"""
if uchar >= u'\u0030' and uchar<=u'\u0039':
return True
else:
return False
def is_alphabet(uchar):
"""判斷一個unicode是否是英文字母"""
if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):
return True
else:
return False
def is_other(uchar):
"""判斷是否非漢字,數字和英文字元"""
if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)):
return True
else:
return False
def B2Q(uchar):
"""半形轉全形"""
inside_code=ord(uchar)
if inside_code<0x0020 or inside_code>0x7e: #不是半形字元就返回原來的字元
return uchar
if inside_code==0x0020: #除了空格其他的全形半形的公式為:半形=全形-0xfee0
inside_code=0x3000
else:
inside_code+=0xfee0
return unichr(inside_code)
def Q2B(uchar):
"""全形轉半形"""
inside_code=ord(uchar)
if inside_code==0x3000:
inside_code=0x0020
else:
inside_code-=0xfee0
if inside_code<0x0020 or inside_code>0x7e: #轉完之後不是半形字元返回原來的字元
return uchar
return unichr(inside_code)
def stringQ2B(ustring):
"""把字元串全形轉半形"""
return "".join([Q2B(uchar) for uchar in ustring])
def uniform(ustring):
"""格式化字元串,完成全形轉半形,大寫轉小寫的工作"""
return stringQ2B(ustring).lower()
def string2List(ustring):
"""將ustring按照中文,字母,數字分開"""
retList=[]
utmp=[]
for uchar in ustring:
if is_other(uchar):
if len(utmp)==0:
continue
else:
retList.append("".join(utmp))
utmp=[]
else:
utmp.append(uchar)
if len(utmp)!=0:
retList.append("".join(utmp))
return retList
if __name__=="__main__":
#test Q2B and B2Q
for i in range(0x0020,0x007F):
print Q2B(B2Q(unichr(i))),B2Q(unichr(i))
#test uniform
ustring=u'中國 人名a高頻A'
ustring=uniform(ustring)
ret=string2List(ustring)
print ret
以上轉自http://hi..com/fenghua1893/item/d1a71d5ac47ffdcfd3e10cd1
這個問題是做 MkIV 預處理程序時搞定的,就是把一個混合了中英文混合字串分離為英文與中文的子字串,譬如,將 」我的 English 學的不好「 分離為 「我的"、" English 」 與 "學的不好" 三個子字串。
1. 中英文混合字串的統一編碼表示中英文混合字串處理最省力的辦法就是把它們的編碼都轉成 Unicode,讓一個漢字與一個英文字母的內存位寬都是相等的。這個工作用 Python 來做,比較合適,因為 Python 內碼採用的是 Unicode,並且為了支持 Unicode 字串的操作,Python 做了一個 Unicode 內建模塊,把 string 對象的全部方法重新實現了一遍,另外提供了 Codecs 對象,解決各種編碼類型的字元串解碼與編碼問題。
譬如下面的 Python 代碼,可實現 UTF-8 編碼的中英文混合字串向 Unicode 編碼的轉換:# -*-
coding:utf-8 -*-
a = "我的 English 學的不好"
print type(a),len (a), a
b = unicode (a, "utf-8")
print type(b), len (b), b字元串 a 是 utf-8 編碼,使用 python 的內建對象 unicode 可將其轉換為 Unicode 編碼的字元串 b。上述代碼執行後的輸出結果如下所示,比較字串 a 與字串 b 的長度,顯然 len (b) 的輸出結果是合理的。<type 'str'> 27 我的 English 學的不好
<type 'unicode'> 15 我的 English 學的不好要注意的一個問題是 Unicode 雖然號稱是「統一碼」,不過也是存在著兩種形式,即:
UCS-2:為 16 位碼,具有 2^16 = 65536 個碼位; UCS-4:為 32 位碼,目前的規定是其首位元組的首位為 0,因此具有 2^31 = 2147483648 個碼位,不過現在的只使用了 0x00000000 - 0x0010FFFF 之間的碼位,共 1114112 個。
使用Python sys 模塊提供的一個變數 maxunicode 的值可以判斷當前 Python 所使用的 Unicode 類型是 UCS-2 的還是 UCS-4 的。import sys
print sys.maxunicode若 sys.maxunicode 的值為 1114111,即為 UCS-4;若為 65535,則為 UCS-2。
2. 中英文混合字串的分離一旦中英文字串的編碼獲得統一,那麼對它們進行分裂就是很簡單的事情了。首先要為中文字串與英文字串分別准備一個收集器,使用兩個空的字串對象即可,譬如 zh_gather 與 en_gather;然後要准備一個列表對象,負責按分離次序存儲 zh_gather 與 en_gather 的值。下面這個 Python 函數接受一個中英文混合的 Unicode 字串,並返回存儲中英文子字串的列表。def split_zh_en (zh_en_str):
zh_en_group = []
zh_gather = ""
en_gather = ""
zh_status = False
for c in zh_en_str:
if not zh_status and is_zh (c):
zh_status = True
if en_gather != "":
zh_en_group.append ([mark["en"],en_gather])
en_gather = ""
elif not is_zh (c) and zh_status:
zh_status = False
if zh_gather != "":
zh_en_group.append ([mark["zh"], zh_gather])
if zh_status:
zh_gather += c
else:
en_gather += c
zh_gather = ""
if en_gather != "":
zh_en_group.append ([mark["en"],en_gather])
elif zh_gather != "":
zh_en_group.append ([mark["zh"],zh_gather])
return zh_en_group上述代碼所實現的功能細節是:對中英文混合字串 zh_en_str 的遍歷過程中進行逐字識別,若當前字元為中文,則將其添加到 zh_gather 中;若當前字元為英文,則將其添加到 en_gather 中。zh_status 表示中英文字元的切換狀態,當 zh_status 的值發生突變時,就將所收集的中文子字串或英文子字串添加到 zh_en_group 中去。
判斷字串 zh_en_str 中是否包含中文字元的條件語句中出現了一個 is_zh () 函數,它的實現如下:def is_zh (c):
x = ord (c)
# Punct & Radicals
if x >= 0x2e80 and x <= 0x33ff:
return True
# Fullwidth Latin Characters
elif x >= 0xff00 and x <= 0xffef:
return True
# CJK Unified Ideographs &
# CJK Unified Ideographs Extension A
elif x >= 0x4e00 and x <= 0x9fbb:
return True
# CJK Compatibility Ideographs
elif x >= 0xf900 and x <= 0xfad9:
return True
# CJK Unified Ideographs Extension B
elif x >= 0x20000 and x <= 0x2a6d6:
return True
# CJK Compatibility Supplement
elif x >= 0x2f800 and x <= 0x2fa1d:
return True
else:
return False這段代碼來自 jjgod 寫的 XeTeX 預處理程序。
對於分離出來的中文子字串與英文子字串,為了使用方便,在將它們存入 zh_en_group 列表時,我對它們分別做了標記,即 mark["zh"] 與 mark["en"]。mark 是一個 dict 對象,其定義如下:mark = {"en":1, "zh":2}如果要對 zh_en_group 中的英文字串或中文字串進行處理時,標記的意義在於快速判定字串是中文的,還是英文的,譬如:for str in zh_en_group:
if str[0] = mark["en"]:
do somthing
else:
do somthing