php截取中文
㈠ php分割中英文字元串的幾種方
對一段文字按照字數進行分割,因為文字中可能是中英文混合的,而php函數strlen只能計算出字串的位元組數,於是自己實現了幾個函數,分享下。
例1,計算字元總長度。
01<?php
02functionccStrLen($str)#計算中英文混合<ahref="/"target="_blank"class="infotextkey">字元串</a>的長度
03{
04$ccLen=0;
05$ascLen=strlen($str);
06$ind=0;
07$hasCC=ereg(」[xA1-xFE]「,$str);#判斷是否有漢字
08$hasAsc=ereg(」[x01-xA0]「,$str);#判斷是否有ASCII字元
09if($hasCC&&!$hasAsc)#只有漢字的情況
10returnstrlen($str)/2;
11if(!$hasCC&&$hasAsc)#只有Ascii字元的情況
12returnstrlen($str);
13for($ind=0;$ind<$ascLen;$ind++)
14{
15if(ord(substr($str,$ind,1))>0xa0)
16{
17$ccLen++;
18$ind++;
19}
20else
21{
22$ccLen++;
23}
24}
25return$ccLen;
26}
27?>
例2,從左側截取字元串。
01<?php
02functionccStrLeft($str,$len)#從左邊截取中英文混合字元串
03{
04$ascLen=strlen($str);if($ascLen<=$len)return$str;
05$hasCC=ereg(」[xA1-xFE]「,$str);#同上
06$hasAsc=ereg(」[x01-xA0]「,$str);
07if(!$hasCC)returnsubstr($str,0,$len);
08if(!$hasAsc)
09if($len&0×01)#如果長度是奇數
10returnsubstr($str,0,$len+$len-2);
11else
12returnsubstr($str,0,$len+$len);
13$cind=0;$flag=0;$reallen=0;//實際取位元組長
14while($cind<$ascLen&&$reallen<$len)
15{//bywww.jbxue.com
16if(ord(substr($str,$cind,1))<0xA1){//如果該位元組為英文則加一
17$cind++;
18}else{//否則加2個位元組
19$cind+=2;
20}
21$reallen++;
22}
23returnsubstr($str,0,$cind);
24}
25?>
例3,把給定文字,按切割數量存入數組(適合短篇文字,長文章可沒分隔一部分就直接處理一次)
viewsourceprint?
01<?php
02functionSplitContent($content,$smslen){
03$str_tmp=$content;
04$arr_cont=array();
05$len_tmp=0;
06$i=0;//分割絕對位置
07while(strlen($str_tmp)>0){
08$str_tmp=ccStrLeft($str_tmp,$smslen);
09array_push($arr_cont,$str_tmp);
10$i+=strlen($str_tmp);
11$str_tmp=substr($content,$i,strlen($content));
12}
13return$arr_cont;
14}//bywww.jbxue.com
15?>
測試:
1<?php
2$str=』a計算中英文混合1234字元串的長度abcd』;
3echo$str.』的長度為:』.ccStrLen($str);
4echo『<br>』;
5$smslen=3;//截取長度
6print_r(SplitContent($str,$smslen));
7?>
㈡ php如何獲取中文字元長度,一個中文字元算一個
在PHP中專門的mb_substr和mb_strlen函數,可以對中文進行截取和計算長度,但是,由於這些函數並非PHP的核心函數,所以,它們常常有可能沒有開啟。要在php.ini中開啟即可。獲取長度實例:1 ,utf-8環境下使用
header('Content-type:text/html;charset=utf-8');
/**
*可以統計中文字元串長度的函數
*@param$str要計算長度的字元串
*@param$type計算長度類型,0(默認)表示一個中文算一個字元,1表示一個中文算兩個字元
*
*/
functionabslength($str)
{
if(empty($str)){
return0;
}
if(function_exists('mb_strlen')){
returnmb_strlen($str,'utf-8');
}
else{
preg_match_all("/./u",$str,$ar);
returncount($ar[0]);
}
}
$str='我們都是中國人啊,ye!';
$len=abslength($str);
var_mp($len);//return12
$len=abslength($str,'1');
echo'<br/>'.$len;//return22
/*
utf-8編碼下截取中文字元串,參數可以參照substr函數
@param$str要進行截取的字元串
@param$start要進行截取的開始位置,負數為反向截取
@param$end要進行截取的長度
*/
functionutf8_substr($str,$start=0){
if(empty($str)){
returnfalse;
}
if(function_exists('mb_substr')){
if(func_num_args()>=3){
$end=func_get_arg(2);
returnmb_substr($str,$start,$end,'utf-8');
}
else{
mb_internal_encoding("UTF-8");
returnmb_substr($str,$start);
}
}
else{
$null="";
preg_match_all("/./u",$str,$ar);
if(func_num_args()>=3){
$end=func_get_arg(2);
returnjoin($null,array_slice($ar[0],$start,$end));
}
else{
returnjoin($null,array_slice($ar[0],$start));
}
}
}
$str2='wo要截取zhongwen';
echo'<br/>';
echoutf8_substr($str2,0,-4);//returnwo要截取zhon
2,支持gb2312,gbk,utf-8,big5 中文截取方法
/*
* 中文截取,支持gb2312,gbk,utf-8,big5
*
* @param string $str 要截取的字串
* @param int $start 截取起始位置
* @param int $length 截取長度
* @param string $charset utf-8|gb2312|gbk|big5 編碼
* @param $suffix 是否加尾綴
*/
public function csubstr($str, $start=0, $length, $charset="utf-8", $suffix=true)
{
if(function_exists("mb_substr"))
{
if(mb_strlen($str, $charset) <= $length) return $str;
$slice = mb_substr($str, $start, $length, $charset);
}
else
{
$re['utf-8'] = "/[x01-x7f]|[xc2-xdf][x80-xbf]|[xe0-xef][x80-xbf]{2}|[xf0-xff][x80-xbf]{3}/";
$re['gb2312'] = "/[x01-x7f]|[xb0-xf7][xa0-xfe]/";
$re['gbk'] = "/[x01-x7f]|[x81-xfe][x40-xfe]/";
$re['big5'] = "/[x01-x7f]|[x81-xfe]([x40-x7e]|xa1-xfe])/";
preg_match_all($re[$charset], $str, $match);
if(count($match[0]) <= $length) return $str;
$slice = join("",array_slice($match[0], $start, $length));
}
if($suffix) return $slice."…";
return $slice;
}
㈢ php截取一段字元串中第一個出現的數字或字母或冒號前面的中文漢字的語句怎麼寫
/**
*截取函數,中文一個,英文兩個算一個
*/
functionmbsubstr($str,$start=0,$length,$suffix=true,$charset="utf-8"){
$re['utf-8']="/[x01-x7f]|[xc2-xdf][x80-xbf]|[xe0-xef][x80-xbf]{2}|[xf0-xff][x80-xbf]{3}/";
$re['gb2312']="/[x01-x7f]|[xb0-xf7][xa0-xfe]/";
$re['gbk']="/[x01-x7f]|[x81-xfe][x40-xfe]/";
$re['big5']="/[x01-x7f]|[x81-xfe]([x40-x7e]|xa1-xfe])/";
preg_match_all($re[$charset],$str,$match);
$strArr=$match[0];
$str=array_values(tempStrArr($strArr));
$strArrCount=count($str);
if($strArrCount==$length+1){
$length+=1;
}
$slice=implode('',array_slice($str,$start,$length));
if($strArrCount>$length){
return$suffix?$slice.'...':$slice;
}else{
return$slice;
}
}
functiontempStrArr($strArr){
$e=range('a','z');
$i=count($strArr);
foreach($strArras$k=>$v){
if(in_array(strtolower($v),$e)){
if(in_array(strtolower($strArr[$k+1]),$e)){
$strArr[$k]=$v.$strArr[$k+1];
unset($strArr[$k+1]);
陸腔break;
寬昌}
慎悉扒}elseif($v>0&&$v<10&&$strArr[$k+1]>0&&$strArr[$k+1]<10){
$strArr[$k]=$v.$strArr[$k+1];
unset($strArr[$k+1]);
break;
}
$i--;
}
if($i>0){
$strArr=tempStrArr($strArr);
}
return$strArr;
}
截取字元串, 中英文都可以
㈣ php 截取兩個中文字中間的字元串 怎麼實現
<?php
header('Content-Type:text/html;charset=utf-8');
$str="網路知道提了截取中文字元串的問題";
$t1=mb_strpos($str,'提');
$t2=mb_strpos($str,'串');
echo$s=mb_substr($str,$t1,$t2-$t1);
㈤ php字元串截取函數用法分析
本文實例分析了php字元串截取函數用法。分享給大家供大家參考。具體分析如下:
php自帶的截取字元串的函數只能處理英文,數字的不能截取中文混排的,後面一個示例比較好用,第一個主要是給初學者學學用的,具體代碼如下:
復制代碼
代碼如下:<?php
//構造字元串
$str
=
"ABCDEFGHIJKLMNOPQRSTUVWXYZ";
echo
"原字元串:<b>".$str."</b><br>";
//按各種方式進行截取
$str1
=
substr($str,5);
echo
"從第5個字元開始取褲枝鍵至最後:".$str1."<br>";
$str2
=
substr($str,9,4);
echo
"從第9個字元開始取4個字元:".$str2."<br>";
$str3
=
substr($str,-5);
echo
"取倒胡巧數5個字元:".$str3."<br>";
$str4
=
substr($str,-8,4);
echo
"從倒數第8個字元開始向後取4個字元:".$str4."<br>";
$str5
=
substr($str,-8,-2);
echo
"從倒數第8個字元開始取到倒數第2個字元為止:".$str5."<br>";
?>
支持中英文混合截取,代碼如下:
復制代碼
代碼如下:<?php
/*
------------------------------------------------------
參數:
$str_cut
需要截斷的字元串
$length
允許字元串顯示的最大長度
程序功能:截取全形和半形(漢字和英文)混合的字搭叢符串以避免亂碼
------------------------------------------------------
*/
function
substr_cut($str_cut,$length)
{
if
(strlen($str_cut)
>
$length)
{
for($i=0;
$i
<
$length;
$i++)
if
(ord($str_cut[$i])
>
128)
$i++;
$str_cut
=
substr($str_cut,0,$i)."..";
}
return
$str_cut;
}
?>
希望本文所述對大家的php程序設計有所幫助。
㈥ php中有幾個截取字元創的函數
函數名 作用 php版本
chr() 從指定的 ASCII 值返回字元。 3
chunk_split() 把字元串分割為一連串更小的部分。 3
count_chars() 返回字元串所用字元的信息。 4
explode() 把字元串打散為數組。 3
implode() 把數組元素組合為一個字元串。 3
join() implode() 的別名。 3
levenshtein() 返回兩個字元串之間的 Levenshtein 距離。 3
localeconv() 返回包含本地數字及貨幣信息格式的數組。 4
ltrim() 從字元串左側刪除空格或其他預定義字元。 3
md5() 計算字元串的 MD5 散列。 3
md5_file() 計算文件的 MD5 散列。 4
metaphone() 計算字元串的 metaphone 鍵。 4
money_format() 把字元串格式化為貨幣字元串。 4
nl_langinfo() 返回指定的本地信息。 4
nl2br() 在字元串中的每個新行之前插入 HTML 換行符。 3
number_format() 通過千位分組來格式化數字。 3
parse_str() 把查詢字元串解析到變數中。 3
print() 輸出一個或多個字元串。 3
printf() 輸出格式化的字元串。 3
similar_text() 計算兩個字元串的匹配字元的數目。 3
sprintf() 把格式化的字元串寫寫入一個變數中。 3
str_ireplace() 替換字元串中的一些字元。(對大小寫不敏感) 5
str_replace() 替換字元串中的一些字元。(對大小寫敏感) 3
str_split() 把字元串分割到數組中。 5
strcasecmp() 比較兩個字元串。(對大小寫不敏感) 3
strchr() 搜索字元串在另一字元串中的第一次出現。strstr() 的別名 3
strcspn() 返回在找到任何指定的字元之前,在字元串查找的字元數。 3
stripos() 返回字元串在另一字元串中第一次出現的位置(大小寫不敏感) 5
stristr() 查找字元串在另一字元串中第一次出現的位置(大小寫不敏感) 3
strlen() 返回字元串的長度。 3
strpbrk() 在字元串中搜索指定字元中的任意一個。 5
strpos() 返回字元串在另一字元串中首次出現的位置(對大小寫敏感) 3
strrchr() 查找字元串在另一個字元串中最後一次出現的位置。 3
strripos() 查找字元串在另一字元串中最後出現的位置(對大小寫不敏感) 5
strrpos() 查找字元串在另一字元串中最後出現的位置(對大小寫敏感) 3
strspn() 返回在字元串中包含的特定字元的數目。 3
strstr() 搜索字元串在另一字元串中的首次出現(對大小寫敏感) 3
strtok() 把字元串分割為更小的字元串。 3
strtr() 轉換字元串中特定的字元。 3
substr() 返回字元串的一部分。 3
substr_compare() 從指定的開始長度比較兩個字元串。 5
substr_count() 計運算元串在字元串中出現的次數。 4
substr_replace() 把字元串的一部分替換為另一個字元串。 4
ucwords() 把字元串中每個單詞的首字元轉換為大寫。 3
wordwrap() 按照指定長度對字元串進行折行處理。 4
㈦ php中explode截取中文又亂碼,求解~~
如下面例子,在GBK編碼下會產生亂碼。
原因,在php6之前,字元是以位元組形式存在的,字元"碪"的gbk位元組碼是"B4 55",而字元"U"的位元組碼是"55",在explode函數中第一個參數的字元串會轉成相應的位元組,然後和第二個參數凱答的位元組碼比對,進行分割。
在下面例子中就是 55 分割 B4 55 B4 55 55 B4 55 B4 55 ,所以"碪"字被分割了。
這種情況很多,所以在敗孫閉php中使用explode時應多注意!
<?php
$result = explode("U", "碪碪U碪碪");
print_r($result);
?>
我也碰到這問題了,正在研究字母解決察裂
㈧ 如何利用PHP來截取一段中文字元串而不出現亂碼
/*
功能:截取全形和半形混合的字元串以避免租仿伏亂碼
參數大伏:
$str_cut 需要截弊攜斷的字元串
$length 允許字元串顯示的最大長度
*/
function substr_cut($str_cut,$length = 30){
if (strlen($str_cut) >; $length){
for($i=0; $i < $length; $i++)
if (ord($str_cut[$i]) >; 128) $i++;
$str_cut = substr($str_cut,0,$i) . "...";
}
return $str_cut;
}
㈨ 如何去掉PHP字元串中的中文字元
我給你個PHP截取中文字元串的方法總結,有原理,有源碼:程序一:PHP截取中文字元串方法由於網站首頁以及vTigerCRM里經常在截取中文字元串時出現亂碼(使用substr),今天找到一個比較好的截取中文字元串方法,在此與大家共享。function msubstr($str, $start, $len) {
$tmpstr = "";
$strlen = $start + $len;
for($i = 0; $i < $strlen; $i++) {
if(ord(substr($str, $i, 1)) > 0xa0) {
$tmpstr .= substr($str, $i, 2);
$i++;
} else
$tmpstr .= substr($str, $i, 1);
}
return $tmpstr;
}程序二:PHP截取UTF-8字元串,解決半字元問題/******************************************************************
* PHP截取UTF-8字元串,解決半字元問題。
* 英文、數字(半形)為1位元組(8位),中文(全形)為3位元組
* @return 取出的字元串, 當$len小於等於0時, 會返回整個字元串
* @param $str 源字元串
* $len 左邊的子串的長度
****************************************************************/
function utf_substr($str,$len)
{
for($i=0;$i<$len;$i++)
{
$temp_str=substr($str,0,1);
if(ord($temp_str) > 127)
{
$i++;
if($i<$len)
{
$new_str[]=substr($str,0,3);
$str=substr($str,3);
}
}
else
{
$new_str[]=substr($str,0,1);
$str=substr($str,1);
}
}
return join($new_str);
}
?>php utf-8 字元串截取<?
function cutstr($string, $length) {
preg_match_all("/[x01-x7f]|[xc2-xdf][x80-xbf]|xe0[xa0-xbf][x80-xbf]|[xe1-xef][x80-xbf][x80-xbf]|xf0[x90-xbf][x80-xbf][x80-xbf]|[xf1-xf7][x80-xbf][x80-xbf][x80-xbf]/", $string, $info);
for($i=0; $i<count($info[0]); $i++) {
$wordscut .= $info[0][$i];
$j = ord($info[0][$i]) > 127 ? $j + 2 : $j + 1;
if ($j > $length - 3) {
return $wordscut." ...";
}
}
return join('', $info[0]);
}
$string="242432反對感是456犯得上廣泛大使館地方7890";
for($i=0;$i<strlen($string);$i++)
{
echo cutstr($string,$i)."<br>";
}
?>
截取utf-8字元串函數為了支持多語言,資料庫里的字元串可能保存為UTF-8編碼,在網站開發中可能需要用php截取字元串的一部分。為了避免出現亂碼現象,編寫如下的UTF-8字元串截取函數關於utf-8的原理請看 UTF-8 FAQUTF-8編碼的字元可能由1~3個位元組組成, 具體數目可以由第一個位元組判斷出來。(理論上可能更長,但這里假設不超過3個位元組)
第一個位元組大於224的,它與它之後的2個位元組一起組成一個UTF-8字元
第一個位元組大於192小於224的,它與它之後的1個位元組組成一個UTF-8字元
否則第一個位元組本身就是一個英文字元(包括數字和一小部分標點符號)。以前為某網站設計的代碼(也是現在用在首頁的長度截取的函數)
Code:
<?php // Cut_Str;
//$sourcestr 是要處理的字元串
//$cutlength 為截取的長度(即字數)
function cut_str($sourcestr,$cutlength)
{
$returnstr='';
$i=0;
$n=0;
$str_length=strlen($sourcestr);//字元串的位元組數
while (($n<$cutlength) and ($i<=$str_length))
{
$temp_str=substr($sourcestr,$i,1);
$ascnum=Ord($temp_str);//得到字元串中第$i位字元的ascii碼
if ($ascnum>=224) //如果ASCII位高與224,
{
$returnstr=$returnstr.substr($sourcestr,$i,3); //根據UTF-8編碼規范,將3個連續的字元計為單個字元
$i=$i+3; //實際Byte計為3
$n++; //字串長度計1
}
elseif ($ascnum>=192) //如果ASCII位高與192,
{
$returnstr=$returnstr.substr($sourcestr,$i,2); //根據UTF-8編碼規范,將2個連續的字元計為單個字元
$i=$i+2; //實際Byte計為2
$n++; //字串長度計1
}
elseif ($ascnum>=65 && $ascnum<=90) //如果是大寫字母,
{
$returnstr=$returnstr.substr($sourcestr,$i,1);
$i=$i+1; //實際的Byte數仍計1個
$n++; //但考慮整體美觀,大寫字母計成一個高位字元
}
else //其他情況下,包括小寫字母和半形標點符號,
{
$returnstr=$returnstr.substr($sourcestr,$i,1);
$i=$i+1; //實際的Byte數計1個
$n=$n+0.5; //小寫字母和半形標點等與半個高位字元寬...
}
}
if ($str_length>$cutlength){
$returnstr = $returnstr . "...";//超過長度時在尾處加上省略號
}
return $returnstr;}截取utf-8字元串函數function FSubstr($title,$start,$len="",$magic=true)
{
/**
* powered by Smartpig
* mailto:[email protected]
*/if($len == "") $len=strlen($title);
if($start != 0)
{
$startv = ord(substr($title,$start,1));
if($startv >= 128)
{
if($startv < 192)
{
for($i=$start-1;$i>0;$i--)
{
$tempv = ord(substr($title,$i,1));
if($tempv >= 192) break;
}
$start = $i;
}
}
}
if(strlen($title)<=$len) return substr($title,$start,$len);
$alen = 0;
$blen = 0;
$realnum = 0;
for($i=$start;$i<strlen($title);$i++)
{
$ctype = 0;
$cstep = 0;
$cur = substr($title,$i,1);
if($cur == "&")
{
if(substr($title,$i,4) == "<")
{
$cstep = 4;
$length += 4;
$i += 3;
$realnum ++;
if($magic)
{
$alen ++;
}
}
else if(substr($title,$i,4) == ">")
{
$cstep = 4;
$length += 4;
$i += 3;
$realnum ++;
if($magic)
{
$alen ++;
}
}
else if(substr($title,$i,5) == "&")
{
$cstep = 5;
$length += 5;
$i += 4;
$realnum ++;
if($magic)
{
$alen ++;
}
}
else if(substr($title,$i,6) == """)
{
$cstep = 6;
$length += 6;
$i += 5;
$realnum ++;
if($magic)
{
$alen ++;
}
}
else if(preg_match("/(d+);?/i",substr($title,$i,8),$match))
{
$cstep = strlen($match[0]);
$length += strlen($match[0]);
$i += strlen($match[0])-1;
$realnum ++;
if($magic)
{
$blen ++;
$ctype = 1;
}
}
}else{
if(ord($cur)>=252)
{
$cstep = 6;
$length += 6;
$i += 5;
$realnum ++;
if($magic)
{
$blen ++;
$ctype = 1;
}
}elseif(ord($cur)>=248){
$cstep = 5;
$length += 5;
$i += 4;
$realnum ++;
if($magic)
{
$ctype = 1;
$blen ++;
}
}elseif(ord($cur)>=240){
$cstep = 4;
$length += 4;
$i += 3;
$realnum ++;
if($magic)
{
$blen ++;
$ctype = 1;
}
}elseif(ord($cur)>=224){
$cstep = 3;
$length += 3;
$i += 2;
$realnum ++;
if($magic)
{
$ctype = 1;
$blen ++;
}
}elseif(ord($cur)>=192){
$cstep = 2;
$length += 2;
$i += 1;
$realnum ++;
if($magic)
{
$blen ++;
$ctype = 1;
}
}elseif(ord($cur)>=128){
$length += 1;
}else{
$cstep = 1;
$length +=1;
$realnum ++;
if($magic)
{
if(ord($cur) >= 65 && ord($cur) <= 90)
{
$blen++;
}else{
$alen++;
}
}
}
}
if($magic)
{
if(($blen*2+$alen) == ($len*2)) break;
if(($blen*2+$alen) == ($len*2+1))
{
if($ctype == 1)
{
$length -= $cstep;
break;
}else{
break;
}
}
}else{
if($realnum == $len) break;
}
}
unset($cur);
unset($alen);
unset($blen);
unset($realnum);
unset($ctype);
unset($cstep);
return substr($title,$start,$length);
}
㈩ [php]如何在PHP中截取中文字串無亂碼
一年前寫的一個函數。用法與substr一樣,支持中文。您也可以加以改進。
//截取字元串含數,對系統函數的改進,不會將中文變亂。
function mysubstr ($str,$start,$len=0,$cutchar="…") {
$str=str_replace("",' ',$str);
$str=str_replace("“",'「',$str);
$str=str_replace("”",'」',$str);
$str=str_replace("—",'—',$str);
$str=str_replace(""",'"',$str);
$str=str_replace(''',"'",$str);
$str=str_replace("<",'<',$str);
$str=str_replace(">",'>',$str);
$str=str_replace("&",'&',$str);
$str=preg_replace("/[\s]+/"," ",$str);
$tolen=strlen($str);
if(!($start==0 && $len>=$tolen)){
//為方便操作,先將起始值和長度值轉換為正數
if($start<0)$start=$tolen+$start;if($start<0)$start=0;if($start>$tolen)return "";
if($len<=0)$len=($tolen+$len)-$start;if($len<1)return "";
if($len>$tolen)$len=$tolen;
for($i=0;$i<$start;$i++){
if(ord(substr($str,$i,1))>127){$i++;}
}
$start=$i; //起始位置計算完成
for($k=0;$k<$len;$k++,$i++){
if(ord(substr($str,$i,1))>127){$i++;$k++;}
}
$len=$k; //長度計算完成
$str=substr($str,$start,$len);
if($start>0){$str=$cutchar.$str;}
if($start+$len<$tolen){$str.=$cutchar;}
}
$str=str_replace("&",'&',$str);
$str=str_replace('"','"',$str);
$str=str_replace("'",''',$str);
$str=str_replace("<",'<',$str);
$str=str_replace(">",'>',$str);
return $str;
}