PHP中的substr函数:
string substr ( string $string , int $start [, int $length ])
返回string中从start位置开始长度为length的字符串
substr函数在截取字符时是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码。
查了一下,解决方案归结起来可分两类:
1、改用mb_substr()函数
string mb_substr ( string $str , int $start [, int $length [,string $encoding ]] )
类似substr()函数,只是计数按字符数来计,保证字符安全
使用mb_substr()函数可保证不会出现乱码,但缺点是长度统计变成了字符数统计,而不是按字节数统计。用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。
2、自建函数增强substr功能
这里提供一个函数可较好地解决substr遇到中文字符的问题。中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近;舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。
查看源代码打印帮助01 | function getstr( $string , $length , $encoding = 'utf-8' ){ |
02 |
$string = trim( $string ); |
04 |
if ( $length && strlen ( $string )> $length ){ |
07 |
if ( strtolower ( $encoding )== 'utf-8' ){ |
12 |
while ( $n < strlen ( $string )){ |
14 |
if ( $t == 9 || $t == 10 || (32 <= $t && $t <= 126)) { |
18 |
} elseif (194<= $t && $t <= 223) { |
22 |
} elseif (224<= $t && $t < 239) { |
26 |
} elseif (240<= $t && $t <= 247) { |
30 |
} elseif (248<= $t && $t <= 251) { |
34 |
} elseif ( $t == 252 || $t == 253) { |
48 |
$wordscut = substr ( $string , 0, $n ); |
50 |
for ( $i = 0; $i < $length - 1; $i ++) { |
51 |
if (ord( $string [ $i ])> 127) { |
52 |
$wordscut .= $string [ $i ]. $string [ $i +1]; |
55 |
$wordscut .= $string [ $i ]; |
65 | echo getstr( "0一二三四五六七" ,1). '<br/>' ; // 0 |
66 | echo getstr( "0一二三四五六七" ,2). '<br/>' ; // 0 |
67 | echo getstr( "0一二三四五六七" ,3). '<br/>' ; // 0一 |
68 | echo getstr( "0一二三四五六七" ,4). '<br/>' ; // 0一 |
69 | echo getstr( "0一二三四五六七" ,5). '<br/>' ; // 0一二 |
70 | echo getstr( "0一a二b三四五六七" ,1). '<br/>' ; //0 |
71 | echo getstr( "0一a二b三四五六七" ,2). '<br/>' ; //0 |
72 | echo getstr( "0一a二b三四五六七" ,3). '<br/>' ; //0一 |
73 | echo getstr( "0一a二b三四五六七" ,4). '<br/>' ; //0一a |
74 | echo getstr( "0一a二b三四五六七" ,5). '<br/>' ; //0一a |
此函数由UCHome 1.5中的getstr()函数修改而来。
爱华网本文地址 » http://www.aihuau.com/a/25101017/328113.html