打开
CSV
文件乱码的解决方法
【故障现象描述】
从网页上导出数据文件存储为
CSV
格式的文件,使用记事本打开文字显示没有问题,使用
EXCEL
打开出现乱码的情况。
【故障原因分析】
此种情况一般是导出的文件编码的问题。在简体中文环境下,
EXCEL
打开的
CSV
文件默认是
ANSI
编码,如果
CSV
文件的编码方式为
utf-8
、
Unicode
等编码可能就会出现文件乱码的情况。
【解决方法】
(
1
)设置
office
语言环境(以
office2003
为例)
:
开始菜单
-Microsoft
office-
Microsoft
office
工具
![EXCEL打开CSV文件乱码的解决方法 excel输入身份证乱码](http://img.aihuau.com/images/31101031/31082642t01699378cd98d27b23.png)
-
Microsoft
office
2003
语言设置,将
Microsoft
office
应用程序默认方式的语言设为“中文(简体)
”
,这也是
office2003
的默认设置。
古伊利实业集团股份有限公司济南分公司
(
2
)使用记事本打开
CSV
文件,文件
-
另存为,编码方式选择
ANSI
:
(
3
)保存完毕后,用
EXCEL
打开这个文件就不会出现乱码的情况:
内蒙古伊利实业集团股份有限公司济南分公司
【编码方式讲解】
(
1
)
ANSI
编码
不同的国家和地区制定了不同的标准,由此产生了
GB2312,
BIG5,
JIS
等各自的编码标准。这
些使用
2
个字节来代表一个字符的各种汉字延伸编码方式,称为
ANSI
编码。在简体中文系统下,
ANSI
编码代表
GB2312
编码,在日文操作系统下,
ANSI
编码代表
JIS
编码。
不同
ANSI
编码
之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段
ANSI
编码的
文本中。
当然对于
ANSI
编码而言,
0x00~0x7F
之间的字符,依旧是
1
个字节代表
1
个字符。这一
点是
ASNI
编码与
Unicode
编码之间最大也最明显的区别。例如上面演示的文件中英文字母和数字
并没有出现乱码的情况。
(
2
)
Unicode
编码
Unicode
(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每
个字符设定了统一并且唯一的二进制编码,
以满足跨语言、
跨平台进行文本转换、
处理的要求。
1990
年开始研发,
1994
年正式公布。随着计算机工作能力的增强,
Unicode
也在面世以来的十多年里得
到普及。
Unicode
是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。
Unicode
用数字
0-0x10FFFF
来映射这些字符,最多可以容纳
1114112
个字符,或者说有
1114112
个码位。码位就是
可以分配给字符的数字。
UTF-8
、
UTF-16
、
UTF-32
都是将数字转换到程序数据的编码方案。
(
3
)
UTF-8
编码
UTF-8
是
UNICODE
的一种变长字符编码又称万国码,由
KenThompson
于
1992
年创建。现在
已经标准化为
RFC3629
。
UTF-8
用
1
到
6
个字节编码
UNICODE
字符。用在网页上可以同一页面显
示中文简体繁体及其它语言
(
如日文,韩文
)
。
参考资料:
ANSI
编码:
http://baike.baidu.com/view/1273097.htm
Unicode
编码:
http://baike.baidu.com/view/40801.htm
Utf-8
编码:
http://baike.baidu.com/view/25412.htm