扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
linux下经常遇到的编码问题如果你需要在Linux中操作windows下的文件,那么你可凯尘能会经常遇到文件编码转换的问题。Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8。
成都创新互联公司是一家专业提供宁夏企业网站建设,专注与网站建设、成都做网站、H5开发、小程序制作等业务。10年已为宁夏众多企业、政府机构等服务。创新互联专业的建站公司优惠进行中。
查看编码的方法
方法一:file filename
方法二:在Vim中可以直接查看文件编码
:set fileencoding
如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题,那么你可以在
~/.vimrc 文件中添加以下内容:
set encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936
这样,就可以让vim自动识别文件编码(可以自动识别UTF-8或者GBK编码的文件),其实就是依照fileencodings提供的编码列表尝试,如果没有找到合适的编码,就用latin-1(ASCII)编码打开
文件编码转换
多方法:
iconv 提供标准的程序和API来进行编码转换;
convert_encoding.py 基于Python的文本文件转换工具;
decodeh.py 提供算法和模块来谈测字符的编码;
linux下文件编码转换:
方法一:
在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式
:set fileencoding=utf-8
或者
11)设置文件集合,即要对哪些文件进行操作,可以使用通配符,比如我通常是对 C/C++ 源程序进行编码转换
:args *.h *.cpp
2)给出要在每个文件上执行的命令,这里是转换编码:
:argdo set fenc=utf-8 | update
方法二:
iconv 转换
5.案例:
假如说我们将windows下的一个UTF-8的文件传到linux环境下,linux环境下的系统编码是GB18030,我们cat的时候就会出现乱码,这个时候就应该想到转码了,下面我们来进行试验:
我们将windows下一个名为UTF-8.sh的文件传到linux系统中,其中UTF-8.sh的内容如下:
我是中文编码UTF-8模式~
而linux系统的系统语言设置为:
[root@sor-sys zy]# cat /etc/sysconfig/i18n
LANG=zh_CN.GB18030
SYSFONT="latarcyrheb-sun16"
这个时候查看一下文件的内容及编码:
[root@sor-sys zy]# file UTF-8.sh
UTF-8.sh: UTF-8 Unicode text, with no line terminators
[root@sor-sys zy]# cat UTF-8.sh
锘挎垜鏄?腑鏂囩紪镰乁TF-8妯″纺~[root@sor-sys zy]#
[root@sor-sys zy]#
这个时候我们就需要转换编码了,记得使用iconv
[root@sor-sys zy]# iconv -f UTF-8 -t GB18030 UTF-8.sh -o GB18030.sh
[root@sor-sys zy]# cat GB18030.sh
??我是中文编码UTF-8模式~[root@sor-sys zy]#
[root@sor-sys zy]# file GB18030.sh
GB18030.sh: Non-ISO extended-ASCII text, with no line terminators
[root@sor-sys zy]#
convmv就是更改文件名编码方式的一个工具。
比如
sudo convmv -f gbk -t utf-8 -r –notest /home
就是将盯哪禅/home目录下原来文件名是gbk编码方式的全部改为utf-8格式的。这里 -f 后面为原来的编码方式,-t 后面是要更改为的编码方式, -r 表示这个目录下面的所缓孙有文件, –notest 表示马上执行,而不是仅仅测试而已。另外这命令好像要root才能执行,因此要加上 sudo。
windows下的mysql配置文件是my.ini,一般在c:\windows\my.ini或者c:\winnt\my.ini可以直接在碧宏蚂这个文件里面加上 default-character-set=gbk #或gb2312,big5,utf8 然悔埋后重新启动mysql service mysql restart 或 /etc/init.d/mysql restart 或用其他方法重新启动,就生效了。绝茄
当前,绝大多数linux的默认编码是utf-8,GBK在岁岩薯这上面显示是乱码。解决方法有两个:
1) 将所有页面编码转为utf-8 (推荐)
2)在Linux下将默认编码设为gbk,命令行下运枣禅行如下命乎者令:
export LANG=zh_CN.GBK
我不清楚你的环境是什么 (发行版,字符模式命令行,还是图形模式终端)
以我在字符模式命令行下的测试, 如果不加载zhcon或者fbterm之类的程序
cat more less等都无法正常液脊显示gb2312字符, 不管LANG的设置是什么
而且这些程序不存在什么默认输出 都是调用gettext库来实现的
怪不得 这个跟远程服御埋漏务器上的locale无关, 主要看你的secureCRT里面的字符编码设置镇烂 这个具体我也不太清楚了,因为很少用secureCRT , 但是我用putty测试了一下,文件是GB2312编码,远程是LANG=C ,putty设置为use font encoding , cat less more都正常显示汉字
换GBK测试也通过 ...不知道你的怎么回事
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流