关于utf8采集问题的详尽报告及分析
分类信息 - BUG报告
| 程序版本 |
SupeSite6.0.x |
| 程序编码 |
UTF8 |
| 问题地址 |
- |
| 操作环境 |
- |
自己遇到,搜索了一下,发现很多人也遇到,官方是否能尝试解决一下这个问题?虽然目前utf8的用户还不多,但我想这对于康盛的国际化,标准化进程来说还是很重要的。
问题描述:我的站为utf8,采集目标站gb2312.
1.常规设置采集机器人。
2.填入目标站编码gb2312开始一步步测试采集。
3.采集文章列表,一切正常,甚至可以在正则表达式中使用中文。
4.采集测试截止到标题采集,一切正常,没有乱码。
5.采集文章内容中文全部为乱码显示,正则表达式中使用中文也不能识别。
思考推理:1.标题采集一切正常,说明采集器的编码转换确实起了作用
2.内容异常,说明编码转换没有对内容部分起作用
大胆推测:康盛编程人员粗心,在程序中将编码转化的范围仅限定在了标题区。
所以: 这应该是一个很容易修正的错误。
希望能尽快有补丁解决此问题。
最后感谢康盛给大家提供了这么复杂强大的网站程序。
搜索更多相关主题的帖子:
采集 utf