插件作者的标准出来了!Manyou诚邀开发者加盟!立即免费下载 Discuz!6.1.0正式版
Discuz! 6.1.0 使用说明
Discuz!NT升级至v2.1
开放源码下载
UCenter Home 1.2 正式版发布
官方站 | 帮助文档
基于ECShop的免费网店托管-卖否
PHP就业培训直通车 | LAMP培训大连
Discuz!收费服务内容及价格
论坛免费升级 手握手
Discuz!/ECShop 专用官方虚拟主机
【乐游-浪漫庄园】专题活动
Comsenz 招聘信息
网店系统ECShop v2.6.0正式版火热发布
基于Discuz!的免费论坛空间5D6D
第二届PHP中国开源发展及人才状况调查
 16 12
发新话题
打印

解答:为什么采集的内容都是乱码?

解答:为什么采集的内容都是乱码?

适用SS 5.x/XS 3.x 以及以下版本

这个一般都是您的SupeSite/X-Space程序的编码和被采集的页面的编码不一致导致

如果您要采集的页面的编码是GBK/UTF8/BIG5,则可以在编写采集规则的时候设置

采集规则里面有个栏目
引用:
采集页面编码
请输入要采集页面的编码。比如:gbk、utf-8、big5。为空则不进行编码转换
根据被采集页面的实际情况填写即可:
1)如果您的SS程序编码和要采集的页面编码一致,则可以留空,不会进行编码转换
2)如果您要采集的页面编码不是gbk/big5/utf-8,则建议您不要采集,因为程序不对其他编码进行转换,采集了还是会乱码

如何查看一个页面的编码?

可以在被访问的页面上鼠标右键--查看源文件:
您可以看到类似代码:
复制内容到剪贴板
代码:
<meta http-equiv="Content-Type" content="text/html; charset=gbk">
这个说明页面的编码为GBK,其他同理



如果您是智能采集出现乱码,检查下页面源代码中是否有指定的编码,如果没有指定的编码,那么程序就会默认按照程序的编码来处理的。
UCH用户使用交流群58602406,加入请注明论坛id
SupeSite官方使用交流群655682
SupeSite官方发展建议群号见建议区版顶
今天的积累,明天的收获
沙发..
克劳德
有问题请跟贴,不要PM我,PM的一律不回!
我为什么不能在这个板块发新贴?

采集上碰到问题还想请茄子姐姐指导一下
前面几步都没问题,在内容分页上不能通过

索引页面URL地址http://search.daqi.com/cgi-bin/s ... mp;chl=tu&page=[page]
文章内容分页区域识别规则
<div class="b"><a href="*"><img src="http://tu.daqi.com/img_0602/aa.jpg" border="0" /></a>[page]<img src="http://tu.daqi.com/img_0602/bb.jpg" border="0" /></a>
文章内容分页链接识别规则
<a href="[page]" class="blue">*</a>
文章内容分页链接URL补充前缀  http://tu.daqi.com/tuhai/article/tu_0/141823318/

分页源文件<div class="pic"><a href="2.html#t"><IMG SRC="http://image1.daqi.com/pic_search/original/14249/b043d6367b9813e8063b1b1919d29130.jpg" WIDTH="500"  BORDER=0 ALT="点击进入下一张图片"></a></div>
<div class="next2">
<div class="b"><a href="1.html#t"><img src="http://tu.daqi.com/img_0602/aa.jpg" border="0" /></a>
<a style="font-weight:normal" class="black">1</a>
<a href="2.html#t" class="blue">2</a>
<a href="3.html#t" class="blue">3</a>
<a href="4.html#t" class="blue">4</a>
<a href="5.html#t" class="blue">5</a>
<a href="6.html#t" class="blue">6</a>
<a href="7.html#t" class="blue">7</a>
<a href="2.html#t"><img src="http://tu.daqi.com/img_0602/bb.jpg" border="0" /></a>
</div>
这个怎么解决呢
提示: 作者被禁止或删除 内容自动屏蔽
如果您的SS程序编码和要采集的页面编码一致,则可以留空

我看到很多人使用智能采集都是乱码

我看到很多人使用智能采集都是乱码
都在提问!!
是不是程序的问题??
我的是
ss5.2.2
ddddddddddd
ddddddddd

难道就没有人回答?

难道就没有人回答?
这个帖子点击1340多了!!
没有人回答!·!
UTF-8版采集规律中如果有中文,就会采集不到.
 16 12
发新话题
版块跳转