搜索
查看: 4832|回复: 6

列表页采集页数的确定技巧

  [复制链接]

48

主题

593

帖子

3336

积分

五级会员

Rank: 8Rank: 8

积分
3336
发表于 2012-12-20 18:45:43 | 显示全部楼层 |阅读模式
       很长一段时间,我都没有好的思路对列表页的页数进行确定,因为不同的列表页页数是不一样的,比如百度搜索一个词后,每个词的搜索量是不一样的,如果你写死了,循环76次去采集,那么很多时候,可能你的循环页数就是白白循环了,所以类似这个时候我采用的方法是自己人工去看一下总页数是多少,然后填进去。
       直到今天在一个博客看到一个代码里的思路是,确定页面里是否有下一页 这个词,如果没有就跳出循环,有则继续下一页采集,不知道有没有人曾经和我一样被这个问题困扰的,和大家分享一下。
回复

使用道具 举报

0

主题

75

帖子

475

积分

二级会员

Rank: 3Rank: 3

积分
475
发表于 2012-12-20 21:12:47 | 显示全部楼层

呵呵

呵呵
回复

使用道具 举报

0

主题

75

帖子

475

积分

二级会员

Rank: 3Rank: 3

积分
475
发表于 2013-3-3 00:26:18 | 显示全部楼层

采集高手啊

采集高手啊
回复

使用道具 举报

6

主题

24

帖子

154

积分

一级会员

Rank: 2

积分
154
发表于 2013-4-8 21:13:06 | 显示全部楼层

但是有的没有下一页这个词怎么办 有的下一页只是隐藏了但是在源码里有怎么办

但是有的没有下一页这个词怎么办 有的下一页只是隐藏了但是在源码里有怎么办
回复

使用道具 举报

20

主题

68

帖子

523

积分

三级会员

Rank: 4

积分
523
发表于 2013-4-10 12:24:45 | 显示全部楼层

采集不一定要去采集列表..{:loveliness:}.. 非要说列表.那就先从列表说起..获取一页列表后.把文章连接或ID放到采集文章的纵列库中 列表无"

采集不一定要去采集列表....
非要说列表.那就先从列表说起..获取一页列表后.把文章连接或ID放到采集文章的纵列库中
列表无"下一页".的..可以判断页面是否提示出错..或是否还有文章连接..

采集文章纵列库 由别一个进程或程序进行采集..不用等得到所有列表后在开始..只要有就采集

还有如每页文章都有如相关文章等..也可以从这里得到文章列表来增加..采集文章纵列库..

至于采集文章纵列库一定要给连接弄个唯一...

就类似度娘爬你的网站一样....去了解一下SEO..可能会加深对采集的理解..

因为网站都会做SEO优化..不做的..你也不会去采集..
回复

使用道具 举报

5

主题

26

帖子

280

积分

二级会员

Rank: 3Rank: 3

积分
280
发表于 2013-4-19 09:05:31 | 显示全部楼层

不一定是下一页这个文字,很多分页代码最后一页也有这几个字的,还是得具体网站具体分析,甚至很多分页链接都不是数字 学采集多用用火车头,绝对能让你对采集有很深认识

不一定是下一页这个文字,很多分页代码最后一页也有这几个字的,还是得具体网站具体分析,甚至很多分页链接都不是数字
学采集多用用火车头,绝对能让你对采集有很深认识
回复

使用道具 举报

2

主题

36

帖子

307

积分

二级会员

Rank: 3Rank: 3

积分
307
发表于 2014-8-20 06:03:54 | 显示全部楼层

不错不错。。。

不错不错。。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

手机版|未经许可严禁引用或转载本站文章|站长邮箱|aardio.com|aardio官方社区 ( 皖ICP备09012014号 )

GMT+8, 2018-12-15 17:04 , Processed in 0.062500 second(s), 24 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表