设为首页收藏本站 开启辅助访问
 找回密码
 立即注册

QQ登录

只需一步,快速开始

用新浪微博登录

只需一步,快速搞定

查看: 3342|回复: 105

[已解决] 利用kettle作为爬虫工具的演示

  [复制链接]

8

主题

50

帖子

456

积分

中级会员

Rank: 3Rank: 3

积分
456
发表于 2016-8-30 23:59:07 | 显示全部楼层 |阅读模式
本帖最后由 guess_l 于 2016-10-18 11:23 编辑

距离上次一次发爬虫的帖子【http://www.ukettle.org/thread-680-1-1.html】几个月了因为jenkins的原因,将直接让我能解决爬虫这类循环(循环前不知道要循环多少次结束)内存溢出的问题,所以最近又研究起来这个东西
现在才正式做了个真实http请求的爬虫,不过也还是单次请求的。还有许多地方需要完善。
现直接上我的ktr吧,可以直接运行,能取到论坛某页的帖子列表。效果图:论坛帖子列表页面

获取到本地excel的信息
对于xpath的疑问:为什么处理img这类自结束标签,还有   & & 这些字符的时候会报错?希望有xpath大神教一下,这个也是为什么我的ktr里面要替换删除这些信息的原因。
参考技术:xpath,正则表达式,捕获组的运用。xpath帖子:http://www.cnblogs.com/fdszlzl/archive/2009/06/02/1494836.html
jenkins调度Kettlehttp://www.ukettle.org/thread-943-1-1.html?_dsign=c77371b2
游客,如果您要查看本帖隐藏内容请回复









本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
楼主热帖

0

主题

1

帖子

8

积分

新手上路

Rank: 1

积分
8
发表于 2016-8-31 07:38:30 | 显示全部楼层
...........................
回复

使用道具 举报

0

主题

3

帖子

24

积分

新手上路

Rank: 1

积分
24
发表于 2016-8-31 08:06:36 | 显示全部楼层
测试
回复

使用道具 举报

24

主题

94

帖子

487

积分

中级会员

Rank: 3Rank: 3

积分
487
发表于 2016-8-31 08:37:51 | 显示全部楼层
参考参考 O(∩_∩)O哈哈~。。。。。。。。。。。

0

主题

7

帖子

40

积分

新手上路

Rank: 1

积分
40
发表于 2016-8-31 08:38:21 | 显示全部楼层
学习学习
回复

使用道具 举报

0

主题

1

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2016-8-31 08:44:21 | 显示全部楼层
很好的开始,也跟着学习学习

0

主题

1

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2016-8-31 08:49:13 | 显示全部楼层
看看 看看
回复

使用道具 举报

0

主题

2

帖子

14

积分

新手上路

Rank: 1

积分
14
发表于 2016-8-31 08:49:26 | 显示全部楼层
学习学习
回复

使用道具 举报

0

主题

1

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2016-8-31 08:58:43 | 显示全部楼层
看看好使不

5

主题

23

帖子

162

积分

注册会员

Rank: 2

积分
162
发表于 2016-8-31 09:02:05 | 显示全部楼层
大神,受小的一拜。。。。。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋| μKettle ( 沪ICP备14044064号 )     

GMT+8, 2017-8-18 09:22 , Processed in 0.250427 second(s), 20 queries , File On.

Powered by Discuz!  uKettle

Copyright © 2014 Comsenz Inc.

快速回复 返回顶部 返回列表