找回密码
 立即注册

QQ登录

只需一步,快速开始

用新浪微博登录

只需一步,快速搞定

查看: 1338|回复: 9

kettle爬虫模拟第二版,大神勿喷

[复制链接]

8

主题

50

帖子

454

积分

中级会员

Rank: 3Rank: 3

积分
454
发表于 2016-4-8 13:04:28 | 显示全部楼层 |阅读模式
本帖最后由 guess_l 于 2016-4-10 11:22 编辑

个人兴趣,想做个爬虫,弄一些数据,之前用过一个国产的可视化爬虫软件bzy,但是收费,算了,想想我们kettle这么强大 ,肯定可以实现。现在做了个模拟的,还不是真正的哦。数据保存在excel,按照顺序获取excel1里面保存了excel1的数据和下一个excel2的路径(这个就是模拟下一页),整体的JOB流程是这样的excel1的内容:
运行之后保存在数据库里面的内容我们可以看见项目和价格已经分开字段保存了:
,不多说,上附件。说明一下这个版本的问题:1.没真正的发起http请求,只是模拟。
2.循环溢出,我也是刚刚学,批量执行这里会溢出。(我测试了弄了个死循环,插入294条数据之后 内存溢出 所以想问一下大家kettle的循环内存溢出要怎么处理 除了加大内存)现在主要是这个问题困扰着我,kettle循环久了会报错 ,求解决办法
3.正则表达式需要深入学习,因为以后这个流程搭建好之后,需要修改的基本是正则部分
本来想卖钱的,发现没找到这个功能,希望以后在群里大家可以帮忙下载东西。。。第一次发帖
我来发贴的重点是希望大家多给点意见,多帮帮忙,因为我也是初学者,或者参与进来这个小项目





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
楼主热帖

1

主题

11

帖子

63

积分

注册会员

Rank: 2

积分
63
发表于 2016-4-8 13:05:55 | 显示全部楼层
楼主辛苦了 下载看看学习下

12

主题

73

帖子

546

积分

高级会员

Rank: 4

积分
546
QQ
发表于 2016-4-8 13:13:54 | 显示全部楼层
辛苦了,mark

0

主题

6

帖子

20

积分

新手上路

Rank: 1

积分
20
发表于 2016-4-8 13:38:27 | 显示全部楼层
很好的开始,大家学习学习!!

8

主题

50

帖子

454

积分

中级会员

Rank: 3Rank: 3

积分
454
 楼主| 发表于 2016-4-13 08:50:04 | 显示全部楼层
难道没有知道怎么解决循环内存溢出的人吗

0

主题

17

帖子

92

积分

注册会员

Rank: 2

积分
92
发表于 2016-4-13 10:22:59 | 显示全部楼层

楼主辛苦了 下载看看学习下

0

主题

11

帖子

64

积分

注册会员

Rank: 2

积分
64
发表于 2016-5-4 19:20:09 | 显示全部楼层
支持支持牛人

0

主题

9

帖子

28

积分

新手上路

Rank: 1

积分
28
发表于 2016-8-26 23:44:42 | 显示全部楼层
才开始学习

0

主题

6

帖子

16

积分

新手上路

Rank: 1

积分
16
发表于 2016-11-8 23:38:42 | 显示全部楼层
找到启动的bat文件
把java程序的内存调大一点不就可以了

8

主题

50

帖子

454

积分

中级会员

Rank: 3Rank: 3

积分
454
 楼主| 发表于 2016-11-9 14:15:41 | 显示全部楼层
gerenshua 发表于 2016-11-8 23:38
找到启动的bat文件
把java程序的内存调大一点不就可以了

毕竟你还太年轻
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版| Pentaho | Kettle ( 沪ICP备14044064号 )  

GMT+8, 2017-3-23 05:58 , Processed in 0.486829 second(s), 29 queries , File On.

Powered by Discuz!  uKettle

Copyright © 2014 Comsenz Inc.

快速回复 返回顶部 返回列表