简介

在日复一日的码砖生活中,一直混迹于爬虫的小圈圈,发现有很多重复性的简单测试工作,编码转换,时间戳参数测验,正文抽取,等等,现在逐步整理出跟爬虫相关的小工具,供大家方便分析和开发。

1、时间戳转换 : 类比抓包的有些参数,或者响应流内的文本,含有 10位或者13位 的数字,有些常常伴有其它字符, 猜测可能是表示时间,验证下比较靠谱。

2、JSON格式化 : json格式化,编码转换为可见中文

3、正文抽取|编码识别 : 新闻和博客类型通用正文抽取,编码自动识别,效果和性能经过测试。

4、cssQuery|xpath 校验: 自动识别下一页规则,cssquery语法校验器,由浏览器生成的xpath,经常需要微调,测试可用后才放心生产环境使用。 建议源码部分,浏览器自行访问copy到源码框中(减少json传输特殊字符错误)

5、请求测试工具 : 常常遇到一些请求,需要携带某些关键请求参数(refer,cookie..)及携带post信息才能访问成功 建议使用chrome+工具,删减请求头信息 ,就模拟表单post信息进行访问测试。

6、正则手册 : 正则在爬虫解析时,是万金油,无论多么复杂的页面结构,总能应对自如。

7、待开发 : 生活在于慢节奏,更多新的功能,敬请期待,如果您有想要的有关爬虫的在线测试idea,随时发送邮件至: cphmvp@163.com

8、技术博客 : 关于爬虫、oracle的技术积累的点点滴滴,有很多遇到过的坑,都有记录。随时交流。爬虫QQ群: 167047843 爬虫总群

9、官网 : “做好数据不单单为大数据,为合作伙伴创造价值”HaoShuJu认为客户、供应商、公司股东、公司员工等一切和自身有合作关系的单位和个人都是自己的合作伙伴,并只有通过努力为合作伙伴创造价值,才能体现自身的价值并获得发展和成功。