标签归档文章: crawler

webcrawler 网页爬虫(二)

调试发现, 通过webdriver 使用htmlunitdriver 并无法获得javascript 执行后的html dom 树。 而只是可以获取的html的source 页面。

note: sourcepage 和 经过script解析的html dom ,暂且这么叫。  sourcepage 是经过php,jsp,sevlet也好, 输出的未经过浏览器(客户端)进行解析的html code。 而真正展现在用户面前的, 是经过script,css解析后, 友好展现在用户面前的真实数据。

例如,我写了一个简单的html页面。 有一句简单的js语句。

<html><body>welcome<div><script>document.write(‘<span>hello</span>’);</script></div></body></html>

打开页面后, 我们察看source page, 则看到的如上的代码。 更多…

webcrawler 网页爬虫

想实现一个简单的网页爬虫, 利用selenium(htmlunit), 可以解析javascript. (本以为selenium 2.0 也就是webdriver ,非调用浏览器的api则底层实际使用了htmlunit, 可以解析javascript,但经过尝试没有成功, 如果有读者有高见请赐教。  所以本人之后直接使用htmlunit了。)

大概的流程(已经搜索过url仍未进行比对剔除) .

代码已经做了优化,最新的内容请点击webcrawler-网页爬虫(二)

=================以下陈旧代码已经废弃==========================
初始网页, 目标深度 , 当达到了目标深度后, 不再继续深度爬.

4个类.

更多…