
如何用JAVA爬取AJAX加载后的页面
1.一般简单的网页通过get参数进行分页 这种情况就通过构造url来进行分页;2.有些网站是通过post参数来进行分页,那就用代码post的相应的参数给网站;3.比较复杂的ajax的分页需要通过抓包来实现。
如何爬取js加载后的页面显示内容
1. 分析ajax数据2. 提取抓取的js数据, 然后使用Rhino js引擎执行js并且获取提取结果. (速度还是有些影响的)
爬虫如何处理js动态
我用Jsoup写爬虫,一般遇到html返回没有的内容。 但是浏览器显示有的内容。 都是分析页面的http请求日志。 分析页面JS代码来解决。 1、有些页面元素被隐藏起来了->换selector解决2、有些数据保存在js/json对象中->截取对应的串,分析解决3、通过api接口调用->伪造请求获得数据还有一个终极方法4、使用phantomjs或者casperjs这种headless浏览器