`
m635674608
  • 浏览: 4934407 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

HtmlUnit 模拟浏览器以及Cookie使用示例

    博客分类:
  • java
 
阅读更多
String  url="http://outofmemory.cn/";//想采集的网址
            String refer="http://outofmemory.cn/";
            URL link=new URL(url); 
            WebClient wc=new WebClient();
            WebRequest request=new WebRequest(link); 
            request.setCharset("UTF-8");
            request.setProxyHost("120.120.120.x");
            request.setProxyPort(8080);
            request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段
            ////设置请求报文头里的User-Agent字段
            request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
            //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
            //wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。
            //其他报文头字段可以根据需要添加
            wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理
            wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页,这个是必须的
            wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页,这个是必须的。
            wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
            wc.getOptions().setThrowExceptionOnScriptError(false);
            wc.getOptions().setTimeout(10000);
            //设置cookie。如果你有cookie,可以在这里设置
            Set<Cookie> cookies=null;
            Iterator<Cookie> i = cookies.iterator();
            while (i.hasNext()) 
            {
                wc.getCookieManager().addCookie(i.next());
            }
            //准备工作已经做好了
            HtmlPage page=null;
            page = wc.getPage(request);
            if(page==null)
            {
                System.out.println("采集 "+url+" 失败!!!");
                return ;
            }
            String content=page.asText();//网页内容保存在content里
            if(content==null)
            {
                System.out.println("采集 "+url+" 失败!!!");
                return ;
            }
            //搞定了
            CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name
            Set<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在这里,下次请求的时候可能可以用上啦。

 

分享到:
评论

相关推荐

    htmlunit模拟cookie登录

    htmlunit 模拟cookie 存取 cookie值登录 如: wsyyuser.xywy.com Cookie c = new Cookie("wsyyuser.xywy.com", "PHPSESSID", Common.getValue("session_id") );

    htmlunit java版无界面浏览器 网页自动登录

    htmlunit java版无界面浏览器 实现网页自动登录利器 官方最新下载 htmlunit 是一款开源的java 页面分析工具,...项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。

    htmlunit下载资源示例

    通过htmlunit 下载网站资源的简单示例 htmlunit 是一款开源的java 页面分析工具,读取页面后,...项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器。 采用的是Rhinojs引擎。模拟js运行。

    htmlunit最新版2.18含api文档

    使用htmlunit模拟浏览器所需要的jar包都在里面,下载好了,全部解压,全部导入进去就行了

    htmlunit-driver:适用于HtmlUnit无头浏览器的WebDriver兼容驱动程序

    HtmlUnitDriver HtmlUnitDriver是适用于无头浏览器的WebDriver兼容驱动程序。 消息 下载及安装 Maven / Gradle / ... ...您可以简单地使用HtmlUnit驱动程序类中的构造函数之一 // simple case - no j

    htmlunit2.12及jsoup1.5.2的jar包

    项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过...

    htmlunit-2.5

    HtmlUnit测试工具的推出,创意非常好。是一款给java开发用的browser。说它是browser,其实它是对html建模并且提供API来访问页面,点击链接等等的java类库。 这样的测试工具有这样几个优点: 运行起来没有界面,...

    htmlunit爬虫.rar

    htmlunit爬虫,基于Javahtmlunit爬虫,模拟浏览器HTTP请求实现对网页信息的抓取,本人经常用的框架,可以爬网上一些数据,进行分析。

    htmlunit-2.15.jar

    htmlunit java版无界面浏览器 实现网页自动登录利器 官方最新下载 htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的...项目可以模拟浏览器运行,被誉为java浏览器的开源...

    webCrawl:使用HTMLUnit,PhantomJS和JBrowserDriver抓取网址

    使用HTMLUnit,PhantomJS和JBrowserDriver爬行不同的网站 上述无浏览器驱动程序的简单示例。

    htmlunit.zip

    htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的...项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器,运行速度迅速。使用htmlunit开发,离线apidoc手册是非常有必要的

    htmlUnit所需jar包

    htmlUnit所需工具包,htmlUnit,htmlUnit,htmlUnit,htmlUnit,htmlUnit

    htmlunit-2.33-API文档-中英对照版.zip

    使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。 双语对照,边学技术、边学英语。

    htmlunit-2.25-OSGi.jar包(Java无界面浏览器)官方免费版

    HtmlUnit是一个强大的无界面Java浏览器,是junit的扩展之一,它提供了丰富的API,在读取页面后,您可以有效的使用htmlunit分析页面上的内容,并调用页面、填写表单、点击链接,就像您在“正常”浏览器中所作的一样。...

    htmlunit-2.49.1-API文档-中文版.zip

    赠送jar包:htmlunit-2.49.1.jar;...使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    neko-htmlunit-2.27-API文档-中文版.zip

    赠送jar包:neko-htmlunit-2.27.jar;...使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    htmlunit-cssparser-1.2.0-API文档-中文版.zip

    赠送jar包:htmlunit-cssparser-1.2.0.jar;...使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    htmlunit-core-js-2.27-API文档-中文版.zip

    赠送jar包:htmlunit-core-js-2.27.jar;...使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    htmlunit-cssparser-1.7.0-API文档-中英对照版.zip

    使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。 双语对照,边学技术、边学英语。

    htmlunit-2.33-API文档-中文版.zip

    赠送jar包:htmlunit-2.33.jar;...使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

Global site tag (gtag.js) - Google Analytics