服务条款 常见问题 知识库 每日IP更新 IP实时分布
登录 注册

怎么使用你们的proxyc.jar做网页爬虫?

proxyc.jar(点击下载Jar包( JDK1.7版))是全网代理为Java用户提供的爬虫工具类,主要类是com.goubanjia.ip.util.CrawlUtil类。通过这个类,用户只需执行setOrder方法设置订单号,之后就可以调用proxyGetFromUrl方法利用代理IP请求网页内容了。具体例子可以参考下面代码:

 
 	// 首先获取实例类
 	CrawlUtil crawler = CrawlUtil.getInstance();
 
 	// 设置订单号,这里替换成您自己的订单号
	crawler.setOrder("8888888888"); 
	
	// 设置请求超时时间,单位为毫秒,默认为5秒
	crawler.setConnectTimeOut(5000); 
	
	// 开启调试模式,开启状态下将会在console控制台输出执行信息
	crawler.setDebug(true); 
	
	// 代理IP会失效,这个参数设置最大的失效次数。如果超过这个数字,将直接请求网址(不使用代理)
	crawler.setMaxTryTime(5); 
	
	// Header请求头中添加随机的referer信息
	crawler.setRandomReferer(true); 
	
	// Header请求头中添加随机的User-Agent信息
	crawler.setRandomUserAgent(true);
	
	// 动态代理用户请设置为true,普通代理请设置为false
    crawler.setDynamic(true);
 
	try {
	   // 请求百度的HTML源码,第二个参数true表示使用代理IP
	   String html = crawler.proxyGetFromUrl("http://www.baidu.com/", true);
	   System.out.println("百度首页HTML代码为:\n");
	   System.out.println(html);

	   // 请求sina的HTML源码,第二个参数表示尝试请求的次数,第三个参数表示是否使用代理IP,第四个参数表示网页编码格式
	   String htmlWithCharset = crawler.proxyGetFromUrl("http://www.sina.com/", 5, true, "UTF-8");
	   System.out.println("Sina首页HTML代码为:\n");
	   System.out.println(htmlWithCharset);
	   	   
	} catch (Exception e) {
	   e.printStackTrace();
	}

© 2015 版权所有   QQ交流群:66782959  每日免费分享  代理知识库   服务条款

声明:本站资源仅限用来计算机技术学习及大数据抓取、爬虫等合法行为,利用本站资源从事任何违反中国法律法规的行为,由此引起的一切后果与本站无关。