`
pxlfxl2
  • 浏览: 50793 次
  • 性别: Icon_minigender_1
  • 来自: 火星
社区版块
存档分类
最新评论

伪装豆瓣爬虫程序——如何解决豆瓣禁用爬虫程序?

 
阅读更多

最近因为业务需要,要将豆瓣上的图书以及影视信息抓取下来,网页抓取其实很简单,很快就完成,但是系统还没上线就发现了问题,豆瓣会根据请求分析客户的行为,判断是否是机器人,如果判断为机器人,将要求输入验证码,最终导致抓取不到数据。

要解决这个问题,主要就两个思路,一个是识别验证码,当要求输入验证码时,识别图片中的验证码;另外一方案是伪装成正常访问,绕过豆瓣的分析程序。前一种方案受限于验证码识别率太低,很难满足需求,最终只能考虑第二种方案了。

通过分析豆瓣的分析判断机器人的实际情况,发现豆瓣是根据ip以及cookie信息统计访问频率来确定是否为“机器人”,有以下几种实际情况,1.不带cookie信息访问,快速访问一段时间,ip会被禁掉;2.带cookie访问,快速访问一段时间,请求会被禁掉,这时候清掉cookie,可以恢复正常访问。基于这个测试结果,可以采用一个简单的方案:

       1.第一次请求没有cookie信息,但记录下返回的cookie.

       2.后面每个请求都带上这个cookie信息.

       3.如果请求被跳转到验证码页面,就不带cookie重试,并记录返回的cookie信息

       4.下一次请求带上新的cookie信息。

重复2到4步骤。

 

       代码:

       1.简单的cookie manager:

import java.io.Serializable;
import java.util.Map;
import java.util.concurrent.ConcurrentHashMap;
/**
 * 简单的Cookie Manager,按照顶级域名管理Cookie信息
 * @author <a href="mailto:jingyu@taohua.com">惊羽</a>
 *
 */
class CookieManager implements Serializable{
	private static final long serialVersionUID = 292218695837624307L;
	private static CookieManager cookieManager = new CookieManager();
	private Map<String,Map<String,String>> cookies = new ConcurrentHashMap<String, Map<String,String>>();
	
	private CookieManager(){}
	/**
	 * 根据域名获取对应的Cookie
	 * @param domain
	 * @return
	 */
	public String getCookies(String domain){
		Map<String, String> domainCookies = cookies.get(getTopLevelDomain(domain));
		if(domainCookies != null){
			StringBuilder sb = new StringBuilder();
			boolean isFirst = true;
			for(Map.Entry<String, String> cookieEntry : domainCookies.entrySet()){
				if(!isFirst){
					sb.append("; ");
				}else{
					isFirst = false;
				}
				sb.append(cookieEntry.getKey())
			      .append("=")
			      .append(cookieEntry.getValue());
			}
			return sb.toString();
		}
		return "";
	}
	
	/**
	 *
	 * 设置Cookie值
	 * @param domain
	 * @param cookiesString
	 */
	public void setCookies(String domain,String cookiesString){
		Map<String, String> domainCookies = cookies.get(getTopLevelDomain(domain));
		if(domainCookies == null){
			domainCookies = new ConcurrentHashMap<String, String>();
			cookies.put(getTopLevelDomain(domain), domainCookies);
		}
		String[] cookies = cookiesString.split("; ");
		for (String cookie : cookies) {
			if(cookie != null && !cookie.trim().isEmpty()
					&& cookie.indexOf("=") > 0){
				int equalMarkIndex = cookie.indexOf("=");
				String key = cookie.substring(0,equalMarkIndex);
				String value = cookie.substring(equalMarkIndex+1);
				domainCookies.put(key, value);
			}
		}
	}
	/**
	 * 删除域名下所有的Cookie
	 * @param domain
	 */
	public void removeCookies(String domain){
		cookies.remove(getTopLevelDomain(domain));
	}
	
	/**
	 * 获取CookieManager的实例
	 * @return
	 */
	public static CookieManager getInstance(){
		return cookieManager;
	}
	
	/**
	 * 获取域名的顶级域名
	 * @param domain
	 * @return
	 */
	public String getTopLevelDomain(String domain){
		if(domain == null){
			return null;
		}
		if(!domainToTopLevelDomainMap.containsKey(domain)){
			String[] splits = domain.split("\\.");
			domainToTopLevelDomainMap.put(domain, (splits[splits.length-2] + "." + splits[splits.length -1]));
		}
		return domainToTopLevelDomainMap.get(domain);
	}
	/**
	 * 存储域名与其顶级域名之间映射关系,避免重复的计算顶级域名
	 */
	private Map<String,String> domainToTopLevelDomainMap = new ConcurrentHashMap<String, String>();
}
 

       2. 包装HttpURLConnection,实现请求失败自动清除cookie并重试的功能。

 

public class HttpURLConnectionWrapper extends HttpURLConnection {
	
	HttpURLConnection httpURLConnection;
	//简单的CookieManager
	CookieManager cookieManager = CookieManager.getInstance();
	
	public HttpURLConnectionWrapper(URL u) throws IOException {
		super(u);
		httpURLConnection = (HttpURLConnection) u.openConnection();
		setFollowRedirects(false);
		fillRequestHeadField();
	}
	/**
	 * 填充Request Header信息
	 */
	private void fillRequestHeadField(){
		httpURLConnection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0");
		httpURLConnection.setRequestProperty("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
		httpURLConnection.setRequestProperty("Accept-Language", "zh-cn,zh;q=0.5");
		httpURLConnection.setRequestProperty("Accept-Encoding", "GB2312,utf-8;q=0.7,*;q=0.7");
		httpURLConnection.setRequestProperty("Referer", "http://movie.douban.com/");
		httpURLConnection.setRequestProperty("Cache-Control", "max-age=0");
		httpURLConnection.setRequestProperty("Cookie", cookieManager.getCookies(url.getHost()));
		
	}

	@Override
	public InputStream getInputStream() throws IOException {
		InputStream is = httpURLConnection.getInputStream();
		//取到输入流中后处理Cookie信息
		resolveCookies();
		int responseCode = getResponseCode();
		if(responseCode != 200 && responseCode != 404 ){
			//清除cookie并重新发请求
			CookieManager.getInstance().removeCookies(url.getHost());
			try{
				httpURLConnection.disconnect();
				is.close();
			}catch (Exception e) {
			}
			httpURLConnection = (HttpURLConnection) this.getURL().openConnection();
			setFollowRedirects(false);
			fillRequestHeadField();
			is = httpURLConnection.getInputStream();
		}
		return is;
	}
	private void resolveCookies(){
		List<String> setCookies = getHeaderFields().get("Set-Cookie");
		if(setCookies != null && !setCookies.isEmpty()){
			for (String setCookie : setCookies) {
				cookieManager.setCookies(this.url.getHost(), setCookie);
			}	
		}
	}
.........
}
 

 

分享到:
评论
7 楼 pxlfxl2 2013-01-30  
KeySeeker 写道
博主问一下,刚刚我尝试了一下,我用的是httpclient包,然后不断地进行访问,当出现403的时候就将里面的cookie给删除掉,结果这个时候还是登陆不了,依然403,不知是不是我没有理解你的文章的意思啊,求指导阿!

这都差不多一年前的方法了,现在不知道好不好用呢,你别用httpclient试试,主要代码我已经贴出来了。
6 楼 KeySeeker 2013-01-23  
博主问一下,刚刚我尝试了一下,我用的是httpclient包,然后不断地进行访问,当出现403的时候就将里面的cookie给删除掉,结果这个时候还是登陆不了,依然403,不知是不是我没有理解你的文章的意思啊,求指导阿!
5 楼 KeySeeker 2013-01-23  
carlosfu 写道
如果是第一种情况,怎么处理?
1.不带cookie信息访问,快速访问一段时间,ip会被禁掉

那样应该是使用代理服务器来登陆把,这是比较好的解决方案le.刚刚我尝试了一下博主的方案,即使带cookie访问,如果403的话,删除cookie再重新访问,也依然会被禁用.
4 楼 carlosfu 2013-01-17  
如果是第一种情况,怎么处理?
1.不带cookie信息访问,快速访问一段时间,ip会被禁掉
3 楼 pxlfxl2 2012-04-28  
e_soft 写道
抓别人数据 还大张旗鼓写出来啊 呵呵


我知道看到网上有很多人遇到这个问题,没有人给解决方案,那我就随便写写,分享一下啦……

我把问题写出了,豆瓣也可以想办法屏蔽掉这个漏洞的
2 楼 hanmiao 2012-04-27  
你太高调了,这种事情自己做了就算了,别明着写出来...
1 楼 e_soft 2012-04-27  
抓别人数据 还大张旗鼓写出来啊 呵呵

相关推荐

    微信小程序——豆瓣图书(截图+源码).zip

    微信小程序——豆瓣图书(截图+源码).zip 微信小程序——豆瓣图书(截图+源码).zip 微信小程序——豆瓣图书(截图+源码).zip 微信小程序——豆瓣图书(截图+源码).zip 微信小程序——豆瓣图书(截图+源码).zip ...

    微信小程序——豆瓣电影(截图+源码).zip

    微信小程序——豆瓣电影(截图+源码).zip 微信小程序——豆瓣电影(截图+源码).zip 微信小程序——豆瓣电影(截图+源码).zip 微信小程序——豆瓣电影(截图+源码).zip 微信小程序——豆瓣电影(截图+源码).zip ...

    豆瓣爬虫程序.rar

    在此资源附件为豆瓣爬虫程序,此外还包含一个db数据库,用来获取豆瓣电影的数据集以及用户影评,可为学习爬虫的用户提供参考。

    豆瓣网爬虫程序

    python爬取豆瓣网资源,刚接触爬虫的可以参考,具体的参考代码

    Python爬虫程序源代码爬取豆瓣TOP250排行榜数据电影名称评分导演演员等信息

    Python爬虫程序源代码爬取豆瓣TOP250排行榜数据电影名称评分导演演员等信息 知识领域: 数据爬取、数据分析、Python编程技术关键词: Python、网络爬虫、数据抓取、数据处理内容关键词: 豆瓣电影、排行榜、数据...

    详解Java豆瓣电影爬虫——小爬虫成长记(附源码)

    主要介绍了详解Java豆瓣电影爬虫——小爬虫成长记(附源码) ,具有一定的参考价值,有需要的可以了解一下。

    22级2班 豆瓣爬虫程序(完整版).ipynb

    22级2班 豆瓣爬虫程序(完整版).ipynb

    豆瓣电影python爬虫程序

    这是一个简单的Python爬虫程序,旨在从豆瓣电影网站中提取电影信息。通过使用网络爬虫技术,该程序可以自动从豆瓣电影网页中抓取电影的名称、评分、演员、导演等信息,然后将这些数据存储或进一步处理,例如制作数据...

    豆瓣电影数据集12万+用户影评40万+爬虫程序(可做推荐系统)

    豆瓣电影数据集12万+用户影评40万+爬虫程序(可做推荐系统) 。 豆瓣电影数据集12万+用户影评40万+爬虫程序(两个csv,一个db数据库) 最近在学习爬虫,辛辛苦苦爬了几天,分享给大家。。可以用来做推荐系统 觉得好的...

    豆瓣爬虫租房.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    微信小程序仿豆瓣电影源码

    微信小程序仿豆瓣电影源码微信小程序仿豆瓣电影源码微信小程序仿豆瓣电影源码微信小程序仿豆瓣电影源码微信小程序仿豆瓣电影源码微信小程序仿豆瓣电影源码微信小程序仿豆瓣电影源码微信小程序仿豆瓣电影源码微信小...

    微信小程序 豆瓣电影 (源码)

    微信小程序 豆瓣电影 (源码)微信小程序 豆瓣电影 (源码)微信小程序 豆瓣电影 (源码)微信小程序 豆瓣电影 (源码)微信小程序 豆瓣电影 (源码)微信小程序 豆瓣电影 (源码)微信小程序 豆瓣电影 (源码)微信小程序 豆瓣...

    电影评论爬虫程序

    电影评论爬虫程序,从豆瓣网爬取电影评论。欢迎大家使用。

    豆瓣电影top250爬虫

    纯手写豆瓣电影爬虫。没用BeautifulSoup,用的纯字符串搜索。

    豆瓣短评的爬虫程序,并经过数据预处理和JieBa分词,统计词频,最终生成次云.zip

    python实现豆瓣短评的爬虫程序,并经过数据预处理和JieBa分词,统计词频,最终生成次云.zip

    python豆瓣网站爬虫和可视化.zip

    python豆瓣网站爬虫和可视化,爬取数据并分析数据,抓取top250电影的上映时间、国家、评分、类型、评价人数,豆瓣top250电影类型数量占比,构建top250电影中出自国家最多的20个国家的列表,豆瓣top10电影上映与时间...

    python豆瓣图书爬虫

    基于python的豆瓣图书爬虫,获取图书的书名、作者、图书简介并用词云图的形式展示,存储在sqlite3中

    基于python的豆瓣爬虫

    python数据分析与可视化 mysql 基于python的豆瓣爬虫 基于python的豆瓣爬虫

    基于python爬虫对豆瓣影评分析进行爬取的课程设计.zip

    基于python爬虫对豆瓣影评分析进行爬取的课程设计

    基于Python实现GUI爬虫程序

    利用Python实现GUI编程,通过构造不用类,实现定向抓取淘宝商品、每日优鲜商品、比价网商品、天猫超市商品来获取目标商品最新价格、优惠...程序内附一定反爬技术。以上全部基于移动端抓取实现。 打包利用--pyinstaller

Global site tag (gtag.js) - Google Analytics