SEO基础:怎样抓取关键词查询量:百度指数的分析-seo-网站优化
SEO基础:怎样抓取关键词查询量:百度指数的分析
获取百度索引中每个关键词的查询量可能是很多做SEO或PPC的朋友一直想做的事情,但百度索引不太容易被抓取,主要是因为他的查询不是基于普通的HTTP协议,而是基于AMF协议,这给数据抓取带来了一些麻烦。让我们分析一下百度是如何查询数据的。
百度指数闪电趋势分析(index.baidu/fla/TrendAnalyser.swf)采用股票闪电报告作为原型,并根据自身特点进行了二次开发。
百度索引闪存的完整操作流程如下:
页面加载闪存。
Flash解析HTML中设置的flashvars参数,并设置通信网关(index.baidu/gateway.php,返回数据的url地址)、显示数据的时间段、生成图片的网页地址和调用数据的键(没有注册键就不能获得数据)。
闪存根据参数在开机自检模式下向服务器(index.baidu/gateway.php)发送请求,并且参数被加密。
网关返回加密数据。
闪存解密数据,并在内部操作后显示出来。
捕捉用户的拖放动作,并重复3~5次。
如果用户停留在某个时间点,它将被GET调用(JSONP调用)。
返回的数据触发了页面js脚本的newsReturnCallback函数(不直接触发flash),并且参数是返回的json类型数据。数据经过处理生成新的json数据,然后通过js传输到闪存。
Flash解析传入的json数据,显示冒泡窗口,并显示url地址和标题数据。
捕捉用户的鼠标悬停动作,并重复7~9。
百度索引查询请求参数:
如上图所示,百度索引通过AMF协议进行通信。
[0]是要查询的关键字
[1]是区域标识,用于限制查询城市
[2]未知
[3]参数3是时间,它通过网页源文件中的eval(DEC())传递
[4] 5位随机数+md5(参数3+utf8(关键字)+zzg
参数4的算法来自网络,可能不准确。详情请参考附件中的闪存源代码。你可以自己分析,分析后记得告诉我结果~
百度索引查询返回数据:
UserIndexes是每天的查询数
媒体索引是媒体关注的焦点
版权声明:本网站上的原创文章由简书网的搜索引擎优化发布。如有转载,请注明出处。简书网搜索引擎优化博客.388m