百度更新的一些小事[仅供参考]
百度其实24小时内都在更新
[百度引擎的爬行记录几乎24小时每个时段的都能找到]
不过白天大部分是更新一些重要站点 针对不同频道和目录更新
[门户站以及新闻源不同目录和频道权值不同,比如百度自身的帖吧和知道,百科(最高).]
百度新闻和百度网页是不同的更新渠道
[新闻源网站更新频率很高,但是百度新闻频道更新内容几乎24小时不间断.]
有可能百度新闻直接收录了 但是百度网页没有收录 其他引擎相同
[测试了十几次,一般百度新闻内出现的文章,5小时内即可在百度网页收录.]
百度对新闻源网站的导出连接信任度明显低于去年
[门户网站发布软文效果大大降低,新闻源网站全站连接价值尚可.]
对于绝大部分网站来说 百度主要更新时间集中在凌晨2点到6点
[引擎爬行频率以及密度达到高峰,周三周四较明显]
中小型正常网站平均更新频率由去年约26天一次 今年减少为约15天一次
[此数据仅来源上海电信一虚拟主机引擎爬行频率,包括自身无内容更新站点]
不过比较纳闷的是 .aspx网页更新频率明显偏高 对此暂时没有找到原因
[不少.net网站无其他明显特征,似乎得到特殊待遇,一周更新一次]
备注:
仅供参考,未做进一步分析.部分观点仅个人意见.日志文件比较大,至今累计已300多G.
从上海/北京/广州等地区,共4家IDC商十几台win2003服务器提取IIS日志分析到的粗略数据.
另外,从3月开始,采集站的日子越来越难过.似乎针对采集内容,百度有了更新的判断标准.
2008-5-19 凌晨 草记