分类
信息技术

搜索引擎是否收录HTTPS SSL网站?

Update(2014年8月7日): Google官方博客发布公告,称已经调整其搜索引擎算法,采用HTTPS加密的网站在搜索结果中的排名将会更高。

网络安全越来越重要,HTTPS SSL加密网络传输成为一个重要的手段。可是,许多网站依然没有或者不愿意采用HTTPS SSL证书,一方面会增加成本——布置SSL需要购买证书和独立IP,大型网站全面采用HTTPS SSL带来的加密也会增加服务器系统开销。更重要的一方面,小型网站比如博客等会关注搜索引擎是否收录HTTPS SSL网页。

绝大部分搜索引擎支持HTTPS SSL收录

人们普遍的印象是Google全面支持甚至偏爱HTTPS SSL网页,而国内的百度不支持收录HTTS SSL页面。那么众多其它的搜索引擎呢?国际上的Bing, Yahoo, 国内的360, 搜狗、有道呢?我对这个问题比较好奇。

刚好我的博客是全站强制HTTPS SSL加密,并且HTTP页面在国内是完全无法访问的状况,成为一个很好的测试对象,我以我的博客网址 https://tumutanzi.com 作为搜索对象,在国内外的搜索引擎中进行了测试。

测试结果表明:

  • 国内的搜索引擎中,360搜索(有道)、搜狗(含腾讯搜搜)都收录了我的博客页面,完全支持HTTPS SSL加密网页。中文搜索中的龙头百度没有收录土木坛子任何HTTPS SSL页面。
  • 国外搜索引擎中,Google.com, Bing.com, Yahoo.com都收录了 https://tumutanzi.com, 但是必应Bing存在HTTP和HTTPS页面都收录的情况——不过这有可能是网站的HTTP页面过去没有使用301重定向的原因。

No Baidu!

事实上,我过去查看网站服务器日志时发现,百度蜘蛛在我的博客被墙后一直在爬行,但就是在搜索结果中不放出任何结果,并提示网站不存在。至于收录HTTPS页面方面,也没有证据表明百度支持HTTPS:甚至对国内最知名的HTTPS网站支付宝首页都没有收录。

我认为,为了保护网络隐私,采用HTTPS SSL加密网站传输将日益成为网站的标配,国外知名搜索引擎和国内几大主流搜索引擎也都已经支持收录HTTPS SSL加密网页,担心搜索引擎不收录HTTPS SSL网页没有必要。此外,我相信百度在技术上收录HTTPS网页完全不存在问题。个中原由,任由读者们猜测。对于百度的这种行径,我也直接亮明土木坛子的态度:No Baidu!

2015年5月25日更新:百度发布公告称:从今天开始,百度放开对https站点的收录,https站点不需要再做任何额外的工作就可以被百度顺利抓收

Update: 百度本身已经支持 HTTPS, 但是不收录 HTTPS: https://www.baidu.com/s?wd=https://tumutanzi.com

Update: 一称BAIDU罗成的百度工程师撰文称:百度无线搜索目前已经支持https,手机访问地址 https://m.baidu.com

“搜索引擎是否收录HTTPS SSL网站?”上的34条回复

有了定心丸国内的站长也不会用SSL的,一来百度不支持嘛,二来国内的网站长都喜欢垃圾站,那个流量来得快。

除了和网上交易有关的情景,用ssl到底有多大意义?比如我访问坛子的网站,全部被第三人监控了,有什么后果?这些内容第三人直接访问坛子的网站都可以得到,没必要监控我的流量,监控了也只不过得到一些本来就公开的信息?

有没有什么值得监控的东西和是不是应该被监控是两回事。再者,从监控流量中获取的东西肯定不是没用的。对于网站在境外访客在境内的网页来说,用SSL可以避免机器过滤。

能觀察就能施加影響,能施加影響並作出預測就能加以控制。極端情況的結果對你而言就是缸中之腦。

我不是百度的粉,但是百度也不是那么差。现在360搜索和有阿里巴巴支持的UC上的神马搜索挑战百度,这样的竞争对百度还是有压力的。

百度当然是有技术含量的,毕竟是中文搜索引擎中的老大,瘦死的骆驼比马大,我也说了它不收录HTTPS SSL不是技术上的原因,有可能是政策上的因素——但也不尽然,为什么国内其它的搜索引擎支持HTTPS SSL而它不支持?

百度不支持HTTPS还真有可能是技术原因。百度内部技术一直都非常地差,而它一直都在提升周边产业而非核心搜索技术。详见:http://www.zhihu.com/question/22724223

这个就有点难以致信了,连国内的小搜索引擎都支持HTTPS SSL,百度支持不了?新出的神马搜索都支持了。刚才看了一下,百度不遵守我的robots.txt协议。会不会因为它的市场份额大,受到指示:不要支持SSL,以免网站们采用SSL加大某些神秘工作难度?

个人对SEO看的不是很重,比如我的博客就是个发发唠叨的地方,偶尔会写点伪技术文章,所以有了能力之后马上就装上了SSL。至于百度嘛,呵呵,基本上不用他。但是奇怪的是,就算你在robots.txt里面屏蔽了百度蜘蛛,还是可以在Apache的原始访问记录里面看到百度蜘蛛的痕迹

我发您的搜索结果第一条就是https://www.alipay.com,难道我们得到的跳转不同?

那是它自动跳转到HTTPS,与百度不能收录HTTPS是两回事。我这里就是说百度不能收录HTTPS,连最知名的支付宝的HTTPS页面都没有收录。看来我的表达能力还需要提高…

好吧,我明白你的意思了,你是直接搜”https…”,我个人一般没有这个习惯,而且就算不带https,搜出来的支付宝,也是指向的https链接

還有一種可能是收錄 SSL 會增加服務器負擔進而增加開銷降低淨收入,這不符合經濟利益,況且站長也不敢叫板,所以類似霸王條款地拒絕。而小站爲了和百度競爭,必然還要考慮其它方面的問題,所以也有支持 SSL 的動力。

你说的“称BAIDU罗成的百度工程师”的文章里说,SSL对服务器处理能力开销非常大,你的后台数据能不能说明这个有多严重?另外搞笑的是,那个文章里号召大家用SSL,结果他自己的网页就是普通http。

我这里实在是看不出HTTPS有什么系统开销,你也能感觉出我的HTTPS不比别人的HTTP慢。

当然,我的情况不能说明百度的情况,毕竟不是一个数量级的东西。

我感觉百度不这样做,可能有政治因素——加密了对某些人来讲就不好弄了。

刚刚全站 ssl 了,早就看不惯百度了,就算丫是搜索流量最大的来源吧,滚 j8蛋,支持就收录,不支持就算了……我就不信没人用Google 了还!

高端网民用Google的还不少。让自己的博客网站只让高端网民搜索到,挺好的。
百度如果不支持收录HTTPS,尽早会被淘汰的。

百度还是在骗人,根本还是抓不了SSL。网站换了SSL还被百度降权了。倒是谷歌流量唰唰的涨。

回复 土木坛子 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注