Bing核心搜索研发部对搜索质量的见解

日期: 栏目:老域名优势 浏览:36 评论:0

  题记:这是一篇来自Bing核心搜索研发部经理的一篇文章,本文讲诉了Bing的一系列功能改进 ,这只是一篇普通的搜索功能改进介绍,但通读本文, 我们会发现 ,搜索引擎会把大量精力放在研究人们在搜索时犯的错、如何正确理解用户的意图 、以及利用词库提供更精准的内容上面 。所以卢松松相信,无论是bing、Google还是百度,都会这么做。

  在Bing ,我们承诺提供最好的搜索结果 , 虽然研究小组数据挖掘专家,在不断提供我们的核心拼写和排名算法,可现实是总有某些历史上的遗留下的缺陷 ,这部分是因为人们过于依赖搜索所犯的错误,在这篇文章中,我的同事Bill Ramsey(Bing的研发部经理) ,将从三个方面介绍缺陷的发生率和严重性:网址查询、追踪链接和相关搜索。

  网址查询常见的错误

  这 是搜索缺陷的主要来源之一,涉及到我们所说的网址查询,例如“facebook.com ”或“雅虎网站/邮箱”的查询 ,乍一看,你可能会认为这是一个简单 的问题 。毕竟搜索引擎(Bing)包含数十亿网址,找到一个匹配的网站没多少难度。但在现实中 ,这种类型的查询实际上相当复杂。因为我们所有人会用无数的 拼写与变体 。

  例如,“facebook.com”就有上千个不同的变体,如“facebookc.om ” ,“facbook.com” ,和 “ww.faceboo.omc”,除了这类拼写错误外,人们并不总是知道正确的URL 。例如西南航空公司是southwest.com ,但有些人试图搜 “swair.com ”达到该公司的网页。同时,我们通常看到的网址,如“雅虎网站/邮箱 ”时 ,正确是URL是“mail.yahoo.com”的排列。

  即使我们找出了你真正的搜索意图,但恶意网址或垃圾邮件发送者提出了另一个挑战 。它们猎取顶级域名对象如coolmathgames.com(人实际上是为coolmath-games.com)的URL。

  这是我们的缺陷,我们主要通过三个领域来解决这类错误的查询方法:

  第一 , 正确识别URL,我们可以就遮挡,通过确定的网址 ,我们避免如包括像searscardcom.com垃圾结果的问题。

  第二, 进行模拟用户错误测试,通过数十亿的原模型 ,我们能够解决常见的拼写错误的网址 。

  第三 , 我们会分析,寻找像“swair.com”网站,使用户最终将结束预定网站“southwest.com ”。

  卢松松:Bing核心搜索研发部对搜索质量的见解

  另 一个例子 ,适用于机器学习模式,像“facebooklogin.com” 的查询相当于 “facebooklogin.net”,这是很常见的域名后缀输入错误。此外 ,像“bed bath and beyond.com ” 输入成 bedbathandbeyond.com 。我们的模型已经适应了这些变化,会主动把搜索结果修改,下面的例子是facebook的用户:

  卢松松:Bing核心搜索研发部对搜索质量的见解

  删除多余追踪的相关链接

  搜索引擎的关键功能之一 ,是查询执行拼写和查询扩展的组件,拼写会纠正数百个错误的查询,而搜索出现的词组(下面的查询框 ,表明我们改变了用户的查询),我 们把这种改建作为“追索”。例如,如果你输入“关于成功英雄的事迹” ,我们将显示“包括引号的成功的英雄事迹 ” ,但我们可能只显示“关于成功的英雄和事 迹”,我们会架设所有关于你的意图。

  卢松松:Bing核心搜索研发部对搜索质量的见解

  在过去,我们用同义词作为我们追踪链接的一部分 ,但会经常导致搜索结果偏离主题,导致同义词追踪成为多余的功能, 所有我们在不断扩大“词语”的定义 ,帮助其用户更好的进行匹配 。

  卢松松:Bing核心搜索研发部对搜索质量的见解

  所以这项功能我们已经删除,这个附加的价值不大,当Bing改变一些同义词的话 ,追踪链接可能不可能添加更多的有价值的信息,所以我们将搜索结果的颜色改为黑色。我们将继续努力为用户指定的搜索词语提供更好的查询。

  改进相关搜索

  相关搜索,这个大家很熟悉 ,在人们初始搜索时,我们会把相关的搜索防止搜索结果左侧,现在调整到右侧 ,例如搜索“布拉德·皮特 ”:

  卢松松:Bing核心搜索研发部对搜索质量的见解

  (注:Bing中国版还没有变 ,百度和Google在底部 。)

  有时我们会查询搜索结果的题外话 。例如“AMD”会给用户提供意想不到的搜索结果,通过改善我们的相关模型。

  卢松松:Bing核心搜索研发部对搜索质量的见解

  同时,我们也取得了其他地方改进 ,超越有关相关搜索中的格式条款,即“KSN WeatherLab” 中的 “KSN Weather Lab ”,(注:一些实验性项目 ,处于测试阶段),并避免在安全搜索中检索到成人内容。

  结论:

  搜索引擎的有点在于它会始终依赖于人,而人们总会有不同缺陷的 ,我们做的是降低缺陷率和搜索率,希望人们可以做更少的搜索并做更多的事 。

评论留言

暂时没有留言!

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。