Welcome to武汉万伦网络科技有限公司!

16608661800

联系我们

PRPULAR PUSH

ATTEN:
王经理
phone:
16608661800
QQ:
935095314
ADD:
湖北省武汉市武昌区武汉中央文化区K6-3栋1004室

泰州搜狗关键词优化图片

author:武汉万伦网络科技有限公司

【Font size: big medium smail

time:2020-02-21 08:56:02

本文由武汉万伦网络科技有限公司提供,重点介绍了搜狗关键词优化图片相关内容。武汉万伦网络科技有限公司专业提供小程序定制优惠,小程序定制口碑好,小程序定制服务好等多项产品服务。从成立至今,服务过多项优质客户,提供一站式服务,选择我们享受一次完美的消费体验。

搜狗关键词优化图片转载请注明出处:8层会议室 - 知乎专栏原文链接:基于百科语料优化搜狗图片搜索的方法实践背景  在检索任务中,特征的优劣直接影响最终的排序效果。研究者们一直孜孜以求的,就是希望能在浩如烟海的网络中,找到和query最相关的doc,展示给用户。搜狗关键词优化图片

  在实际的工作中,我们发现有很大一部分搜索排序的效果不好,是由于query的语义理解不够好导致。在常用的排序特征中,如PageRank、bm25、matchrank等,都很难表达出query的具体语义。比如检索词“神门”,就有穴位、地名、小说等多种意义。这几年深度学习火热,研究者们开始尝试使用embedding的方式来表达query的语义,在词义的表达上确实去的了很好的效果,但针对一词多义的情况,目前多义词的词向量表达的研究还比较少。搜狗关键词优化图片

  本文希望通过百科语料的先验知识能够优化query的歧义问题,主要分为三个部分,第一部分介绍本文想法来源的论文;第二部分是具体的实现方式;第三部分是总结和展望。

论文介绍  考虑使用百科语料作为先验知识对query进行扩展和定位,源于论文《 Word-Entity Duet Representations for Document Ranking》中的一些方法。

  在该论文中,作者提出了基于word和entity来对query和doc进行表达,其中entity是对query和doc中word的扩展,比如“奥巴马”的entity包含有“白宫”、“总统”等。而entity的扩展是依据entity网络结构生成的,相当于知识图谱的作用。当然,构建知识图谱的成本是较高的,好在目前有一些开源的知识库、或者半结构化的语料集能够使用,至于针对具体任务是否合适就需要具体分析了。

  在此基础上,计算query和doc的相关性时,就可以去计算四个部分的特征,① query words to document words ② query entities to document words ③ query words to document entities ④ query entities to document entities。在每一部分的具体特征表达上,又使用了传统的一些计算方式,特征维度情况如下图所示,4个table分别对应四个部分的特征:

前三部分的特征计算相对比较直观,理解了作者的整体思路,基本就能根据不同特征的具体意义进行计算。在第四部分query entity和doc entity的特征计算上,需要考虑到entity之间的相关性,作者使用了TransE模型来得到网络结构中的entity向量表达,并对特征值进行了直方图的pooling操作,得到了离散化的特征。

  在此基础上,作者还加入了attention特征,旨在通过attention特征来对前面的四部分特征做优化,主要是起到增强word部分特征作用,减弱了entity部分特征作用,整体的计算流程如下图所示:

  至此,该论文中整个检索排序算法部分已经介绍完毕,看起来并不复杂,但是在测试上取得了较为不错的效果。其中的细节大家有兴趣可以再精读下论文。

  该论文的主要亮点在于提供了一种如何结合现有的知识图谱,或者说半结构化数据来对排序特征进行优化和扩充的方法。因为先验知识是人为总结得到的,准确率较高,很多机器无法区分的实体词,人类根据语境能够很清晰的分辨出来。因此利用先验知识优化排序是一种很好的方式。

实现方法:  在第一部分的论文中,作者结合先验的方法很有效,但是当需要应用于实际线上产品的时候,却会出现各种各样的问题。因为搜索引擎对耗时非常敏感,同时由于数据量大,对doc信息的存储、召回过程中特征计算的复杂度都有要求,因此该方案很难直接应用。同时又考虑到实际要解决的一些问题及现有特征的重复,最终笔者决定结合百科语料拓展tag语义空间来优化排序。具体如下:

1.目标问题:

  在图片检索中,针对模糊意义检索词的检索一直是个挑战。模糊意义检索词指的是检索词为多义词或指向性不够明确,比如“李娜”可以指网球运动员李娜,也可以是歌手李娜;“神门”一般指穴位,但也可能召回小说或地名相关的图片。

  为了优化这一问题,笔者尝试使用百科语料给现有词条创建语义特征,根据语义空间特征优化召回图片的排序结果。比如检索词“飞机头”在正常检索下会召回大量飞机头部的照片,但通过语义空间可知,它跟“时尚”、“发型”相关性很强,就可以将“飞机头”时尚发型的图片排序更靠前,从而优化排序效果。

2.方法步骤:

  基本方法是通过语义空间对检索词进行语义解析和定位,比如在检索词“飞机头”的召回图片中,通过语义空间特征可以将和“时尚”、“发型”相关的图片排名靠前。在此过程中,使用了百科词条的半结构化数据,来构建词条的语义空间向量,从而计算检索词和图片的语义空间特征,主要分为以下步骤:

  1.建立基础语义空间

  2.对百科词条构建语义空间向量

  3.检索词的语义空间向量定位

  4.计算语义空间特征

2.1 建立基础语义空间

  2.1.1 语义空间概念

  在人类语言中,词和词之间是有关联且相互解释的,比如“铲球”的语义是足球,“投篮”的语义是“篮球”。我们人脑在进行实体区分的时候也是利用了这样的信息,比如当说“欧文”的时候我们不知道是谁,但说“篮球 欧文”我们就知道说的是NBA运动员欧文。而语义空间的使用就是为了更好的定位和表达实体词。

  2.1.2 利用百科数据建立语义空间

  语义空间应该是由一组比较固定、词义明确的组成,比如”篮球”、”足球”、”演员”、”歌手”等。在百科页面的中,经过网友编辑已经有了类似标签,以“铲球”为例, 就有如下标签:

  2.1.3 构建语义空间

  百科的词条标签一共有10W+,构建过程是对百科词条标签的筛选过程。通过将百科页面的所有词条的所有标签按tf排序,选择了top1W作为语义空间的候选词,通过百科的anchor表述词对这1W维的语义空间进行了过滤等,最终剩下了1800+维语义空间。在此基础上对标签词进行同义词和近义词扩展,如“北京”扩展为“帝都”、“京城”等。

2.2 对百科词条构建语义空间向量

  在这一步中,我们希望在上面建立的语义空间的基础上,能够对每个百科词条建立语义向量,这个向量是能够很好的描述这个百科词条的文本。

  首先,我们将所有的百科词条的正文内容取出来,进行分词,统计词频,对关键区域如abstract和标签部分适当增加权重,计算得到词条语义空间的tf;然后加载全局df文件,计算标签对应词条的tfidf权重,即为这个词条的语义空间。

  词条“大宝”语义空间结果如下:

2.3 检索词的语义空间向量定位

  语义固定的词条一般具有唯一的语义空间向量;如果词条语义多样,如“李娜 网球”,则根据检索词命中语义空间tag和词条热度情况进行计算,就可以识别出检索词中词条的语义空间特征。

  此外,在信息不够的情况下,比如直接检索“运动员 李娜”,在百科词条中有就有网球运动员、击剑运动员、跳水运动员三个李娜,此时我们就结合词条的热度来进行筛选,这也是符合我们日常生活的实体词判断模式。比如提到“科比”一般指nba篮球员动员科比·布莱恩特而不是成都动物园的大熊猫科比。

2.4 计算语义空间特征

  语义空间特征计算是根据从上面得到的检索词(query)的语义空间向量,再对召回doc进行特征统计,结合bm25的变形公式计算检索词和pic在语义空间的相似程度。

3.优化结果:

  在测试试验中,通过增加基于百科的扩展特征,使用LambdaMART模型进行排序,ndcg@10在原来基础上提高了0.5个百分点,在一些case上能够体现优化效果,基本符合预期。

总结展望  虽然增加该特征确实对排序效果优化起到了一定的作用,但在实际运用过程中却同样发现了很多问题。

  1.特征覆盖度较低。在实验数据上,该特征的实际存在数量只占样本的25%左右,大量的匹配特征为0,这也是使用类似one hot方式的弊端,这使得相似性doc在特征计算上存在巨大劣势。

  2.语义空间构建问题。在该特征的计算上,语义空间的覆盖能力和表达能力很大程度上决定了特征计算的优劣。虽然通过各种过滤和扩展的方式来优化该空间,但不得不说目前的空间表达依然是简陋的,且很难量化去评价语义空间的性能。

  除了上述两点问题,在具体实现上,为了节省计算量,需要将一些基本信息保留在索引中,增加了制作成本。

  针对这些问题,在实际应用中也得到一些启发,大致的努力方向是在结合百科语料的前提下,使用embedding的方式来表示tag,对doc和query也都可以映射到向量空间中,从而达到歧义消解的目的,这样就不需要具体的语义空间,同时特征覆盖也可以得到提升。

  目前设想很好,如果能够得到不错的结果会继续分享。本文中的一些问题也欢迎大家指摘,共同探讨。