京东商品搜索引擎是搜索推荐部自主研发的商品搜索引擎,主要功能是为海量京东用户提供精准、快速的购物体验。虽然只有短短几年的时间,我们的搜索引擎已经经过了多次618店庆和双11的考验,目前已经能够与人们日常使用的如谷歌、百度等全文搜索引擎相比,我们的产品与其有相通之处,比如涵盖亿级别商品的海量数据、支持短时超高并发查询、又有自己的业务特点:
1、海量的数据,亿级别的商品量;
2、高并发查询,日PV过亿;
3、请求需要快速响应。
搜索已经成为我们日常不可或缺的应用,很难想象没有了Google、百度等搜索引擎,互联网会变成什么样。京东站内商品搜索对京东,就如同搜索引擎对互联网的关系。
他们的共同之处:1. 海量的数据,亿级别的商品量;2. 高并发查询,日PV过亿;3. 请求需要快速响应。这些共同点使商品搜索使用了与大搜索类似的技术架构,将系统分为:1. 离线信息处理系统;2. 索引系统;3. 搜索服务系;4.反馈和排序系统。
同时,商品搜索具有商业属性,与大搜索有一些不同之处:1. 商品数据已经结构化,但散布在商品、库存、价格、促销、仓储等多个系统;2. 召回率要求高,保证每一个正常的商品均能够被搜索到;3. 为保证用户体验,商品信息变更(比如价格、库存的变化)实时性要求高,导致更新量大,每天的更新量为千万级别;4. 较强的个性化需求,由于是一个相对垂直的搜索领域,需要满足用户的个性化搜索意图,比如用户搜索“小说”有的用户希望找言情小说有的人需要找武侠小说有的人希望找到励志小说。
另外不同的人消费能力、性别、对配送时间的忍耐程度、对促销的偏好程度以及对属性比如“风格”、“材质”等偏好不同。以上这些需要有比较完善的用户画像系统来提供支持。
总体架构图
搜索服务集群:由很多个merger节点组成的集群。接收到查询query后,将请求通过qp触发有策略地下发到在线检索服务集群和其他服务集群,并对各个服务的返回结果进行合并排序,然后调用detail server包装结果,最终返回给用户。
query processor server:搜索query意图识别服务。
在线检索服务集群:由很多个searcher节点组成,每个searcher列对应一个小分片索引(包含全量数据和实时增量数据)。
detail server:搜索结果展示服务。
索引生产端:包含全量和增量数据生产,为在线检索服务集群提供全量索引和实时索引数据。
离线信息处理系统
由于商品数据分布在不同的异构数据库当中有KV有关系型数据库,需要将这些数据抽取到京东搜索数据平台中,这分为全量抽取和实时抽取。
对于全量索引,由于商品数据散布于多个系统的库表中,为了便于索引处理,对多个系统的数据在商品维度进行合并,生成商品宽表。然后在数据平台上,使用MapReduce对商品数据进行清洗,之后进行离线业务逻辑处理,最终生成一份全量待索引数据。
对于实时索引,为了保证数据的实时性,实时调用各商品信息接口获取实时数据,将数据合并后采用与全量索引类似的 *** 处理数据,生成增量待索引数据。
百度魏则西事件是什么(魏则西事件的经过) 不知道大家是否还记得16年的魏则西事件,魏则西通过百度搜索引擎这个信息中介,因为相信了天花乱坠的医疗广告,找到武警北京总队第二医院最终不幸离开人世。一个花季...
“结伴游少林寺黄粱是好梦-【施怜云】” 海淀区高档模特预约:8836米/天 海淀区个人高档伴游:4377米/天苏州市上门女学妹预约网络平台花费在哪里,李采潭商务接待模特私拍宁波市兼职模特qq群兼职模特...
怎么查对方的微信聊天记录? 查出对方微信聊天记录的方法有:使用第三方软件、通过云端备份获取聊天记录、通过微信电脑版获取聊天记录、通过微信聊天记录恢复工具获取聊天记录、直接查看对方的手机微信。具体只需打...
昨天我还说了,近期搜免费赚钱来的新人对照多。很明显,这些人是来想赚钱的,要留住他们,就得推一些简朴上手的流动,变现周期太长一定不行,操作贫苦不行,验证过多不行,思来想去,也就这种3毛秒到的项目最适合了...
青团社是一个大学生兼职平台,以前做过一些流动,我也早已不是新人了。不外这次新老用户,均可介入,注册为会员后,绑定银行卡,支付0.01米即可领取2米现金,然后直接提现,亲测秒到银行卡。不外只支持部门银行...
一、骗局黑客接单流程 1、流程接单黑客使Unix操作系统看起来像今天。骗局新手入门书籍3滴滴快车司机接到订单技巧,以确定商业区的繁忙地区,每天都有大量的名单。XXX骗局中国鄢奉天找黑客流程一个恶意的人...