万字长文读懂微信“看一看”内容理解与推荐

访客3年前黑客工具1065

编辑导读:用户通过微信看一看可以获取到更富厚的资讯,有利于冲破信息茧房。那么,微信看一看是怎么做到的呢?本文将从内容领略与推荐角度出发,举办深入的阐明,但愿对你有辅佐。

万字长文读懂微信“看一看”内容领略与推荐

一、内容领略与推荐

相信对付不少人而言微信已经成为获取资讯的主要场景。与此同时,由于微信用户群体的复杂,也吸引了大量的内容出产者在微信公家平台缔造内容,以获取用户存眷、点赞、保藏等。微信内的内容推荐产物:看一看应运而生。

团结微信用户的内容消费需求,以业务方针为导向,我们的推荐系统从基于属性召回、到协同&社交召回、再到深度模子召回举办了演进,深度模子涵盖了序列模子、双塔模子、殽杂模子、图模子,最终形成了多种召回并列、多路模子配合浸染的看一看内容召回系统。

假如把推荐系统中工程处事比作骨骼,那么推荐模子可以比作肌肉,还需要内容领略作为血液,纵向贯串整个推荐系统,从内容库、到召回、再到排序和画像,绵绵不断的晋升系统的推荐精度,本文将着重先容看一看内容领略平台及应用。

看一看接入了很是多相助方的数据作为内容源。由于接入数据源较多,各家数据从内容、质量、品类等差别性较量大。看一看平台方会对数据做“归一化”操纵,然后应用于推荐系统线上部门。

内容领略界说:对接各类外部图文等内容,对接入内容做业务级内容多维基能力略,同时举办外部标签与自有标签体系对齐,完成应用级内容打标。

反馈至下游应用方:用户需求系统,召回计策,召回模子,排序/混排等利用;同时,在业务数据转动与迭代中批改数据刻画精度与结果,慢慢贴合与晋升业务线结果。

我们将内容画像界说为两个大维度:通过内容自己来领略内容,通过行为反馈来领略内容。前者主要针对内容抽取静态属性标签。后者,通过行为积聚的后验数据、统计、或模子预估内容的常识、倾向性、投放方针以及抽象表达。

万字长文读懂微信“看一看”内容领略与推荐

内容画像界说

内容领略主要包罗文能力略、多媒体领略、内容倾向性、投放方针预估,主要应用在内容试探效率晋升,推荐分发模子的特征泛化,多场景的内容库构建,推荐相关性召回和语义排序以及封面图优选创意,旨在晋升精选、在看、看一看+焦点业务指标。同时,我们在工程同学的大力大举支持下也将内容领略技能处事化/东西化,一方面支持业务快速扩展,另一方面临外部分提供内容领略支持。

二、文本内容领略

业务中有大量的文本信息,包罗图文标题和正文,视频标题,ocr,评论等数据,需要对这些文本信息举办归一化,除了抽取分类、tag、entity,针对外部标签,我们还会做标签映射,面临画像中大量近似标签问题,我们也做了tag聚合/topic,同时我们还通过常识谱图的推理本领,增强对内容的领略深度和广度。

2.1 文天职类

文天职类是自然语言处理惩罚规模最活泼的研究偏向之一,今朝文天职类在家产界的应用场景很是普遍,文章的分类、评论信息的感情分类等均可帮助推荐系统,文天职类在推荐中对比标签与Topic具有较高的准召率与表明性,对付用户乐趣具有极大的区分度,而且作为内容画像中极具代表性的特征,往往是产物计策与自然推荐模子的重要决定依赖。

今朝已支持50+维一级主类目以及300+维二级子类目。

2.1.1 LSTM

在自然语言处理惩罚规模中,文天职类任务相较于文本抽取和摘要等任务更容易得到大量标注数据,因此在文天职类规模中深度进修相较于传统要领更容易得到较量好的结果。

前期我们回收了自然语言处理惩罚中常用的LSTM算法举办了准召率的摸底试验。但LSTM具有练习、预测环节无法并行等缺点,陪伴着推荐内容的体量增大,限制了迭代的效率。

万字长文读懂微信“看一看”内容领略与推荐

2.1.2 TextCNN

与LSTM对比,TextCNN利用了卷积 + 更大池化这两个在图像规模很是乐成的组合,以练习速度快,结果好等利益一段时间内涵家产界具有遍及的应用。

个中每个卷积核在整个句子长度上滑动,获得n个激活值,然后更大池化层在每一个卷积核输出的特征值列向量取更大值来供后级分类器作为分类的依据。但同时池化层也丢失了布局信息,因此很难去发明文本中的转折干系等巨大模式。

万字长文读懂微信“看一看”内容领略与推荐

2.1.3 fasttext

相关文章

适用于产品设计的20条心理原则(下)

适用于产品设计的20条心理原则(下)

重复产生的事件会发生一连的乐趣,等候和归属感。 Headspace实施“小组冥想”的原因:天天在牢靠的时间,所有Headspace高级用户都可以毗连并冥想。 他们说,这种集团冥想“ 在成立进程中令人欢...

《龙岭迷窟》互动剧广受关注的背后,有哪些互联网产品哲学?

《龙岭迷窟》互动剧广受关注的背后,有哪些互联网产品哲学?

年度重磅大作《龙岭迷窟》正在腾讯视频播放,然而该剧忽然画风一转,抛出一个神秘“彩蛋”《最后的搬山道人》。作为互联网产品、运营经理的我们,又该如何分析《最后的搬山道人》的产品哲学。 一、神秘彩蛋出炉...

5G和物联网的时代,2020年直播该往哪走?

5G和物联网的时代,2020年直播该往哪走?

随着5G和物联网的发展,随着硬件和软件的升级,直播将以更真实的形式存在,而直播要想“+”到各行各业中,也要抓准各行各业的需求痛点,并改变自身去融入才行。 目录: 行业现况分析 行业产品分析 行业趋...

产品在拟人化,品牌要拟人化

产品在拟人化,品牌要拟人化

对于品牌来说,不要错过与消费者接触的每一个点,那都是与他们产生联系的绝佳机会。当产品越来越同质化的时候,品牌之间的竞争,是产品之外的竞争。看谁能与消费者产生更多的联系,消费者愿意与谁产生更多的联系。...

新零售的效率战争(二)

新零售的效率战争(二)

编辑导读:如何低落运输本钱,提高运输效率,使货物更快地达到消费者手中是每个新零售企业都要思量的问题。本文是系列文章《效率战争》的第二篇,将从两个方面展开阐明,但愿对你有辅佐。 一、三级高速缓存 可仔...

区块链在房屋租赁市场中的应用研究和产品设计

区块链在房屋租赁市场中的应用研究和产品设计

中国作为一小我私家口浩瀚的国度,对付屋子的需求可谓是复杂,衡宇租赁市场发达成长。可是衡宇租赁中介行业状况频发,导致其信任流失。区块链的呈现将给房租租赁市场带来新面孔,本文将从六个方面深入阐明区块链在衡...