在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称、品类、 *** 、地址、坐标等)。如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习 *** ,自动标注缺失品类的POI数据。例如,门店名称为“好再来牛肉拉面馆”的POI将自动标注“小吃”品类。
机器学习解决问题的一般过程:
本文将按照:1)特征表示;2)特征选择;3)基于Naive Bayes分类模型;4)分类预测,四个部分顺序展开。
特征表示
我们需要先将实际问题转换成计算机可识别的形式。对于POI而言,反应出POI品类的一个重要特征是POI门店名称,那么问题转换成了根据POI门店名称判别POI品类。POI名称字段属于文本特征,传统的文本表示 *** 是基于向量空间模型(V *** 模型)[1]:
空间向量模型需要一个“字典”,这个字典可以在样本中产生,也可以从外部导入。上图中的字典就是[好, 宾馆, 海底, 拉面, 冰雪, ....... ,馆]。我们对已校准的POI,先利用Lucene的中文分词工具SmartCn[2]对POI名称做预分词处理,提取特征词,作为原始粗糙字典 *** 。
有了字典后便可以量化地表示出某个文本。先定义一个与字典长度相同的向量,向量中的每个位置对应字典中的相应位置的单词。然后遍历这个文本,对应文本中的出现某个单词,在向量中的对应位置,填入“某个值”(即特征词的权重,包括BOOL权重,词频权重,TFIDF权重)。考虑到一般的POI名称都属于短文本,本文采用BOOL权重。
在产生粗糙字典 *** 时,我们还统计了校准POI中,每个品类(type_id),以及特征词(term)在品类(type_id)出现的次数(文档频率)。分别写入到表category_frequency和term_category_frequency,表的部分结果如下:
季羨林生平簡介讀書啊,我信赖但有朗朗書聲出破廬,遲早有一日有萬鯉躍龍門之奇象。 季羨林(1911年8月6日—2009年7月11日),中國山東省聊城市臨清人,字希逋,又字齊奘。國際著名東方學大師...
新华社布加勒斯特11月22日电(记者林惠芬)罗马尼亚官方22日公布的数据显示,该国过去24小时新增新冠死亡病例131例,累计死亡病例超过1万例,达10047例。 数据显示,罗马尼亚过去24小...
据新华社福州4月24日报道,“在吗?能不能借500?”河南许昌一男子突然收到微信好友发来的借钱信息,还用语音说了声“是我”,听到是好友本人,该男子马上把钱转了过去。然而,该男子向对方再次核实时,朋友却...
虽然现在的金融行业遭受着前所未有的危机,但是大的平台的影响却不是很严重,今年美团也推出了自己家的信用产品,叫做美团月付,可以在美团商城进行先消费,后面在还款,和我们比较常用的花呗一样,不仅美团,微信也...
前段时间硕美科推出了自家的G936指挥官游戏耳机,轻便舒适和声卡功能上都有相当出色的表现,获得了很多玩家的喜爱。近期硕美科又推出了G936N,优化配置和功能,增加了3.5mm接口支持,因此也去除了降噪...
本文导读目录: 1、黑客如何攻击安卓系统? 2、怎么攻击手机app 3、黑客能把手机屏幕软件盗走吗? 4、苹果手机被黑客攻击了怎么办? 5、你好老师!黑客攻击恶意篡改手机系统,黑客在手...