DataKnocker

DataKnocker

learn bigdata step by step

    • 首页
    • 归档
    • 分类
    • 标签
    • 关于我

solr空间索引原理及源码分析

note:图片请右键 在新页签打开,可以放大看 solr的4.0-4.1版本使用GeohashField.createSpatialQuery(), 未使用IntersectsPrefixTreeFilter(继承于AbstractVisitingPrefixTreeFilter

2014-04-11

MapReduce在相似度计算中的应用及优化

需求:计算用户的相似度,有用户列表U和特征列表F以及用户和特征的关系。 根据 ∩ 的交集数来判断U1和U2的相似度。解决方法: 一、用户维度的Join最暴力低效的方法,因为用户量一般很大,所以join效率极低。一般不考虑。 二、特征维度将用户对特征的矩阵转成特征对用户的矩阵。 1

2014-04-11
Prev12

Categories

  • Spark1
  • hadoop1
  • solr1
  • spark8
  • spark sql1

Tags

  • spark9
  • RDD2
  • shuffle2
  • standalone1
  • checkpoint1
  • hadoop1
  • mapreduce1
  • 相似度计算1
  • idea1
  • debug1
  • spark sql1
  • hive1
  • solr1
  • 空间索引1
  • reduce1
  • AppendOnlyMap1
  • stage1
  • keyvalue1
RSS

Weibo

进击的菜鸟
专注于大数据框架、机器学习,会点前端、后台开发

Powered by hexo and Theme by Jacman © 2018 wangzejie