zoukankan      html  css  js  c++  java
  • 使用LuceneSpatial实现集成地理位置的全文检索

      Lucene通过Spatial包提供了对基于地理位置的全文检索的支持,最典型的应用场景就是:“搜索中关村附近1公里内的火锅店,并按远近排序”。使用Lucene-Spatial添加对地理位置的支持,和之前普通文本搜索主要有两点区别:

            1. 将坐标信息转化为笛卡尔层,建立索引

    1.      private void indexLocation(Document document, JSONObject jo)  
    2.         throws Exception {  
    3.   
    4.     double longitude = jo.getDouble("longitude");  
    5.     double latitude = jo.getDouble("latitude");  
    6.   
    7.     document.add(new Field("lat", NumericUtils  
    8.             .doubleToPrefixCoded(latitude), Field.Store.YES,  
    9.             Field.Index.NOT_ANALYZED));  
    10.     document.add(new Field("lng", NumericUtils  
    11.             .doubleToPrefixCoded(longitude), Field.Store.YES,  
    12.             Field.Index.NOT_ANALYZED));  
    13.   
    14.     for (int tier = startTier; tier <= endTier; tier++) {  
    15.         ctp = new CartesianTierPlotter(tier, projector,  
    16.                 CartesianTierPlotter.DEFALT_FIELD_PREFIX);  
    17.         final double boxId = ctp.getTierBoxId(latitude, longitude);  
    18.         document.add(new Field(ctp.getTierFieldName(), NumericUtils  
    19.                 .doubleToPrefixCoded(boxId), Field.Store.YES,  
    20.                 Field.Index.NOT_ANALYZED_NO_NORMS));  
    21.     }  
    22. }  

            2. 搜索时,指定使用DistanceQueryFilter

    1. DistanceQueryBuilder dq = new DistanceQueryBuilder(latitude,  
    2.                 longitude, miles, "lat""lng",  
    3.                 CartesianTierPlotter.DEFALT_FIELD_PREFIX, true, startTier,  
    4.                 endTier);  
    5. DistanceFieldComparatorSource dsort = new DistanceFieldComparatorSource(  
    6.                 dq.getDistanceFilter());  
    7. Sort sort = new Sort(new SortField("geo_distance", dsort));  

          下面是基于Lucene3.2.0和JUnit4.8.2的完整代码。

    1. <dependencies>  
    2.     <dependency>  
    3.         <groupId>junit</groupId>  
    4.         <artifactId>junit</artifactId>  
    5.         <version>4.8.2</version>  
    6.         <type>jar</type>  
    7.         <scope>test</scope>  
    8.     </dependency>  
    9.     <dependency>  
    10.         <groupId>org.apache.lucene</groupId>  
    11.         <artifactId>lucene-core</artifactId>  
    12.         <version>3.2.0</version>  
    13.         <type>jar</type>  
    14.         <scope>compile</scope>  
    15.     </dependency>  
    16.     <dependency>  
    17.         <groupId>org.apache.lucene</groupId>  
    18.         <artifactId>lucene-spatial</artifactId>  
    19.         <version>3.2.0</version>  
    20.         <type>jar</type>  
    21.         <scope>compile</scope>  
    22.     </dependency>  
    23.     <dependency>  
    24.         <groupId>org.json</groupId>  
    25.         <artifactId>json</artifactId>  
    26.         <version>20100903</version>  
    27.         <type>jar</type>  
    28.         <scope>compile</scope>  
    29.     </dependency>  
    30. </dependencies>  


            首先准备测试用的数据:

    1. {"id":12,"title":"时尚码头美容美发热烫特价","longitude":116.3838183,"latitude":39.9629015}  
    2. {"id":17,"title":"审美个人美容美发套餐","longitude":116.386564,"latitude":39.966102}  
    3. {"id":23,"title":"海底捞吃300送300","longitude":116.38629,"latitude":39.9629573}  
    4. {"id":26,"title":"仅98元!享原价335元李老爹","longitude":116.3846175,"latitude":39.9629125}  
    5. {"id":29,"title":"都美造型烫染美发护理套餐","longitude":116.38629,"latitude":39.9629573}  
    6. {"id":30,"title":"仅售55元!原价80元的老舍茶馆相声下午场","longitude":116.0799914,"latitude":39.9655391}  
    7. {"id":33,"title":"仅售55元!原价80元的新笑声客栈早场","longitude":116.0799914,"latitude":39.9655391}  
    8. {"id":34,"title":"仅售39元(红色礼盒)!原价80元的平谷桃","longitude":116.0799914,"latitude":39.9655391}  
    9. {"id":46,"title":"仅售38元!原价180元地质礼堂白雪公主","longitude":116.0799914,"latitude":39.9655391}  
    10. {"id":49,"title":"仅99元!享原价342.7元自助餐","longitude":116.0799914,"latitude":39.9655391}  
    11. {"id":58,"title":"桑海教育暑期学生报名培训九折优惠券","longitude":116.0799914,"latitude":39.9655391}  
    12. {"id":59,"title":"全国发货:仅29元!贝玲妃超模粉红高光光","longitude":116.0799914,"latitude":39.9655391}  
    13. {"id":65,"title":"海之屿生态水族用品店抵用券","longitude":116.0799914,"latitude":39.9655391}  
    14. {"id":67,"title":"小区东门时尚烫染个人护理美发套餐","longitude":116.3799914,"latitude":39.9655391}  
    15. {"id":74,"title":"《郭德纲相声专辑》CD套装","longitude":116.0799914,"latitude":39.9655391}  

         根据上面的测试数据,编写测试用例,分别搜索坐标(116.383818339.96290153千米以内的“美发”和全部内容,分别得到的结果应该是4条和6条。

    1. import static org.junit.Assert.assertEquals;  
    2. import static org.junit.Assert.fail;  
    3.   
    4. import java.util.List;  
    5.   
    6. import org.junit.Test;  
    7.   
    8. public class LuceneSpatialTest {  
    9.       
    10.     private static LuceneSpatial spatialSearcher = new LuceneSpatial();  
    11.   
    12.     @Test  
    13.     public void testSearch() {  
    14.         try {  
    15.             long start = System.currentTimeMillis();  
    16.             List<String> results = spatialSearcher.search("美发"116.383818339.96290153.0);  
    17.             System.out.println(results.size()  
    18.                     + "个匹配结果,共耗时 "  
    19.                     + (System.currentTimeMillis() - start) + "毫秒。\n");  
    20.             assertEquals(4, results.size());  
    21.         } catch (Exception e) {  
    22.             fail("Exception occurs...");  
    23.             e.printStackTrace();  
    24.         }  
    25.     }  
    26.   
    27.     @Test  
    28.     public void testSearchWithoutKeyword() {  
    29.         try {  
    30.             long start = System.currentTimeMillis();  
    31.             List<String> results = spatialSearcher.search(null116.383818339.96290153.0);  
    32.             System.out.println( results.size()  
    33.                     + "个匹配结果,共耗时 "  
    34.                     + (System.currentTimeMillis() - start) + "毫秒.\n");  
    35.             assertEquals(6, results.size());  
    36.         } catch (Exception e) {  
    37.             fail("Exception occurs...");  
    38.             e.printStackTrace();  
    39.         }  
    40.     }  
    41. }  

             下面是LuceneSpatial类,在构造函数中初始化变量和创建索引:

    1. public class LuceneSpatial {  
    2.   
    3.     private Analyzer analyzer;  
    4.     private IndexWriter writer;  
    5.     private FSDirectory indexDirectory;  
    6.     private IndexSearcher indexSearcher;  
    7.     private IndexReader indexReader;  
    8.     private String indexPath = "c:/lucene-spatial";  
    9.   
    10.     // Spatial  
    11.     private IProjector projector;  
    12.     private CartesianTierPlotter ctp;  
    13.     public static final double RATE_MILE_TO_KM = 1.609344//英里和公里的比率  
    14.     public static final String LAT_FIELD = "lat";  
    15.     public static final String LON_FIELD = "lng";  
    16.     private static final double MAX_RANGE = 15.0// 索引支持的最大范围,单位是千米  
    17.     private static final double MIN_RANGE = 3.0;  // 索引支持的最小范围,单位是千米  
    18.     private int startTier;  
    19.     private int endTier;  
    20.   
    21.     public LuceneSpatial() {  
    22.         try {  
    23.             init();  
    24.         } catch (Exception e) {  
    25.             e.printStackTrace();  
    26.         }  
    27.     }  
    28.   
    29.     private void init() throws Exception {  
    30.         initializeSpatialOptions();  
    31.   
    32.         analyzer = new StandardAnalyzer(Version.LUCENE_32);  
    33.   
    34.         File path = new File(indexPath);  
    35.   
    36.         boolean isNeedCreateIndex = false;  
    37.   
    38.         if (path.exists() && !path.isDirectory())  
    39.             throw new Exception("Specified path is not a directory");  
    40.   
    41.         if (!path.exists()) {  
    42.             path.mkdirs();  
    43.             isNeedCreateIndex = true;  
    44.         }  
    45.   
    46.         indexDirectory = FSDirectory.open(new File(indexPath));  
    47.   
    48.         //建立索引  
    49.         if (isNeedCreateIndex) {  
    50.             IndexWriterConfig indexWriterConfig = new IndexWriterConfig(  
    51.                     Version.LUCENE_32, analyzer);  
    52.             indexWriterConfig.setOpenMode(OpenMode.CREATE_OR_APPEND);  
    53.             writer = new IndexWriter(indexDirectory, indexWriterConfig);  
    54.             buildIndex();  
    55.         }  
    56.   
    57.         indexReader = IndexReader.open(indexDirectory, true);  
    58.         indexSearcher = new IndexSearcher(indexReader);  
    59.   
    60.     }  
    61.   
    62.     @SuppressWarnings("deprecation")  
    63.     private void initializeSpatialOptions() {  
    64.         projector = new SinusoidalProjector();  
    65.         ctp = new CartesianTierPlotter(0, projector,  
    66.                 CartesianTierPlotter.DEFALT_FIELD_PREFIX);  
    67.         startTier = ctp.bestFit(MAX_RANGE / RATE_MILE_TO_KM);  
    68.         endTier = ctp.bestFit(MIN_RANGE / RATE_MILE_TO_KM);  
    69.     }  
    70.   
    71.   
    72.   
    73.     private int mile2Meter(double miles) {  
    74.         double dMeter = miles * RATE_MILE_TO_KM * 1000;  
    75.   
    76.         return (int) dMeter;  
    77.     }  
    78.   
    79.     private double km2Mile(double km) {  
    80.         return km / RATE_MILE_TO_KM;  
    81.     }  

                  创建索引的具体实现:

    1. private void buildIndex() {  
    2.     BufferedReader br = null;  
    3.     try {  
    4.         //逐行添加测试数据到索引中,测试数据文件和源文件在同一个目录下  
    5.         br = new BufferedReader(new InputStreamReader(  
    6.                 LuceneSpatial.class.getResourceAsStream("data")));  
    7.         String line = null;  
    8.         while ((line = br.readLine()) != null) {  
    9.             index(new JSONObject(line));  
    10.         }  
    11.   
    12.         writer.commit();  
    13.     } catch (Exception e) {  
    14.         e.printStackTrace();  
    15.     } finally {  
    16.         if (br != null) {  
    17.             try {  
    18.                 br.close();  
    19.             } catch (IOException e) {  
    20.                 e.printStackTrace();  
    21.             }  
    22.         }  
    23.     }  
    24. }  
    25.   
    26. private void index(JSONObject jo) throws Exception {  
    27.     Document doc = new Document();  
    28.   
    29.     doc.add(new Field("id", jo.getString("id"), Field.Store.YES,  
    30.             Field.Index.ANALYZED));  
    31.   
    32.     doc.add(new Field("title", jo.getString("title"), Field.Store.YES,  
    33.             Field.Index.ANALYZED));  
    34.   
    35.     //将位置信息添加到索引中  
    36.     indexLocation(doc, jo);  
    37.   
    38.     writer.addDocument(doc);  
    39. }  
    40.   
    41. private void indexLocation(Document document, JSONObject jo)  
    42.         throws Exception {  
    43.   
    44.     double longitude = jo.getDouble("longitude");  
    45.     double latitude = jo.getDouble("latitude");  
    46.   
    47.     document.add(new Field("lat", NumericUtils  
    48.             .doubleToPrefixCoded(latitude), Field.Store.YES,  
    49.             Field.Index.NOT_ANALYZED));  
    50.     document.add(new Field("lng", NumericUtils  
    51.             .doubleToPrefixCoded(longitude), Field.Store.YES,  
    52.             Field.Index.NOT_ANALYZED));  
    53.   
    54.     for (int tier = startTier; tier <= endTier; tier++) {  
    55.         ctp = new CartesianTierPlotter(tier, projector,  
    56.                 CartesianTierPlotter.DEFALT_FIELD_PREFIX);  
    57.         final double boxId = ctp.getTierBoxId(latitude, longitude);  
    58.         document.add(new Field(ctp.getTierFieldName(), NumericUtils  
    59.                 .doubleToPrefixCoded(boxId), Field.Store.YES,  
    60.                 Field.Index.NOT_ANALYZED_NO_NORMS));  
    61.     }  
    62. }  

              搜索的具体实现:

    1. public List<String> search(String keyword, double longitude,  
    2.         double latitude, double range) throws Exception {  
    3.     List<String> result = new ArrayList<String>();  
    4.   
    5.     double miles = km2Mile(range);  
    6.       
    7.     DistanceQueryBuilder dq = new DistanceQueryBuilder(latitude,  
    8.             longitude, miles, "lat""lng",  
    9.             CartesianTierPlotter.DEFALT_FIELD_PREFIX, true, startTier,  
    10.             endTier);  
    11.   
    12.     //按照距离排序  
    13.     DistanceFieldComparatorSource dsort = new DistanceFieldComparatorSource(  
    14.             dq.getDistanceFilter());  
    15.     Sort sort = new Sort(new SortField("geo_distance", dsort));  
    16.   
    17.     Query query = buildQuery(keyword);  
    18.   
    19.     //搜索结果  
    20.     TopDocs hits = indexSearcher.search(query, dq.getFilter(),  
    21.             Integer.MAX_VALUE, sort);  
    22.     //获得各条结果相对应的距离  
    23.     Map<Integer, Double> distances = dq.getDistanceFilter()  
    24.             .getDistances();  
    25.   
    26.     for (int i = 0; i < hits.totalHits; i++) {  
    27.         final int docID = hits.scoreDocs[i].doc;  
    28.   
    29.         final Document doc = indexSearcher.doc(docID);  
    30.   
    31.         final StringBuilder builder = new StringBuilder();  
    32.         builder.append("找到了: ")  
    33.                 .append(doc.get("title"))  
    34.                 .append(", 距离: ")  
    35.                 .append(mile2Meter(distances.get(docID)))  
    36.                 .append("米。");  
    37.         System.out.println(builder.toString());  
    38.   
    39.         result.add(builder.toString());  
    40.     }  
    41.   
    42.     return result;  
    43. }  
    44.   
    45. private Query buildQuery(String keyword) throws Exception {  
    46.     //如果没有指定关键字,则返回范围内的所有结果  
    47.     if (keyword == null || keyword.isEmpty()) {  
    48.         return new MatchAllDocsQuery();  
    49.     }  
    50.     QueryParser parser = new QueryParser(Version.LUCENE_32, "title",  
    51.             analyzer);  
    52.   
    53.     parser.setDefaultOperator(Operator.AND);  
    54.   
    55.     return parser.parse(keyword.toString());  
    56. }  
           

                 执行测试用例,可以得到下面的结果:

    1. 找到了: 时尚码头美容美发热烫特价, 距离: 0米。  
    2. 找到了: 都美造型烫染美发护理套餐, 距离: 210米。  
    3. 找到了: 审美个人美容美发套餐, 距离: 426米。  
    4. 找到了: 小区东门时尚烫染个人护理美发套餐, 距离: 439米。  
    5. 4个匹配结果,共耗时 119毫秒。  
    6.   
    7. 找到了: 时尚码头美容美发热烫特价, 距离: 0米。  
    8. 找到了: 仅98元!享原价335元李老爹, 距离: 68米。  
    9. 找到了: 海底捞吃300送300, 距离: 210米。  
    10. 找到了: 都美造型烫染美发护理套餐, 距离: 210米。  
    11. 找到了: 审美个人美容美发套餐, 距离: 426米。  
    12. 找到了: 小区东门时尚烫染个人护理美发套餐, 距离: 439米。  
    13. 6个匹配结果,共耗时 3毫秒.  

                参考文献:

                Lucene-Spatial的原理介绍:http://www.nsshutdown.com/projects/lucene/whitepaper/locallucene.htm

                GeoHash:http://en.wikipedia.org/wiki/Geohash

                两篇示例(其中大部分代码就来自于这里):

                Spatial search with Lucene
                

          Lucene Spatial Example

                

         使用 Apache Lucene 和 Solr 进行位置感知搜索

  • 相关阅读:
    最小生成树的解法
    51nod 1212 无向图最小生成树
    greater()和less()的使用
    51nod1183 编辑距离
    51nod 1181 质数中的质数(质数筛法)
    upper_bound和lower_bound的用法
    线段树最全模板
    bryce1010专题训练——线段树习题汇总
    51nod 1174 区间中最大的数
    51nod 1113 矩阵快速幂
  • 原文地址:https://www.cnblogs.com/chenying99/p/2559621.html
Copyright © 2011-2022 走看看