还以为网上的solr最基础的东西应该很多,结果发现je这边都是一些部署的资料。到没用人给最基本的查询语法。在做查询时十分吃力,自己整理了几个例子来分享下,希望别人不要再走弯路。
首先说下,查询都是基于solrj。如果不清楚solrj。可以当做是对solr查询语句的一个api封装。
solr的查询其实都是向select这个servlet穿字符型的参数,例如:
- http://192.168.1.107:8983/solr/collection1/select?q=*%3A*&wt=xml&indent=true
查询的字段格式一般是: 字段名: 字段值
说明号会被urlcoding,变成“%3A。”
我没有看过solrj的源码。但是应该是将对select这个servlet的请求通过httpclient的方式的一种实现。
进入正题:
首先需要实例化 SolrQuery 对象,用来做要查询的参数集合。
- SolrQuery q = new SolrQuery();
- q.setQuery("TITLE:中国人");
1、最基本的字段查询:
- TITLE:中国人
即查询 字段是TITLE 值包含“中国人”的所有结果集。
solr在查询时,会对传入的值分词, 中国人有可能会被分成“中国”,“国人”,“中国人”。
包含着三个短语的语句都会被搜到。强制要求solr不分词,可以给短语加上双引号
- TITLE:"中国人"
这样就只返回值包含“中国人”这个词语的。中国和 国人就不会返回。
2、多字段或关系 OR
- TITLE:("中国人" AND "美国人" AND "英国人")
3.多字段不包含的关系 NOT
这个语法就是我吃苦的地方,之前已经当多值or那样去查,结果不是,要写成
- TITLE:(* NOT "上网费用高" NOT "宽带收费不合理" )
4.查询一个范围 BETWEEN
- NUM:[-90 TO 360 ] OR CREATED_AT:[" + date1 + " TO " + date2 + "]
适用于数字和日期类型 .
日期转换上, date 要用
- String date1 = FastDateFormat.getInstance(
- "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'").format(
- c.getStartTime().getTime())
来转换,而不是惯用的 yyyy-MM-dd HH:mm:ss
配置好solr后,可以通过web管理界面进行管理和查询。web界面基本列出了大多数查询参数,可以通过这个学习lucene的查询语法。
solr的查询解析是通过queryParser来配置的(solrconfig.xml),一般我们用默认的即可。其各参数含义与用法简单解释如下:
q:查询输入,必须。可以使用运算符
fq:过滤查询。可以使用运算符
sort:排序的字段,格式为field score,多个字段之间用逗号隔开,比如sum(x_f, y_f) desc, price asc,默认是score desc
start:从哪一行开始
rows:获取多少行
fl:查询要输出的字段,字段之间用逗号隔开,比如title,price,seller,星号代表所有,默认就是星号。
df:定义查询时默认的查询field。
wt:返回的数据类型,可以是JSON、XML、python、ruby、php、csv等格式。
indent:true/false,返回的XML格式是否需要缩进(格式化展示),默认为false
debugQuery:调试查询,会输出查询过程的一些参数。
高亮相关:
高亮是通过searchComponent来配置的,在solrconfig.xml中配置名为highlight的searchComponent即可,默认的实现是solr.HighlightComponent。
hl:true/false,是否高亮显示
hl.fl:高亮显示的字段
hl.example.pre:高亮显示的前缀
hl.exapmle.post:高亮显示的后缀
hl.requireFieldMatch:是否只在查询指定的field(只有当hl.usePhraseHighlighter为true时才生效)高亮显示,默认是在所有field都高亮
hl.usePhraseHighlighter:true/false,使用SpanScorer高亮查询短语
hl.highlightMultiTerm:true/false,如果SpanScorer被启用,这个参数针对前缀/模糊/范围/通配符等开启高亮显示
facet:true/false
facet是solr的高级搜索功能之一,可以给用户提供更友好的搜索体验(类似于面包屑导航的功能)。在搜索关键字的同时,能够按照 facet指定的字段进行分组统计。比如商品的分类、商品的规格等。facet的字段必须被索引,无须分词(分词意义不大),也无须存储。详细可参考《Solr的facet查询》
facet的查询结果返回字段为facet_counts,与responseHeader、response同级。
facet.query:类似于filter的语法,对任意字段进行筛选
facet.field:需要进行facet的字段
facet.prefix:对facet字段的前缀过滤
facet.sort:true/false,对facet以哪种顺序返回,true为按照count值从大到小排序,默认为true
spellcheck:拼写检查
spellcheck是通过component的方式实现的,你可以在solrconfig.xml文件中配置searchComponent来完成拼写检查的功能,默认的实现是solr.SpellCheckComponent,具体的配置参数和实现原理可以看这里《spellCheckComponent》
spatial:空间搜索
spatial是专门针对空间数据进行搜索的,空间位置的索引和存储fieldType是LatLonType或者SpatialRecursivePrefixTreeFieldType,通过使用空间搜索,你可以对点、面等数据建立索引,以圆形、方形或其他形状进行范围搜索,以及对搜索结果按距离排序等等,具体的配置参数和实现原理可以看这里《SpatialSearch》
检索运算符:
冒号":": field:value结构查询,表示字段field值为value的查询。
通配符:?(任意一个字符) *(任意字符)
布尔操作:AND(并且,同&&) OR(或者,同||) +(包含) -(不包含) NOT(同!),注意AND、OR、NOT均为大写
范围:[A TO B](从A到B之间,包含A和B,注意TO大写),{A TO B}(从A到B之间,不包含A和B,注意TO大写)
子运算:()括号跟数学表达式上的差不多,比如:(瓜 OR 傻) AND 男人
模糊检索:~表示模糊检索,比如:roam~将找到形如foam和roams的单词;roam~0.8,检索返回相似度在0.8以上的记录
控制相关度:^表示相关度,如检索jakarta apache,同时希望让”jakarta”的相关度更加好,那么在其后加上”^”符号和增量值,即jakarta^4 apache