### 在Tomcat环境下搭建Solr 3.5与MMSEG4J搜索引擎 #### 一、配置Solr环境 1. **下载Solr** - 访问官方下载页面:[http://www.apache.org/dyn/closer.cgi/lucene/solr/](http://www.apache.org/dyn/closer.cgi/lucene/solr/) - 选择版本3.5并将其解压到D盘,例如路径为`D:/solr/apache-solr-3.5.0` 2. **修改Tomcat配置文件(server.xml)** - 打开`Tomcat/conf/server.xml`文件 - 在Connector元素中加入`URIEncoding="UTF-8"`参数,以支持中文检索。例如: ```xml <Connector connectionTimeout="20000" port="8080" protocol="HTTP/1.1" redirectPort="8443" URIEncoding="UTF-8" /> ``` - 这样做可以确保在进行中文检索时不会出现乱码问题。 3. **配置Solr环境** - 在`Tomcat/conf/Catalina/localhost`目录下创建一个名为`solr.xml`的文件,内容如下: ```xml <Context docBase="D:/solr/apache-solr-3.5.0/dist/apache-solr-3.5.0.war" debug="0" crossContext="true"> <Environment name="solr/home" type="java.lang.String" value="D:/solr/apache-solr-3.5.0/example/solr" override="true" /> </Context> ``` - 上述配置指定了Solr应用的基本位置以及其运行时的home目录。 4. **启动Tomcat验证Solr安装** - 启动Tomcat服务器,并访问`http://localhost:8080/solr/` - 如果看到Solr的欢迎界面,则表示安装成功。 #### 二、中文分词配置(MMSEG4J) 1. **下载MMSEG4J分词器** - 从官网下载最新版本:[http://code.google.com/p/mmseg4j/](http://code.google.com/p/mmseg4j/) - 版本号为1.8.5,下载后解压缩。 2. **下载词库** - 下载词库:[http://code.google.com/p/mmseg4j/downloads/detail?name=data.zip](http://code.google.com/p/mmseg4j/downloads/detail?name=data.zip) - 解压缩词库文件。 3. **安装MMSEG4J到Tomcat** - 将解压后的`mmseg4j-all-1.8.5.jar`文件复制到`Tomcat/webapps/solr/WEB-INF/lib`目录下。 4. **配置词库** - 在`D:/solr/apache-solr-3.5.0/example/solr`目录下创建一个名为`dic`的文件夹。 - 将解压后的`data`目录中的`words.dic`文件复制到`D:/solr/apache-solr-3.5.0/example/solr/dic`目录下。 5. **配置Schema文件** - 打开`D:/solr/apache-solr-3.5.0/example/solr/conf/schema.xml`文件。 - 在`<types>`、`<fields>`部分添加以下配置,以便让MMSEG4J分词器生效: ```xml <!-- MMSEG4J field types --> <fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="D:/solr/apache-solr-3.5.0/example/solr/dic"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldType> <fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="D:/solr/apache-solr-3.5.0/example/solr/dic"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldType> <fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="D:/solr/apache-solr-3.5.0/example/solr/dic"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldType> ``` - `dicPath`属性用于指定词典文件的位置,确保路径正确无误。 - 上述三种分词模式(`complex`, `max-word`, `simple`)可以根据实际需求选择使用。 通过以上步骤,我们已经完成了在Tomcat环境下搭建Solr 3.5及MMSEG4J中文分词器的基础配置工作。这些配置使得Solr能够更好地处理中文文档,并提供更准确的中文检索结果。此外,通过MMSEG4J提供的不同分词模式,可以根据具体应用场景选择最适合的分词策略,从而进一步提升搜索效果。
剩余8页未读,继续阅读
- 捡着了2013-10-24不错,很详细,但是可能环境不同的问题,没有预期的结果
- 程序员20182013-05-17详细是很详细,可是我按步骤做,在做分词测试的时候,没有出来像文档中说的效果。。。
- 粉丝: 23
- 资源: 15
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助