1、如果应用程序架构由多个LUCENE索引组成,则可以通过MutltiSearcher把所有索引搜索。也可以通过ParallelMultiSearcher进行多线程搜索。在单核的情况下,MultiSearcher比ParallelMultiSearcher性能更高。
2、MultiSearcher
搜索2个搜索,把动物按首字母在字母表中的位置分成2部分,一部分一个索引
public class MultisearcherTest extends TestCase{
private Indexsearcher[] searchers;
public void setUp() throws Exception{
String[] animals={"aardvark","beaver","coati","dog","lemur",
"python","vicuna","zebra"};
Ananlyzer analyzer=ne WhitespaceAnalyzer();
Directory aTomDirectory =new RAMDirectory();
Directory nTOzDirectory=new RAMDirectory();
//建立2个索引
IndexWriter aTomwriter=new IndexWriter(atomDirectory,analyzer,true);
IndexWriter nTozwriter=new IndexWriter(aTozDirectory,analyzer,true);
for (int i=0;i<anaimals.length;i+){
Document doc=new Document();
String animal=animals[i];
doc.add(Filed.Keyword("animal",animal));
if (animal.compareToIgnoreCase("n")<0){
aTomWriter.addDocument(doc);//前半部分索引a-m
}else{
nTozWriter.addDocument(doc);//后半部分索引 n-z
}
}
aTomwriter.close();
nTozwriter.close();
searchers=newIndexsearcher[2];
searcher[0]=new IndexSearcher(aTOmDirectory);
searcher[1]=new IndexSearhcer(nTOzDirectory);
}
public void testMulti() throws Exception{
MultiSearcher searcher=new MultiSearcher(searchers);
//对2个索引进行搜索
Query query=new RangeQuery(new Term("animal","h"),new Term("animal","t"),true);
Hits hits= searcher.search(query);
}
}
3、ParallelMultiSearcher多线程搜索
搜索操作为每个Searchable分配一个线程,直到所有线程都完成其搜索。基本搜索和进行过滤的搜索是并行执行的。
lucene通过RMI为用户提供搜索远程索引功能。
RMI服务器绑定了一个RemoteSearchable的实例,它和IndexSearcher、MultiSearch一样,实现Searchable接口
1)把文档按26个字母切分为26个索引。服务器端向客户端提供2个RMI调用
public class SearchServer{
private static final String ALPHABET="abcdefghijklmnopqrstuvwxyz";
public static void main(String[] args) throws Exceptino{
if (args.length!=1){
System.err.printLn("Usage:Searchserver<basedir>");
System.exit(-1);
}
String basedir=args[0];
//为每个索引建立一个IndexSearcher对象
Searchable[] searchables=new Searchable[ALPHABET.length()];
for (int i=0;i<ALPHABET.length;i++){
searchables[]=new IndexSearcher(new File(basedir,""+ALPHABET.charAt(i)).getAbsolutePath());
}
//注册可供客户端调用服务的端口
LocateRegistry.createRegistry(1099);
//使用 multiSearcher完成所有索引的搜索
Searcher multiSearcher=new MultiSearcher(searchables);
RemoteSearchable multiImpl=new RemoteSearchables(multiSearcher);
Naming.rebind("//localhost/LIA_Multi",multiImpl);//注册RMI方法
//使用 parallelSearcher 完成搜索
Searcher parallelSearcher=new ParallelMultiSearcher(searchables);
RemoteSearchable parallelImpl=new RemoteSearchables(parallelSearcher);
Naming.rebind("//localhost/LIA_Parallel",parallelImpl);//注册RMI方法
System.out.println("server started");
}
}
2)客户端
public class SearchClient{
private static HashMap searchercache=new HashMap();
public static void main(String[] args) throws Exception{
if (args.length!=1){
System.err.println("Usage:SearchClient <query>");
System.exit(-1);
}
String word=args[0];
for (int i=0;i<5;i++){
search("LIA_Multi",word);//调用服务器的multi方法搜索
search("LIA_Multi",word);//调用服务器的multi方法搜索
}
}
private static void search(String name,String word) throws Exception{
TermQuery query=new TermQuery(new Term("word",word));
MultiSearcher searcher=(MultiSearcher) searcherCache.get(name);//检查缓存中是否有该搜索器,该搜索器是带缓存功能的
if (searcher==null){//没有该搜索,则生成新的搜索
searcher=new MultiSearcher(new Searchable[]{lookupRemote(name)});
searcherCache.put(name,searcher);
}
//统计时间
long begin=new Date().getTime();
Hits hits=searcher.search(query);
long end=new Date().getTime()
...........
...........
//不要关闭searcher对象
}
private static Searchable lookupRemote(String name) throws Exception{
return (Searchable) Naming.lookup("//localhost/"+name);
}
http://blog.sina.com.cn/s/blog_3dc2673e0100c3ok.html
}
相关推荐
我试图在多线程设置中从同一索引中提供建议,但是由于这种设计,我只能为每个进程的每个索引创建一个建议程序。 我已经创建了这个GitHub项目来演示该错误。 要运行演示: ./gradlew buildjava -jar build/libs/...
4.12. ParalellMultiSearcher类---多线程搜索 14 5. 排序 14 5.1. Sort类 14 5.2. SortField类 14 5.3. 指定排序的法则 15 5.3.1. 按照文档的得分降序排序 15 5.3.2. 按文档的内部ID升序排序 15 5.3.3. 按照一个...
不允许使用多个IndexWriter或IndexReader实例同时对一个索引进行修改 IndexWriter和IndexReader是线程安全的,可以被多线程共享 全文索引/搜索 中文分词器 最大匹配法(机械分词):按照一定的策略将待分析的汉字串...
另外就是可以用多线程来分别对不同的内容进行索引并保存到RAMDirectory里,然后再把所有的内存索引合并到FSDirectory里,甚至可以让多台服务器分别处理内容的各个部分,然后把索引结果放到一个队列里,再有一台机器...
Lucene 搜素 分词 ... 希望大家共同探讨.QQ群: 12966179 王小波 2008/12/10 ...本章还涉及Lucene索引的内部结构,用多线程和多进程访问Lucene时的重点和难点,以及防止并发索引修改的锁机制这些内容。
UindexWeb搜索是一个完整的蜘蛛程序,他的内部使用多线程, 多个自定义组件来实现搜索,在打开工程前,需要先安装如下自定 义组件: Uindex.pas (用来分析Html网页的组件) UindexStatusBar.pas (用来在状态栏画图片) ...
10ms),非常适合命令行工具BM25评分(与Lucene相同)自然查询语言(例如(michael AND jackson) OR "king of pop" )短语查询搜索(例如"michael jackson" )增量索引多线程索引(在我的桌面上索引英文维基百科需要 ...
提出构建数字图书馆主题搜索引擎的总体...依赖数字图书馆各方面特点,提出支持多线程主题爬行器的设计,并提出一种新颖的URL主题相关性剪切算法EPR,为实现数字图书馆主题搜索引擎原型提供重要的设计。基于开源Lucene平
小旋风是一款集多任务、多线程智能网络爬虫、基于xml / xpath的路径规则的数据抽取系统、无缝集成lucene.net2.3全文索引系统,高性能中文分词组件、多数据库支持的综合垂直搜索引擎平台。 它帮您快速搭建任何一个您...
Hubble.net 设计了较为完善的并发控制程序,数据的增删改查可以多线程同时并发进行,没有任何冲突。Hubble.net 还进行了缓存和内存管理设计,可以帮助用户最大限度的提高查询的效率。Hubble.net 力争在未来的几年内...
这些文件包含多线程搜寻器的实现。 具体来说,scraper.py是从Goodreads网站抓取网页的实现。 crawler.py实现了搜寻器线程,线程安全的url队列和相关内容。 在SetQueue.py中实现了具有用于url重复数据删除的内置集的...
HubbleDotNet 是一个基于.net framework 的开源免费的全文搜索数据库组件。开源协议是 Apache 2.0。HubbleDotNet 提供 了基于SQL 的全文检索接口,使用者只需会操作 SQL,就可以很快学会使用 HubbleDotNet 进行全文...
MyBatchFramework 是一个开源的轻量级的用以创建可靠的易管理的批量作业的Java包,主要特点是多线程、调度、JMX管理和批量执行报表,执行历史等。 SIP协议包 jSIP.tar jSIP这个Java包目标是用Java实现SIP(SIP:...
MyBatchFramework 是一个开源的轻量级的用以创建可靠的易管理的批量作业的Java包,主要特点是多线程、调度、JMX管理和批量执行报表,执行历史等。 SIP协议包 jSIP.tar jSIP这个Java包目标是用Java实现SIP(SIP:...
这个项目研究了1年,先是网络爬虫和网页解析,研究了多线程抓取技术,优先队列实现,怎样对html文档一个标签一个标签的解析,生成dom树. 然后是网页去噪,网页自动分类。读了大量论文,研究了怎样把文档用向量的形式进行...
基于Lucene实现了一个海量数据库全文检索的原型。把关系数据库引入了本系统,可针对...采用多线程,通过动态机制来实现不同类型源数据库中记录的抽取、转换、建立索引;提供定时自动更新索引的功能;提供多种检索方式。
MyBatchFramework 是一个开源的轻量级的用以创建可靠的易管理的批量作业的Java包,主要特点是多线程、调度、JMX管理和批量执行报表,执行历史等。 SIP协议包 jSIP.tar jSIP这个Java包目标是用Java实现SIP(SIP:...
MyBatchFramework 是一个开源的轻量级的用以创建可靠的易管理的批量作业的Java包,主要特点是多线程、调度、JMX管理和批量执行报表,执行历史等。 SIP协议包 jSIP.tar jSIP这个Java包目标是用Java实现SIP(SIP:...
MyBatchFramework 是一个开源的轻量级的用以创建可靠的易管理的批量作业的Java包,主要特点是多线程、调度、JMX管理和批量执行报表,执行历史等。 SIP协议包 jSIP.tar jSIP这个Java包目标是用Java实现SIP(SIP:...
MyBatchFramework 是一个开源的轻量级的用以创建可靠的易管理的批量作业的Java包,主要特点是多线程、调度、JMX管理和批量执行报表,执行历史等。 SIP协议包 jSIP.tar jSIP这个Java包目标是用Java实现SIP(SIP:...