2007年3月3日星期六

信息检索工具库

年前接到一个情报搜索的项目,由于客户需要两周内出Demo试用,于是和标哥利用Rss搜集资料应付完回家过年。

年后回来的任务就是切切实实的做个信息搜集、分析和搜索的核心模块来替换掉原来糊弄的Rss搜集模块。项目需求也不是很急,于是可以静下心来找找相关内容学习学习。况也没有过做这方面的经验,扫盲是必须的- -

先打算看看信息检索方面的dd。站在dev的立场上找了找信息检索工具库:lucene, egothor, Xapian...恩,就拿lucene开看好了,原因么有三:一是写java多了,c++丢得差不多了,于是先把Xapian给T了;二是egothor和lucene虽然都很不错,但是后者以前好歹是看过点的,也知道Nutch,上手比较快;三大概就是lucene的资料比较好找吧。。。。。。

另外提下MG4J,这个提供建立java信息检索库所需要的底层支持。主要是对收集到的数据进行分析的dd。觉得也许项目以后要对爬到的网页数据进行一定的自定义分析操作,再结合信息检索工具提查找服务。等补完lucene再来看看这个dd吧,网址列在这里备忘@@... http://mg4j.dsi.unimi.it/

没有评论: