MIREX:MapReduce信息检索实验

摘要:使用MapReduce在机器集群上顺序扫描所有文档,快速测试新的检索方法。我们展示了一个小案例研究,使用15台低成本机器集群搜索了50亿个网页的网络爬虫结果,表明顺序扫描是一种可行的大规模信息检索实验方法,付出很少的努力。代码可供其他研究人员使用。

作者:Djoerd Hiemstra and Claudia Hauff

论文ID:1004.4489

分类:Information Retrieval

分类简称:cs.IR

提交时间:2012-05-02

PDF 下载: 英文版 中文版pdf翻译中