MIREX:MapReduce信息检索实验
摘要:使用MapReduce在机器集群上顺序扫描所有文档,快速测试新的检索方法。我们展示了一个小案例研究,使用15台低成本机器集群搜索了50亿个网页的网络爬虫结果,表明顺序扫描是一种可行的大规模信息检索实验方法,付出很少的努力。代码可供其他研究人员使用。
作者:Djoerd Hiemstra and Claudia Hauff
论文ID:1004.4489
分类:Information Retrieval
分类简称:cs.IR
提交时间:2012-05-02