分子的布隆过滤器

摘要:超大化学库达到了10亿到100亿分子。这些库的一个挑战是高效地检查一个建议的分子是否存在。在这里,我们提出并研究了使用字符串或指纹表示检测分子是否存在的布隆过滤器。布隆过滤器足够小,可以仅用几GB的内存容纳数十亿的分子,并在亚毫秒内检查成员资格。我们发现,字符串表示的错误正例率可以低于1%,并且需要比使用指纹更少的存储空间。具有简单FNV散列函数的规范SMILES与布隆过滤器结合使用可以提供快速准确的成员资格测试和小内存需求。我们提供了一个通用的实现以及特定的过滤器,用于检测一个分子是否可以购买、是否有专利或是否是现有数据库中的天然产物。具体信息请访问https://github.com/whitead/molbloom

作者:Jorge Medina, Andrew D White

论文ID:2304.05386

分类:Chemical Physics

分类简称:physics.chem-ph

提交时间:2023-04-12

PDF 下载: 英文版 中文版pdf翻译中