引言
鉴定及购买新的小分子以进行生物学实验可以帮助配体发现,但基于廉价的按需定制化合物库的可购买化学空间已经持续增长到数百亿,简单的化学空间搜索都成为一个重大挑战。ZINC是一个汇总了化合物的销售及其他注释信息的公开数据库,其数据量从年的不到万增长到现在近20亿。面对如此庞大的数据量,传统的化学空间搜索及分子表示方法逐渐变得笨拙,迫切需要新的搜索算法来保持较快的响应速度和满足不同的搜索需求。
背景
全世界库存化合物每年仅增长百分之几,而按需定制库则成倍增长,数年之后,市售化合物的数量将达到,化合物多样性也将得到极大扩展,迫切需要新的方法来搜索这个化学空间。传统搜索方法如基于ECFP4Tanimoto对10亿分子进行40%相似度检索需要3分钟以上,而3分钟以上的全分子相似性搜索往往会因非实时搜索而直接失去研究人员的