基于非固定长度散列表的无监督式海明距离搜索

【摘要】 为提高大规模数据的检索效率,提出一种无监督式的海明距离搜索方法。首先,为了提高散列表处理效率,通过放宽尺寸约束得到具有可变长度散列键的多个散列表;然后,基于多散列表检索概率的理论分析,通过一个搜索算法,得到适合的散列键长度(HKL)的集合,并由此得到检索机制。实验采用了SIFT、ANN和Flickr三个大规模数据集,利用最小召回率和检索阈值验证方法的性能。实验结果表明:所提方法可高效处理大规模数据集,实现了1~3个数量级的加速度。关键词:数据检索;大规模数据集;多散列表;海明空间;散列键长度