基于分割的字符串相似性查找算法
TP301; 字符串相似性查找问题主要包括两方面,基于阈值的字符串相似性查找以及top-k字符串相似性查找.目前处理基于阈值的字符串相似性查找问题的算法多是基于过滤-验证框架的.基于该框架提出了PB-search算法,算法在过滤阶段首次加入One-Off条件过滤掉大量的无效匹配,并在验证阶段提出了一种新的验证算法MultiThreshold算法,大大减少了计算编辑距离的次数.在top-k字符串相似性查找问题方面,提出了两种基于分割思想的算法,Pb-topk算法和PbCount-topk算法.其中,Pb-topk算法采用差值递增的策略,减少了需处理的字符串数目;PbCount-topk算法采用匹...
Saved in:
Published in | 计算机科学与探索 Vol. 12; no. 1; pp. 120 - 133 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Chinese |
Published |
安徽大学 计算机科学与技术学院,合肥,230601
2018
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Be the first to leave a comment!