融合過(guò)濾和相似度計(jì)算的高錯(cuò)誤率基因組數(shù)據(jù)敏感序列識(shí)別
小型微型計(jì)算機(jī)系統(tǒng)
頁(yè)數(shù): 9 2022-05-13
摘要: 為解決現(xiàn)有算法難以有效識(shí)別高錯(cuò)誤率測(cè)序數(shù)據(jù)中敏感序列的問(wèn)題,提出一種融合過(guò)濾和相似度計(jì)算的敏感序列識(shí)別算法.首先,分割待識(shí)別序列為多條短序列,通過(guò)構(gòu)建雙布隆過(guò)濾器,對(duì)短序列進(jìn)行動(dòng)態(tài)過(guò)濾去重,以避免重復(fù)運(yùn)算;然后,對(duì)短序列局部片段進(jìn)行k-mer編碼,改進(jìn)優(yōu)化短序列局部片段相似性度量的方法,以準(zhǔn)確識(shí)別短串聯(lián)重復(fù)序列;其次,對(duì)短序列進(jìn)行k-mer編碼并與GWAS Catalog數(shù)據(jù)庫(kù)...