您的位置 首页 > 腾讯云社区

Motif中的PWM矩阵---生信编程日常

PWM矩阵是表示motif的一种方式,全称是position-specific weight matrix (PSWM) 或者是position-specific scoring matrix (PSSM)。比如CTCF的motif序列为(来自于JASPAR数据库):

要构建出PWM矩阵,首先要得到position frequency matrix (PFM),即在每个位置的四种核苷酸出现的次数。比如说CTCF的PFM序列为 (图中为JASPAR中的.jaspar文件):

也就是在第一个位置A出现了87次,C出现了291次,G出现了76次,T出现了459次。将每个位置的频数转换为频率 (某核苷酸的出现数量/这个位置四种核苷酸的总数量),可以得到position probability matrix (PPM) (图中行列互换 用的是JASPAR中的.meme文件):

最后通过以下公式将PPM转换为PWM:

其中M是指的这个位点的probability,b是指的background (上图的background为0.25)。上图中CTCF的PPM转化为PWM为:

motif可以由meme等软件找到,也可以从JASPAR, CISBP, HOCOMOCO等数据库中下载得到,meme的官方网站(http://meme-suite.org/tools/meme)提供了一系列的处理软件和现有的motif PWMs。

得到motif PWM后,可以用Fimo或其他软件在基因组中扫描得到序列,其基本用法为:

fimo [options] <motif file> <sequence file>

提供motif的PWM文件和参考基因组即可。

---来自腾讯云社区的---生信编程日常

关于作者: 瞎采新闻

这里可以显示个人介绍!这里可以显示个人介绍!

热门文章

留言与评论(共有 0 条评论)
   
验证码: