k-mer向量编码

工具说明

k-mer向量编码是一种将DNA/RNA序列转换为特征向量的方法,基于长度为k的子序列(k-mer)的频率统计。 例如,对于k=3,一个序列可以被分解为许多3-mer子序列(AAA, AAC, AAG, ...等),然后计算每种3-mer出现的频率。

由于四种核苷酸可以组成4k种不同的k-mer,因此对于k=3,特征向量将有64个维度。 这种编码方式能够捕获序列的局部特征和模式,广泛应用于序列比对、分类和聚类分析。

该工具支持FASTA格式的序列文件,可以选择k值和归一化方式,快速将序列转换为k-mer频率向量。

数据上传与参数设置
拖放文件到这里或点击上传

支持的格式: FASTA, TXT

已选择文件:
文件大小限制: 10MB。每行一条序列或标准FASTA格式。
k-mer参数
k-mer的长度,影响特征向量的维度
特征向量的归一化方法
是否使用重叠的k-mer计算频率
输出设置
在输出文件中包含k-mer表头
编码结果

上传序列数据并运行编码后,结果将显示在这里