独热编码 (One-Hot Encoding)

工具说明

独热编码(One-Hot Encoding)是一种将序列数据转换为机器学习模型可用格式的方法。它将每个核苷酸(A、T、G、C)表示为一个四维向量, 其中只有一个维度为1,其余维度为0。例如:

  • A 表示为 [1, 0, 0, 0]
  • T 表示为 [0, 1, 0, 0]
  • G 表示为 [0, 0, 1, 0]
  • C 表示为 [0, 0, 0, 1]

这种编码方式保留了序列的位置信息,是深度学习模型处理DNA/RNA序列数据的常用输入格式。 该工具支持FASTA格式的序列文件,可以快速将多条序列同时转换为独热编码矩阵。

数据上传与参数设置
拖放文件到这里或点击上传

支持的格式: FASTA, TXT

已选择文件:
文件大小限制: 10MB。每行一条序列或标准FASTA格式。
编码参数
超过此长度的序列将被截断,不足的将被填充
序列长度不足时的填充位置
填充使用的字符
输出设置
在输出文件中包含序列标识符
编码结果

上传序列数据并运行编码后,结果将显示在这里