基因组从头测序(de novo sequencing),主要针对基因组序列未知或参考基因组组装不理想的物种,构建不同类型的基因组DNA文库,并进行序列测定。然后使用生物信息学方法对序列进行拼接、组装和注释,从而绘制该物种完整的基因组序列信息。简单基因组:重复序列低于50%,且二倍体杂合度低于0.5%的物种。复杂基因组:重复序列高于50%,或二倍体杂合度高于0.5%,或其他多倍体物种。
分析内容 | ||
下机数据统计 数据质控 高质量数据获取 Survey分析 基因组拼接 基因组拼接效果评价 基因组拼装完整性与连续性评估 重复序列分析 非编码 RNA 预测 蛋白编码基因预测 蛋白编码基因的序列比对 蛋白编码基因的 GO 注释 蛋白编码基因的 eggNOG 注释 蛋白编码基因的 KEGG 注释 蛋白编码基因的 Swiss-Prot 注释 |
蛋白编码基因的TrEMBL注释 蛋白编码基因的NR注释 蛋白编码基因的Motif注释 蛋白编码基因的CAZy注释 杂合度分析 有效种群大小估计 基因家族分析 染色体共线性分析 基因家族扩张和收缩分析 全基因组复制事件分析 基于全基因组单拷贝基因的进化树重构 分歧时间估算 共有、特有基因家族分析 LTR插入时间 正选择分析 |
蝴蝶兰全基因组测序
本研究完成了蝴蝶兰全基因组测序和组装,是世界上第一个完成测序和分析的兰科植物和景天酸代谢(CAM)植物的基因组图谱。从基因组序列上来看,蝴蝶兰共有29,431个蛋白编码基因。这些蛋白编码基因的平均内含子长度达到2,922碱基对,这一长度显着超过了迄今为止所有植物基因组中平均内含子长度,进一步分析发现蝴蝶兰内含子中的大量的转座元件是蝴蝶兰超长内含子的主要原因。
央视《匠心》栏目视角看迈杰转化医学