WGS完整流程介绍(原始数据质控、数据预处理、变异检测、数据注释)-程序员宅基地

技术标签: 生物信息学  WGS  

在这里插入图片描述

在这里插入图片描述
一、原始数据质控
1.原始测序数据(也是reads)
      从测序仪中直接取下来的数据,它包括了所有的碱基,无论是测序质量低的,还有可能包含测错的,可能还会包含实验误差。
2.数据质控
     把原始测序数据 (raw data)据输入到质量控制软件中(将低质量的、没有测出来、测错的删掉),转换成QC/过滤低质量read数据(clean data)。
     clean data可以被认为是没有测序错误的数据。
注:假设:
     由于我们的原始数据就是reads(10000条),经过原始数据指控后,会变成clean data(8500条)。
二、数据预处理
注:数据预处理实际上就是数据比对。
1.数据比对
     假设每一个read是150个碱基,但是人类的参考基因组有3亿个碱基,我想知道我测这一段是人体基因组的哪个染色体的哪个位置上的一小段,将测到的这一小段贴到人类参考基因组上给它一个标记,就相当于给它一个位置。这就叫做比对。
     比对结束后得到的就是bam文件。 比对完后,每一个reads都有一个位置写到了这个文件中。
2.排序
     按照reads的比对位置进行排序。比如说第一条reads比对到了1号染色体上的100个位置,第二条reads比对到了1号染色体上的1个位置,则需要将这两条reads的位置进行互换。我们需要排一下序,按照1-22号染色体加XY的顺序,同一条染色体上按照位置从小到大来排序。 排序后,在bam存储上方便,所占用的空间较小,对于突变识别也很重要。
3.去重复
     首先我们来理解一下,就是首尾一样,长度一样,碱基也是一样的。可以理解成双胞胎。
     这种重复可能是实验重复造成的。
     我们去重复是为了达到这样一个效果:在1号染色体的第一个位置有一条reads,在1号染色体的第二个位置有一条reads。
4.局部重比对
     我们先来说局部,指的是存在插入删除的位置。局部重比对指的是在存在插入删除的位置在进行一些比对,主要是为了比对的准确性。
     常见的插入删除的位置上,很多人,比如在3号染色体第10000万个位置会出现删除这个事件,但是却没有导致疾病。但如果这些删除不进行处理的话,可能会导致在这个位置周围的比对都不太准确。
5.碱基质量重校正(BQSR)
     碱基质量重校正(BQSR),是一个机器学习的方法,就是将碱基的质量(指的是测序质量),比如说在1号染色体某一位置可能会有多条reads来覆盖,由于reads有150个bp,假设比对到了位置1,从1-150位置均会覆盖。比如说有一个位置有很多的reads覆盖到了这个位置,在同一个位置上出现了两种碱基(A和T):如果我们发现T的质量是非常非常低的,A的质量是非常非常高的,可以将T校正一下;如果我们发现A和T的质量差不多且都特别高时,则无需校正,这证明时A到T发生了突变。
注:
     局部重比对和碱基质量重校正都是使用GATK的软件。
     数据预处理中的每一步的输出均是BAM格式。
三、变异检测-
1.变异检测软件
     将BAM文件输入到变异检测软件(VarScan、GATK、Mutect2等)中,会得到VCF格式的文件。
2.VCF文件的格式
     一般为10几行,第1列:染色体号;第2列:染色体位置;第3列:是一个ID,是找到的变异位置的ID,可选的;后面参考基因组的上的碱基、突变后的碱基、基因型、深度、碱基频率。
3.变异检测的目的
     是为了从bam得到突变。因为bam是每一个位置上的碱基均有,但并不是每一个位点均是突变,VCF则是将突变的位点显现出来。bam文件可能会有10个G,但一般的VCF文件通常不会超过一个G,如果VCF文件超过1个G时,则证明测序存在错误,测的太差了。
4.蓝色箭头所代表的流程
     变异检测所输出的每一个样本的VCF,将它们联合起来,所以叫联合基因型。假如说我们这个胃癌的队列有100个样本,就会出现100个VCF,组成一个VCF,merge成为gVCF.再通过联合基因型,这个结果可以和单独的100个样本的VCF在做一个变异质控和过滤。
注:
     在我们的实验室中,VQSR和多样本的那一部分均不会做。但是我们会通过自己设定的一些指标进行过滤,比如深度上低于20时则不要;碱基频率频率低于0.1时不要。
四、变异注释
     我们刚刚拿到的变异只有位置,有参考基因组的碱基、突变成的碱基。而我们找基因突变的目的不是为了找看基因突变,而是为了看这个基因在蛋白的表达上有什么影响使人体患病。就是说要将其转换为生物体上的数据。比如说这个基因表达了那种蛋白,由于该基因突变导致 此蛋白失活,使得该蛋白没有功能了。
在这里插入图片描述
Varscan Somatic Variant Calling Pipeline
使用tumor bam和normal bam,找肿瘤和正常细胞有什么不同,正常的细胞是对照,将bam文件转换成Pileup,然后将其输入软件Varscan会将其转换为两种VCF:单碱基突变(SNV)、短插入和删除(INDEL)。在经过突变的过滤,高可信度SNV、低可信度的SNV、种系突变、SNV LOH(SNV杂合性丢失)。
MuTect Somatic Variant Calling Pipeline
Panel of Normals(PON):GATK组织为了规避测序上的错误,包括一些种系的突变,PON需要自己来建立,他建立的条件非常苛刻(必须使用正常健康人年轻人的血提取的DNA来进行测序,另外要求测序技术、平台都要这一批的tumor和normal测序的环境完全一样)。所以PON这步在我们实验室也不做。PON只是一个可选参数,即使没有MuTect2仍然可以使用。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_36717487/article/details/104773286

智能推荐

分布式光纤传感器的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告_预计2026年中国分布式传感器市场规模有多大-程序员宅基地

文章浏览阅读3.2k次。本文研究全球与中国市场分布式光纤传感器的发展现状及未来发展趋势,分别从生产和消费的角度分析分布式光纤传感器的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。主要生产商包括:FISO TechnologiesBrugg KabelSensor HighwayOmnisensAFL GlobalQinetiQ GroupLockheed MartinOSENSA Innovati_预计2026年中国分布式传感器市场规模有多大

07_08 常用组合逻辑电路结构——为IC设计的延时估计铺垫_基4布斯算法代码-程序员宅基地

文章浏览阅读1.1k次,点赞2次,收藏12次。常用组合逻辑电路结构——为IC设计的延时估计铺垫学习目的:估计模块间的delay,确保写的代码的timing 综合能给到多少HZ,以满足需求!_基4布斯算法代码

OpenAI Manager助手(基于SpringBoot和Vue)_chatgpt网页版-程序员宅基地

文章浏览阅读3.3k次,点赞3次,收藏5次。OpenAI Manager助手(基于SpringBoot和Vue)_chatgpt网页版

关于美国计算机奥赛USACO,你想知道的都在这_usaco可以多次提交吗-程序员宅基地

文章浏览阅读2.2k次。USACO自1992年举办,到目前为止已经举办了27届,目的是为了帮助美国信息学国家队选拔IOI的队员,目前逐渐发展为全球热门的线上赛事,成为美国大学申请条件下,含金量相当高的官方竞赛。USACO的比赛成绩可以助力计算机专业留学,越来越多的学生进入了康奈尔,麻省理工,普林斯顿,哈佛和耶鲁等大学,这些同学的共同点是他们都参加了美国计算机科学竞赛(USACO),并且取得过非常好的成绩。适合参赛人群USACO适合国内在读学生有意向申请美国大学的或者想锻炼自己编程能力的同学,高三学生也可以参加12月的第_usaco可以多次提交吗

MySQL存储过程和自定义函数_mysql自定义函数和存储过程-程序员宅基地

文章浏览阅读394次。1.1 存储程序1.2 创建存储过程1.3 创建自定义函数1.3.1 示例1.4 自定义函数和存储过程的区别1.5 变量的使用1.6 定义条件和处理程序1.6.1 定义条件1.6.1.1 示例1.6.2 定义处理程序1.6.2.1 示例1.7 光标的使用1.7.1 声明光标1.7.2 打开光标1.7.3 使用光标1.7.4 关闭光标1.8 流程控制的使用1.8.1 IF语句1.8.2 CASE语句1.8.3 LOOP语句1.8.4 LEAVE语句1.8.5 ITERATE语句1.8.6 REPEAT语句。_mysql自定义函数和存储过程

半导体基础知识与PN结_本征半导体电流为0-程序员宅基地

文章浏览阅读188次。半导体二极管——集成电路最小组成单元。_本征半导体电流为0

随便推点

【Unity3d Shader】水面和岩浆效果_unity 岩浆shader-程序员宅基地

文章浏览阅读2.8k次,点赞3次,收藏18次。游戏水面特效实现方式太多。咱们这边介绍的是一最简单的UV动画(无顶点位移),整个mesh由4个顶点构成。实现了水面效果(左图),不动代码稍微修改下参数和贴图可以实现岩浆效果(右图)。有要思路是1,uv按时间去做正弦波移动2,在1的基础上加个凹凸图混合uv3,在1、2的基础上加个水流方向4,加上对雾效的支持,如没必要请自行删除雾效代码(把包含fog的几行代码删除)S..._unity 岩浆shader

广义线性模型——Logistic回归模型(1)_广义线性回归模型-程序员宅基地

文章浏览阅读5k次。广义线性模型是线性模型的扩展,它通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。广义线性模型拟合的形式为:其中g(μY)是条件均值的函数(称为连接函数)。另外,你可放松Y为正态分布的假设,改为Y 服从指数分布族中的一种分布即可。设定好连接函数和概率分布后,便可以通过最大似然估计的多次迭代推导出各参数值。在大部分情况下,线性模型就可以通过一系列连续型或类别型预测变量来预测正态分布的响应变量的工作。但是,有时候我们要进行非正态因变量的分析,例如:(1)类别型.._广义线性回归模型

HTML+CSS大作业 环境网页设计与实现(垃圾分类) web前端开发技术 web课程设计 网页规划与设计_垃圾分类网页设计目标怎么写-程序员宅基地

文章浏览阅读69次。环境保护、 保护地球、 校园环保、垃圾分类、绿色家园、等网站的设计与制作。 总结了一些学生网页制作的经验:一般的网页需要融入以下知识点:div+css布局、浮动、定位、高级css、表格、表单及验证、js轮播图、音频 视频 Flash的应用、ul li、下拉导航栏、鼠标划过效果等知识点,网页的风格主题也很全面:如爱好、风景、校园、美食、动漫、游戏、咖啡、音乐、家乡、电影、名人、商城以及个人主页等主题,学生、新手可参考下方页面的布局和设计和HTML源码(有用点赞△) 一套A+的网_垃圾分类网页设计目标怎么写

C# .Net 发布后,把dll全部放在一个文件夹中,让软件目录更整洁_.net dll 全局目录-程序员宅基地

文章浏览阅读614次,点赞7次,收藏11次。之前找到一个修改 exe 中 DLL地址 的方法, 不太好使,虽然能正确启动, 但无法改变 exe 的工作目录,这就影响了.Net 中很多获取 exe 执行目录来拼接的地址 ( 相对路径 ),比如 wwwroot 和 代码中相对目录还有一些复制到目录的普通文件 等等,它们的地址都会指向原来 exe 的目录, 而不是自定义的 “lib” 目录,根本原因就是没有修改 exe 的工作目录这次来搞一个启动程序,把 .net 的所有东西都放在一个文件夹,在文件夹同级的目录制作一个 exe._.net dll 全局目录

BRIEF特征点描述算法_breif description calculation 特征点-程序员宅基地

文章浏览阅读1.5k次。本文为转载,原博客地址:http://blog.csdn.net/hujingshuang/article/details/46910259简介 BRIEF是2010年的一篇名为《BRIEF:Binary Robust Independent Elementary Features》的文章中提出,BRIEF是对已检测到的特征点进行描述,它是一种二进制编码的描述子,摈弃了利用区域灰度..._breif description calculation 特征点

房屋租赁管理系统的设计和实现,SpringBoot计算机毕业设计论文_基于spring boot的房屋租赁系统论文-程序员宅基地

文章浏览阅读4.1k次,点赞21次,收藏79次。本文是《基于SpringBoot的房屋租赁管理系统》的配套原创说明文档,可以给应届毕业生提供格式撰写参考,也可以给开发类似系统的朋友们提供功能业务设计思路。_基于spring boot的房屋租赁系统论文