一起学下一代测序技术(NGS)数据分析之数据质控

医疗器械 来源:基因检测与解读
2015
12/07
12:35
基因检测与解读 医疗器械

拿到基因测序公司的原始数据后,一般是clean data又称PF data,首先要做的就是查看数据量够不够以及测序的质量怎么样,目前最为流行的数据质量查看软件就是FastQC,今天我们来介绍一下该软件的用法。

首先安装FastQC,下载地址http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc:其实fastqc是免安装的,下载后解压缩,进入文件夹,输入命令chmod 755 fastqc,再运行。/fastqc就可以启动图文界面了,通过鼠标找到你的fastq文件,等待软件载入,结果分为如下几个部分


结果分为绿色的“PASS”,黄色的“WARN”和红色的“FAIL”。

1、Basic statistics


Total sequence代表reads数目,数据量等于reads数乘以每条reads的长度即41399965X125=5.2X109,即5.2G数据量

2、Per base sequence quality


quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。图像如上面例子,横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。

若任一位置的下四分位数低于10或中位数低于25,报“WARN”;若任一位置的下四分位数低于5或中位数低于20,报“FAIL”. 在测序早期经常会有不合格的测序reads,随着技术的发展,现在的测序质量已经非常高,以下为药明康德hiseq2500的数据质量,我们可以看到测序质量非常好。


3、Per Sequence Quality Scores


每条reads的quality的均值的分布,横轴为quality,纵轴是reads数目;

4、Per Base Sequence Content


对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布,横轴为位置,纵轴为百分比。 正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。

当任一位置的A/T比例与G/C比例相差超过10%,报“WARN”;当任一位置的A/T比例与G/C比例相差超过20%,报“FAIL”。

5、Per Base GC Content


对所有reads的每个位置,统计GC含量,如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴,反映样品(基因组、转录组等)的GC含量。当部分位置GC含量出现bias时,往往提示我们有overrepresented sequence的污染。当所有位置的GC含量一致的表现出bias时,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。当任一位置的GC含量偏离均值的5%时,报“WARN”;当任一位置的GC含量偏离均值的10%时,报“FAIL”

6、Per Sequence GC Content


统计reads的平均GC含量的分布,红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。

偏离理论分布的reads超过15%时,报“WARN”;偏离理论分布的reads超过30%时,报“FAIL”

7、Per Base N Content


当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率,正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报“WARN”;当任意位置的N的比例超过20%,报“FAIL”。

8、Sequence Length Distribution


reads长度的分布。当reads长度不一致时报“WARN”;当有长度为0的read时报“FAIL”

9、Duplicate Sequences


统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication),横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 上图的情况中,相当于unique reads数目~10%的reads是观察到两个重复的,~2%是观察到三次重复的,依此类推。

可以想象,如果原始数据很大(事实往往如此),做这样的统计将非常慢,所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。大于75bp的reads只取50bp(不知道怎么选的)进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。

当非unique的reads占总数的比例大于20%时,报“WARN”;当非unique的reads占总数的比例大于50%时,报“FAIL”。

备注:本文参考静渊的学习日志

来源:基因检测与解读

为你推荐

海尔盈康一生启动孤独症儿童关爱行动,创新罕见病可持续公益新生态资讯

海尔盈康一生启动孤独症儿童关爱行动,创新罕见病可持续公益新生态

本次活动聚焦孤独症儿童的诊疗,探讨交流AI赋能全流程防治康体系创新、前沿性生物科技诊疗技术等话题,旨在通过生态联盟的力量推动医学研究、科技创新与人文关怀的融合,让“星...

2025-04-03 09:11

诺华创新药物飞赫达®(盐酸伊普可泮胶囊)C3G适应症在中国获批资讯

诺华创新药物飞赫达®(盐酸伊普可泮胶囊)C3G适应症在中国获批

首款且唯一选择性靶向C3G病因药物,填补临床治疗空白

2025-04-02 18:14

国家卫健委:商业化人源细胞系是否纳入人类遗传监管?资讯

国家卫健委:商业化人源细胞系是否纳入人类遗传监管?

4月1日,国家卫健委科教司发布《人类遗传资源管理有关问题解答之一》。

2025-04-02 17:49

《NPJ digital medicine》刊发李冬梅教授团队成果:AI赋能高效识别眼睑肿物资讯

《NPJ digital medicine》刊发李冬梅教授团队成果:AI赋能高效识别眼睑肿物

亚太眼整形外科学会主席、中华医学会眼科分会眼整形眼眶病学组副组长李冬梅教授团队携手爱尔数字眼科研究所,在《NPJ digital medicine》(影响因子:12 4)学术期刊发表团队...

文/李林 2025-04-02 10:27

角膜移植点燃生命之光,爱尔眼科致敬全国角膜器官捐献者资讯

角膜移植点燃生命之光,爱尔眼科致敬全国角膜器官捐献者

角膜病是我国第二大致盲眼病

文/屈慧莹 2025-04-02 09:36

千亿GLP-1市场再添重磅产品,华东医药司美格鲁肽注射液国内上市申请获受理资讯

千亿GLP-1市场再添重磅产品,华东医药司美格鲁肽注射液国内上市申请获受理

本次申报适应症为成人2型糖尿病患者的血糖控制

2025-04-01 17:34

默克全球执行副总裁周虹:合作与创新是默克未来五年战略的两大关键词资讯

默克全球执行副总裁周虹:合作与创新是默克未来五年战略的两大关键词

近日,德国默克医药健康全球执行副总裁、中国及国际市场负责人周虹带领医药健康中国及国际市场管理团队开启了2025年度首次“中国行”。

2025-04-01 17:11

首个且唯一,阿斯利康PD-L1单抗获FDA批准治疗肌层浸润性膀胱癌资讯

首个且唯一,阿斯利康PD-L1单抗获FDA批准治疗肌层浸润性膀胱癌

度伐利尤单抗联合吉西他滨和顺铂作为新辅助治疗,随后度伐利尤单抗作为根治性膀胱切除术后的辅助单药治疗,用于治疗肌层浸润性膀胱癌成年患者。

2025-04-01 14:37

全国首个,湖北为脑机接口医疗服务定价资讯

全国首个,湖北为脑机接口医疗服务定价

昨日(3月31日),据“湖北发布”消息,湖北省医保局发布全国首个脑机接口医疗服务价格,其中,侵入式脑机接口置入费6552元 次,侵入式脑机接口取出费3139元 次,非侵入式脑机...

2025-04-01 11:03

一款国产创新流感药,获批资讯

一款国产创新流感药,获批

近日,据国家药监局官网信息显示,青峰医药下属子公司江西科睿药自主研发的1类创新药玛舒拉沙韦片(商品名:伊速达)正式获批上市,用于既往健康的12岁及以上青少年和成人单纯性...

2025-04-01 10:22

26省联盟药品集采启动,聚焦妇科用药和造影剂资讯

26省联盟药品集采启动,聚焦妇科用药和造影剂

近日,山西省药械集中招标采购中心发布《关于做好二十六省联盟药品集中带量采购品种数据填报工作的通知》,开展相关采购数据填报工作。

2025-03-31 21:48

优时比罗泽利昔珠单抗注射液(优迪革)中国获批,全球首个且唯一双亚型创新药治疗全身型重症肌无力资讯

优时比罗泽利昔珠单抗注射液(优迪革)中国获批,全球首个且唯一双亚型创新药治疗全身型重症肌无力

作为唯一人源化、高亲和力且具备创新修饰结构的IgG4单抗,关键Ⅲ期MycarinG试验证实罗泽利昔珠单抗注射液(优迪革®)较安慰剂显著改善全身型重症肌无力患者的多个临床终点与结局。

2025-03-31 15:58

从手术麻醉到生命全周期护航,麻醉学科发展拓宽生命边界资讯

从手术麻醉到生命全周期护航,麻醉学科发展拓宽生命边界

3月26日,由中华医学会麻醉学分会、中国医师协会麻醉学医师分会等23家学协会共同举办的2025年中国麻醉周学术活动的启动仪式举办,该活动以“生命之重,大医精诚——守生命保驾护...

2025-03-31 15:30

欧狄沃联合逸沃成为中国目前唯一获批的肝细胞癌一线双免疫联合疗法资讯

欧狄沃联合逸沃成为中国目前唯一获批的肝细胞癌一线双免疫联合疗法

欧狄沃联合逸沃对比仑伐替尼或索拉非尼,可显著改善不可切除肝细胞癌一线患者的总生存期(OS),客观缓解率(ORR)可改善近3倍,中位缓解持续时间(mDOR)达30个月

2025-03-31 13:45

罗氏制药榜首 “现金牛” 产品罗可适(奥瑞利珠单抗)在华获批:开启多发性硬化症一年两次治疗新时代资讯

罗氏制药榜首 “现金牛” 产品罗可适(奥瑞利珠单抗)在华获批:开启多发性硬化症一年两次治疗新时代

罗氏制药今日(3月31日)宣布,其旗下创新药罗可适®(Ocrevus®,通用名:奥瑞利珠单抗注射液 ocrelizumab injection)正式获得中国国家药品监督管理局批准,每六个月静脉输...

2025-03-31 13:39

与拜耳“分手”后,华堂宁卖得更好了资讯

与拜耳“分手”后,华堂宁卖得更好了

日前,华领医药公布了华堂宁被纳入国家医保目录后首个完整年的业绩数据。

2025-03-31 11:21

三生有幸,医者仁心:三生制药向全体医药工作者致敬!资讯

三生有幸,医者仁心:三生制药向全体医药工作者致敬!

3月30日是国际医师节,由三生制药公益支持的以“三生有幸,医者仁心”为主题的公益活动,携手20位医生代表,以寄语海报的形式,共同向全体医护人员表达诚挚的祝福与关爱。

2025-03-30 17:38

新版药典自2025年10月1日起实施资讯

新版药典自2025年10月1日起实施

3月25日,国家药监局官网发布《国家药监局 国家卫生健康委关于颁布2025年版的公告(2025年第29号)》,2025年版《中国药典》自2025年10月1日起施行。

2025-03-30 17:07

向C端发力,华大集团首届健康同行合作伙伴大会圆满举行资讯

向C端发力,华大集团首届健康同行合作伙伴大会圆满举行

3月29日,以“科技普惠,健康生活”为主题的华大集团首届健康同行合作伙伴大会在华大时空中心成功举办,通过报告演示、展台展示等方式,首次系统性地向外界展示运用生命科学前沿...

2025-03-30 10:38

礼来记能达(多奈单抗注射液)在华上市,用于阿尔茨海默病早期患者资讯

礼来记能达(多奈单抗注射液)在华上市,用于阿尔茨海默病早期患者

用于治疗成人因阿尔茨海默病引起的轻度认知障碍(MCI)和阿尔茨海默病轻度痴呆

2025-03-30 09:15