当前位置:首页 > 技术交流 > 最新应用

技术交流

扫描二维码
或添加“GeneGroup003
获取更多最新资讯

商城订购

扫描二维码
或添加“生物通ebiobuy
手机下单,快人一步

干货:如何利用1000 Genomes数据挑选tagSNP?

版权所有,转载请联系基因市场部
2017-11-06

一般来说,研究SNP的经典思路/步骤是先找到目的基因的标签SNP(tagSNP),然后挑选功能位点,最后准备样本进行分型验证实验以确定最终有关联意义的位点。

      然鹅,自从NCBI宣布龙头数据库Hapmap下线后,如何查询tagSNP呢?

Hapmap vs 1000 genomics.jpg

没错,如今得靠1000 Genomes Project数据了,那么下面将介绍如何从一个基因中筛选r2=0.8MAF>0.05/0.1/0.2tagSNP位点,以cGAS基因为例:

一、 基因SNP信息查询

1. 查询基因的vcf文件

可通过(http://www.internationalgenome.org/about)链接对千人基因组计划进行了解,筛选SNP前需要利用此数据查找基因的Variations,以cGAS基因为例进行介绍:

a.   进入上述千人基因组官网,点击“Browser”按钮,下拉找到“1000 Genomes Project phase 3 browser”,点击进入,即可跳出如下界面:

图片 1.png

b.   在绿色搜索框区域输入“cGAS”,点击“Go”,跳出如下界面,此时可以看到界面左边的“Get VCF data”功能键为灰色,无法使用

图片 2.png

             c.点击上图蓝色圈出区域(该区域表示cGAS基因所在染色体位置),跳出界面:

图片 3.png

            d.弹出如下第一个界面,下拉点击“Next”,再弹出第二个界面,右键图中链接即可保存该基因的vcf文件,文件名后缀为“vcf.gz”。

图片 4.png

图片 5.png

        2. 转换文件格式(vcf to ped)

由于筛选tagSNP的软件Haploview只能识别ped格式的文件,故必须将查询到的vcf文件转换成ped格式,可使用在线工具(http://grch37.ensembl.org/Homo_sapiens/Tools/VcftoPed?db=core

a.进入网站,可以看到如下界面,输入参数,“Name for this Job”可直接输入研究的基因名“cGAS”,“Region Lookup”输入该基因所在染色体区域,选择populations(CHB代表中国北京汉族人群、CHS代表中国南方汉族人)

图片 6.png

        b. 其他参数不动,下拉界面点击“Run”,会出现下图

图片 7.png

        c. 完成后红色圈出部位会由“Queued”变成“Done”

图片 8.png

       d. 点击旁边的“View results”,跳转下图,下载保存两份文件即可,文件名后缀分别是“.info”和“.ped”

图片 9.png

发现没有,其实只要记住基因在染色体上的位置就能通过第2步直接生成ped文件了。当然也可以在NCBI数据库上查找该数据,注意必须选用GRCh37版本的,这样才能与1000 Genomes数据对应。

 

二、Haploview软件安装

Haploview软件是做SNP研究必备的一个工具,除了下面要介绍的tagSNP选择外,还可做case-control association study and TDT分析、LD block的制作和分析等等。

软件安装包下载地址:https://www.broadinstitute.org/scientific-community/science/programs/medical-and-population-genetics/haploview/haploview

注:Haploview软件必须在java环境下运行,故必须先安装Java

三、tagSNP筛选

a.   打开Haploview软件,点击“File”-“open new data”,弹出如下界面

图片 10.png

b.   选择“Linkage Format”-“Data File”点击Browser选择之前保存的ped文件,“Locus Information File”点击Browser选择info文件

注:“Ignore pair comparisons of markers”一般填写500kb,即忽略距离大于500kb的两个SNP的haplotype,因为即使算出来在遗传学上也没有很大的意义。

c.   点击“OK”,即可进入下图“Check Markers”选项界面:

图片 11.png

             d.上述界面中红色圈出区域“HW p-value”为默认值为0.001,“Minimum minor alleles freq.”可设置为0.05/0.1/0.2(根据要求设置),点击“Rescore markers”,然后点击界面上端的“Tagger”按钮,跳转如下界面:

图片 12.png

             e. 上图蓝色圈出部位“r2 threshold”可设置为0.8(根据需要,亦可设置为1),点击“Run tagger”

,即跳转如下Result界面,表示在r2为0.8,MAF为0.05条件下,cGAS基因的tagSNP有28个,点击“Dump Tags File”即可保存位点rs ID,保存时可在文件名后面加上“.txt”。

图片 13.png

以上操作就能查找出某个基因的tagSNP了~

当然,即便按照上述这么详细的教程来操作,可能还是会有小伙伴们在中途遇到各种errors,小编会在下一期整理一些Trouble Shooting/FAQ供大家学习,记得关注“基因公司”官网哦~


往期链接:

1. 什么,多倍体、同源性高的SNP位点也能做?!

2. KASP SNP分型技术经验分享(一)

3. KASP SNP分型技术经验分享(二)


技术负责人:

成小姐:18817595251

                Shirley_cl@baygene.com


欢迎关注“基因有限公司生命科学组”官方微信

沪公网安备 31010402003540号 沪ICP备13000399号-1