日韩精品无码一区二区三区久久久|色噜噜人妻丝袜av先锋影音先|日韩国产精品一级毛片在线|久久久精品国产日韩欧美|欧美日韩国产在线观看|

服務(wù)熱線(xiàn)02152235399
當(dāng)前位置:博客 > 生物信息

Trinity轉(zhuǎn)錄組組裝測(cè)試計(jì)劃

時(shí)間:2018-10-18    |    閱讀量:8049


引言

1.1編寫(xiě)目的

進(jìn)行該測(cè)試以及撰寫(xiě)此報(bào)告有以下幾個(gè)目的:

1) 通過(guò)使用Trinity軟件,進(jìn)行不同組裝策略的轉(zhuǎn)錄組組裝測(cè)試,得到組裝效果最好的組裝策略;

2) Trinity組裝所需時(shí)間,內(nèi)存及存儲(chǔ)峰值評(píng)估;

1.2背景

由于第二代測(cè)序測(cè)序讀長(zhǎng)短、質(zhì)量值偏低、數(shù)據(jù)量大。目前轉(zhuǎn)錄組組裝面臨的問(wèn)題主要有:1)轉(zhuǎn)錄本覆蓋度不均勻,一些轉(zhuǎn)錄本覆蓋度很低,一些則會(huì)跟高;2)由于序列本身的偏向性,轉(zhuǎn)錄本內(nèi)reads覆蓋度存在不一致的可能;3)與一個(gè)測(cè)序正確但低表達(dá)的轉(zhuǎn)錄本相比,一個(gè)有測(cè)序錯(cuò)誤但高表達(dá)的轉(zhuǎn)錄本,其表達(dá)豐度可能更高;4)由于可變剪切,構(gòu)建數(shù)據(jù)結(jié)構(gòu)需考慮到一個(gè)基因有多個(gè)轉(zhuǎn)錄本的可能;5)來(lái)自不同基因的重復(fù)序列可能給組裝帶來(lái)歧義。

本次工作的目的在于通過(guò)不同組裝策略的測(cè)試,以得到一種最優(yōu)的組裝方案。組裝策略主要有以下幾種:

1) 6個(gè)樣品單獨(dú)組裝,然后將組裝結(jié)果進(jìn)行聚類(lèi);

2) 6個(gè)樣品數(shù)據(jù)放在一起組裝;

3) 6個(gè)樣品提取高質(zhì)量數(shù)據(jù),進(jìn)行組裝,低質(zhì)量數(shù)據(jù),進(jìn)行組裝;然后聯(lián)合組裝;

4) 使用Genome-guided參數(shù)與不使用該參數(shù)

1.3用戶(hù)群

主要讀者:公司研發(fā)部,公司管理人員。

其他讀者:項(xiàng)目及銷(xiāo)售相關(guān)人員。

1.4 數(shù)據(jù)對(duì)象

物種

數(shù)據(jù)類(lèi)型

樣品個(gè)數(shù)

測(cè)序類(lèi)型

水稻

mRNA

6個(gè)

PE90

1.5 測(cè)試階段

軟件測(cè)試

1.6測(cè)試工具

1) Perl;

2) Trinity

1.7 參考資料

1) Brian J Haas,  Alexie Papanicolaou, Moran Yassour V, et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis, 11 July 2013; doi:10.1038.

2) Geo Pertea, Xiaoqiu Huang , et al. TIGR Gene Indices clustering tools (TGICL): a software system for fast clustering of large EST datasets, Vol. 19 no. 5 2003,

.測(cè)試概要

關(guān)于此項(xiàng)測(cè)試工作從2014年4月10日開(kāi)始預(yù)計(jì)到2014年5月30日結(jié)束。

2.1 主要測(cè)試內(nèi)容如下:

1) Trinity安裝以及測(cè)試;

2) 測(cè)試數(shù)據(jù)獲取及處理;

3) 編寫(xiě)任務(wù)腳本及任務(wù)提交;

4) TCICL安裝以及測(cè)試;

5) 組裝結(jié)果質(zhì)量評(píng)估及統(tǒng)計(jì);

6) 不同組裝方法結(jié)果比較;

7) 編寫(xiě)結(jié)果報(bào)告

2.2 測(cè)試詳細(xì)思路描述:

1) 6個(gè)樣品單獨(dú)組裝;

2) 6個(gè)樣品組裝結(jié)果,使用TGICL進(jìn)行聚類(lèi),組裝成UniGene;

3) 6個(gè)樣品各取約2.5G數(shù)據(jù),合起來(lái)共約16G數(shù)據(jù)組裝,(因6個(gè)樣品所有數(shù)據(jù)24G,數(shù)據(jù)量太大,trinity跑不通);

4) 取一個(gè)樣品使用Genome-guided  參數(shù),用有參考序列的組裝方式進(jìn)行組裝;

5) 比較使用一個(gè)樣品(4G數(shù)據(jù)),與使用6個(gè)樣品(16G數(shù)據(jù))的組裝結(jié)果差異

6) 比較使用6個(gè)樣品單獨(dú)組裝,然后聚類(lèi)成的UniGene,與6個(gè)樣品數(shù)據(jù)合起來(lái)(16G數(shù)據(jù))組裝結(jié)果差異

7) 比較使用Genome-guided  參數(shù),和不使用Genome-guided  參數(shù)結(jié)果差異

2.3工作計(jì)劃進(jìn)展

測(cè)試內(nèi)容

計(jì)劃開(kāi)始時(shí)間

實(shí)際開(kāi)始時(shí)間

計(jì)劃完成時(shí)間

實(shí)際完成時(shí)間

工作完成情況

軟件安裝以及測(cè)試

2014年4月10日

2014年4月10日

2014年4月10日

2014年4月10日

已完成

測(cè)試數(shù)據(jù)獲取及前期處理

2014年4月10日

2014年4月18日

2014年4月14日

2014年4月18日

已完成

編寫(xiě)任務(wù)腳本及任務(wù)提交

2014年4月20日

2014年4月19日

2014年4月28日

2014年5月4日

已完成

TCICL安裝以及測(cè)試

2014年4月21日

2014年4月28日

2014年4月29日

2014年5月15日

完成

組裝結(jié)果質(zhì)量評(píng)估及統(tǒng)計(jì)

2014年4月29日

2014年5月16日

2014年5月15日

2014年5月20日

完成

不同組裝方法結(jié)果比較

2014年5月17日

2014年5月20日

2014年5月21日

2014年5月21日

完成

編寫(xiě)結(jié)果報(bào)告

2014年5月21日

2014年5月21日

2014年5月22日

2014年5月22日

完成

2.2測(cè)試執(zhí)行

此次測(cè)試嚴(yán)格按照項(xiàng)目計(jì)劃和測(cè)試計(jì)劃執(zhí)行,按時(shí)完成了測(cè)試計(jì)劃規(guī)定的測(cè)試對(duì)象的測(cè)試。針對(duì)測(cè)試計(jì)劃制定規(guī)定的測(cè)試策略,依據(jù)測(cè)試計(jì)劃和測(cè)試用例,將網(wǎng)絡(luò)數(shù)據(jù)以及我們觀(guān)測(cè)的關(guān)鍵參數(shù)進(jìn)行了完整的測(cè)試。

2.3測(cè)試用例

2.3.1功能性

1) 1.測(cè)試Trinity軟件,可以正常運(yùn)行。

2) 2.測(cè)試TGICL軟件,可以正常運(yùn)行

3) 3.評(píng)估不同組裝策略組裝質(zhì)量狀況。

測(cè)試環(huán)境

3.1軟硬件環(huán)境

硬件環(huán)境

服務(wù)器

硬件配置

CPU:Intel Xeon 2.66GHz *20

Memory:90GB

HD:29TB

軟件配置

OS:Fedora release 14,Ubuntu 12.10

Trinity

網(wǎng)絡(luò)環(huán)境

20M LAN

測(cè)試結(jié)果

使用不同方法組裝統(tǒng)計(jì)結(jié)果見(jiàn)如下表格:

物種

水稻

組裝策略

直接組裝

直接組裝

直接組裝

直接組裝

直接組裝

直接組裝

6個(gè)樣品部分?jǐn)?shù)據(jù)合并組裝

3個(gè)樣品單獨(dú)組裝后,再聚類(lèi)

4個(gè)樣品單獨(dú)組裝后,再聚類(lèi)

5個(gè)樣品單獨(dú)組裝后,再聚類(lèi)

數(shù)據(jù)量

4G

4G

4G

4G

4G

4G

16G

12G

16G

20G

樣品名稱(chēng)

CQ9522_2mm_1A

CQ9522_2mm_2A

CQ9522_4mm_1A

CQ9522_4mm_2A

CQ9522_6mm_1A

eg1D34_1A

Sample6All

Sample3Culster

Sample4Culster

Sample5Culster

Total sequences

45444

45345

47746

47915

48173

48561

283184

53007

58131

62566

Total bases

42320514

42218957

44463230

44589916

44968574

45256330

263817521

52432158

59334530

65271000

Min sequence length

201

201

201

201

201

201

201

201

201

201

Max sequence length

13797

13797

12820

14676

14693

13288

14693

13797

15307

15307

Average sequence length

931.27

931.06

931.25

930.6

933.48

931.95

931.61

989.16

1020.7

1043.23

Median sequence length

583

582

601

582

580

601

587

627

642

657

N25 length

2398

2398

2331

2414

2415

2320

2379

2545

2654

2723

N50 length

1504

1503

1483

1498

1520

1474

1496

1612

1681

1732

N75 length

773

773

788

770

782

780

778

867

910

946

N90 length

375

375

378

375

375

381

376

398

409

420

N95 length

282

282

284

285

282

289

284

286

289

290

querygene number

39461

39376

40564

40759

40673

41318

109371

44589

48253

51281

subjectgene number

41754

41609

41338

41977

41652

41396

46500

43770

44768

45443

gene region alignment percentage

61.11%

61.17%

61.97%

62.81%

62.49%

62.49%

67.13%

62.73%

64.21%

64.33%

組裝reads使用率

91.76%

90.79%

91.36%

91.45%

90.11%

91.42%

94.43%

92.69%

93.28%

93.72%

存儲(chǔ)峰值

35G

35G

35G

35G

35G

35G

200G

80G

80G

80G

內(nèi)存峰值

38G

38G

38G

38G

38G

38G

90G

78G

78G

78G

運(yùn)行時(shí)間(小時(shí))

3

3

3

3

3

3

18

3+1

3+1.2

3+1.5

4.1 軟件安裝

1) 安裝新版2014年4月新版Trinity( trinityrnaseq_r20140413.tar.bz);

2) 安裝perl 模塊PerlIO-gzip-0.18.tar.gz;

3) 安裝TGICL(TGICL-2.1.tar.gz) ;

4) 安裝CD-HIT;

5) 安裝GMAP and GSNAP(gmap-gsnap-2014-04-20.tar.gz  );

五.測(cè)試結(jié)論與討論

從上述統(tǒng)計(jì)結(jié)果可以看出

1) 對(duì)于Contigs N50:樣品單獨(dú)組裝與合并clean data數(shù)據(jù)后組裝的N50差不多,樣品單獨(dú)組裝后合并略有提升。

2) Contigs數(shù)量:樣品單獨(dú)組裝后合并contigs數(shù)量比單個(gè)樣品組裝contigs數(shù)量稍多,合并并clean data數(shù)據(jù)后組裝contigs數(shù)量明顯增多(但是,數(shù)量太多)

3) Reads 使用率:合并clean data數(shù)據(jù)后組裝、樣品單獨(dú)組裝后合并 reads使用率略高于單個(gè)樣品組裝

4) 基因區(qū)域覆蓋度:合并clean data數(shù)據(jù)后組裝、樣品單獨(dú)組裝后合并 reads使用率略高于單個(gè)樣品組裝

5) 另外:

6) Genome-guided 模式?jīng)]有測(cè)通,故不在此次比較范圍內(nèi);

7) 6個(gè)樣品單獨(dú)組裝后聚類(lèi),TGICL沒(méi)有跑通,故使用了3個(gè)樣品聚類(lèi)、4個(gè)樣品聚類(lèi)、5個(gè)樣品聚類(lèi)的結(jié)果進(jìn)行比較。

8) CD-HIT是另外一種聚類(lèi)軟件,2個(gè)樣品聚類(lèi)可以成功運(yùn)行,但是3個(gè)樣品聚類(lèi)時(shí),一直顯示任務(wù)運(yùn)行但是無(wú)結(jié)果,也不報(bào)錯(cuò)。

六.測(cè)試總結(jié)

根據(jù)本次測(cè)試結(jié)果,綜合考慮到內(nèi)存、運(yùn)行時(shí)間、組裝結(jié)果、存儲(chǔ)等因素,樣品單獨(dú)組裝后聚類(lèi)的效果比較好。






马龙县| 定陶县| 巫山县| 万全县| 云霄县| 宜昌市| 合作市| 阿坝县| 梅河口市| 九台市| 德清县| 富顺县| 台安县| 西和县| 临汾市| 民权县| 余庆县| 渭南市| 自贡市| 汶川县| 都江堰市| 万载县| 合作市| 兰考县| 自贡市| 兰溪市| 准格尔旗| 青铜峡市| 象州县| 陕西省| 孝昌县| 班戈县| 安宁市| 黄石市| 虎林市| 桂林市| 福泉市| 武功县| 宝兴县| 钟祥市| 兴隆县|