日韩精品无码一区二区三区久久久|色噜噜人妻丝袜av先锋影音先|日韩国产精品一级毛片在线|久久久精品国产日韩欧美|欧美日韩国产在线观看|

  • <i id="6nics"><ins id="6nics"></ins></i>

    1. 
      

      1. <source id="6nics"><ins id="6nics"></ins></source>
        1. <small id="6nics"><dl id="6nics"><small id="6nics"></small></dl></small>
            服務(wù)熱線(xiàn)02152235399
            當(dāng)前位置:博客 > 生物信息

            Trinity轉(zhuǎn)錄組組裝測(cè)試計(jì)劃

            時(shí)間:2018-10-18    |    閱讀量:8049


            引言

            1.1編寫(xiě)目的

            進(jìn)行該測(cè)試以及撰寫(xiě)此報(bào)告有以下幾個(gè)目的:

            1) 通過(guò)使用Trinity軟件,進(jìn)行不同組裝策略的轉(zhuǎn)錄組組裝測(cè)試,得到組裝效果最好的組裝策略;

            2) Trinity組裝所需時(shí)間,內(nèi)存及存儲(chǔ)峰值評(píng)估;

            1.2背景

            由于第二代測(cè)序測(cè)序讀長(zhǎng)短、質(zhì)量值偏低、數(shù)據(jù)量大。目前轉(zhuǎn)錄組組裝面臨的問(wèn)題主要有:1)轉(zhuǎn)錄本覆蓋度不均勻,一些轉(zhuǎn)錄本覆蓋度很低,一些則會(huì)跟高;2)由于序列本身的偏向性,轉(zhuǎn)錄本內(nèi)reads覆蓋度存在不一致的可能;3)與一個(gè)測(cè)序正確但低表達(dá)的轉(zhuǎn)錄本相比,一個(gè)有測(cè)序錯(cuò)誤但高表達(dá)的轉(zhuǎn)錄本,其表達(dá)豐度可能更高;4)由于可變剪切,構(gòu)建數(shù)據(jù)結(jié)構(gòu)需考慮到一個(gè)基因有多個(gè)轉(zhuǎn)錄本的可能;5)來(lái)自不同基因的重復(fù)序列可能給組裝帶來(lái)歧義。

            本次工作的目的在于通過(guò)不同組裝策略的測(cè)試,以得到一種最優(yōu)的組裝方案。組裝策略主要有以下幾種:

            1) 6個(gè)樣品單獨(dú)組裝,然后將組裝結(jié)果進(jìn)行聚類(lèi);

            2) 6個(gè)樣品數(shù)據(jù)放在一起組裝;

            3) 6個(gè)樣品提取高質(zhì)量數(shù)據(jù),進(jìn)行組裝,低質(zhì)量數(shù)據(jù),進(jìn)行組裝;然后聯(lián)合組裝;

            4) 使用Genome-guided參數(shù)與不使用該參數(shù)

            1.3用戶(hù)群

            主要讀者:公司研發(fā)部,公司管理人員。

            其他讀者:項(xiàng)目及銷(xiāo)售相關(guān)人員。

            1.4 數(shù)據(jù)對(duì)象

            物種

            數(shù)據(jù)類(lèi)型

            樣品個(gè)數(shù)

            測(cè)序類(lèi)型

            水稻

            mRNA

            6個(gè)

            PE90

            1.5 測(cè)試階段

            軟件測(cè)試

            1.6測(cè)試工具

            1) Perl;

            2) Trinity

            1.7 參考資料

            1) Brian J Haas,  Alexie Papanicolaou, Moran Yassour V, et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis, 11 July 2013; doi:10.1038.

            2) Geo Pertea, Xiaoqiu Huang , et al. TIGR Gene Indices clustering tools (TGICL): a software system for fast clustering of large EST datasets, Vol. 19 no. 5 2003,

            .測(cè)試概要

            關(guān)于此項(xiàng)測(cè)試工作從2014年4月10日開(kāi)始預(yù)計(jì)到2014年5月30日結(jié)束。

            2.1 主要測(cè)試內(nèi)容如下:

            1) Trinity安裝以及測(cè)試;

            2) 測(cè)試數(shù)據(jù)獲取及處理;

            3) 編寫(xiě)任務(wù)腳本及任務(wù)提交;

            4) TCICL安裝以及測(cè)試;

            5) 組裝結(jié)果質(zhì)量評(píng)估及統(tǒng)計(jì);

            6) 不同組裝方法結(jié)果比較;

            7) 編寫(xiě)結(jié)果報(bào)告

            2.2 測(cè)試詳細(xì)思路描述:

            1) 6個(gè)樣品單獨(dú)組裝;

            2) 6個(gè)樣品組裝結(jié)果,使用TGICL進(jìn)行聚類(lèi),組裝成UniGene;

            3) 6個(gè)樣品各取約2.5G數(shù)據(jù),合起來(lái)共約16G數(shù)據(jù)組裝,(因6個(gè)樣品所有數(shù)據(jù)24G,數(shù)據(jù)量太大,trinity跑不通);

            4) 取一個(gè)樣品使用Genome-guided  參數(shù),用有參考序列的組裝方式進(jìn)行組裝;

            5) 比較使用一個(gè)樣品(4G數(shù)據(jù)),與使用6個(gè)樣品(16G數(shù)據(jù))的組裝結(jié)果差異

            6) 比較使用6個(gè)樣品單獨(dú)組裝,然后聚類(lèi)成的UniGene,與6個(gè)樣品數(shù)據(jù)合起來(lái)(16G數(shù)據(jù))組裝結(jié)果差異

            7) 比較使用Genome-guided  參數(shù),和不使用Genome-guided  參數(shù)結(jié)果差異

            2.3工作計(jì)劃進(jìn)展

            測(cè)試內(nèi)容

            計(jì)劃開(kāi)始時(shí)間

            實(shí)際開(kāi)始時(shí)間

            計(jì)劃完成時(shí)間

            實(shí)際完成時(shí)間

            工作完成情況

            軟件安裝以及測(cè)試

            2014年4月10日

            2014年4月10日

            2014年4月10日

            2014年4月10日

            已完成

            測(cè)試數(shù)據(jù)獲取及前期處理

            2014年4月10日

            2014年4月18日

            2014年4月14日

            2014年4月18日

            已完成

            編寫(xiě)任務(wù)腳本及任務(wù)提交

            2014年4月20日

            2014年4月19日

            2014年4月28日

            2014年5月4日

            已完成

            TCICL安裝以及測(cè)試

            2014年4月21日

            2014年4月28日

            2014年4月29日

            2014年5月15日

            完成

            組裝結(jié)果質(zhì)量評(píng)估及統(tǒng)計(jì)

            2014年4月29日

            2014年5月16日

            2014年5月15日

            2014年5月20日

            完成

            不同組裝方法結(jié)果比較

            2014年5月17日

            2014年5月20日

            2014年5月21日

            2014年5月21日

            完成

            編寫(xiě)結(jié)果報(bào)告

            2014年5月21日

            2014年5月21日

            2014年5月22日

            2014年5月22日

            完成

            2.2測(cè)試執(zhí)行

            此次測(cè)試嚴(yán)格按照項(xiàng)目計(jì)劃和測(cè)試計(jì)劃執(zhí)行,按時(shí)完成了測(cè)試計(jì)劃規(guī)定的測(cè)試對(duì)象的測(cè)試。針對(duì)測(cè)試計(jì)劃制定規(guī)定的測(cè)試策略,依據(jù)測(cè)試計(jì)劃和測(cè)試用例,將網(wǎng)絡(luò)數(shù)據(jù)以及我們觀(guān)測(cè)的關(guān)鍵參數(shù)進(jìn)行了完整的測(cè)試。

            2.3測(cè)試用例

            2.3.1功能性

            1) 1.測(cè)試Trinity軟件,可以正常運(yùn)行。

            2) 2.測(cè)試TGICL軟件,可以正常運(yùn)行

            3) 3.評(píng)估不同組裝策略組裝質(zhì)量狀況。

            測(cè)試環(huán)境

            3.1軟硬件環(huán)境

            硬件環(huán)境

            服務(wù)器

            硬件配置

            CPU:Intel Xeon 2.66GHz *20

            Memory:90GB

            HD:29TB

            軟件配置

            OS:Fedora release 14,Ubuntu 12.10

            Trinity

            網(wǎng)絡(luò)環(huán)境

            20M LAN

            測(cè)試結(jié)果

            使用不同方法組裝統(tǒng)計(jì)結(jié)果見(jiàn)如下表格:

            物種

            水稻

            組裝策略

            直接組裝

            直接組裝

            直接組裝

            直接組裝

            直接組裝

            直接組裝

            6個(gè)樣品部分?jǐn)?shù)據(jù)合并組裝

            3個(gè)樣品單獨(dú)組裝后,再聚類(lèi)

            4個(gè)樣品單獨(dú)組裝后,再聚類(lèi)

            5個(gè)樣品單獨(dú)組裝后,再聚類(lèi)

            數(shù)據(jù)量

            4G

            4G

            4G

            4G

            4G

            4G

            16G

            12G

            16G

            20G

            樣品名稱(chēng)

            CQ9522_2mm_1A

            CQ9522_2mm_2A

            CQ9522_4mm_1A

            CQ9522_4mm_2A

            CQ9522_6mm_1A

            eg1D34_1A

            Sample6All

            Sample3Culster

            Sample4Culster

            Sample5Culster

            Total sequences

            45444

            45345

            47746

            47915

            48173

            48561

            283184

            53007

            58131

            62566

            Total bases

            42320514

            42218957

            44463230

            44589916

            44968574

            45256330

            263817521

            52432158

            59334530

            65271000

            Min sequence length

            201

            201

            201

            201

            201

            201

            201

            201

            201

            201

            Max sequence length

            13797

            13797

            12820

            14676

            14693

            13288

            14693

            13797

            15307

            15307

            Average sequence length

            931.27

            931.06

            931.25

            930.6

            933.48

            931.95

            931.61

            989.16

            1020.7

            1043.23

            Median sequence length

            583

            582

            601

            582

            580

            601

            587

            627

            642

            657

            N25 length

            2398

            2398

            2331

            2414

            2415

            2320

            2379

            2545

            2654

            2723

            N50 length

            1504

            1503

            1483

            1498

            1520

            1474

            1496

            1612

            1681

            1732

            N75 length

            773

            773

            788

            770

            782

            780

            778

            867

            910

            946

            N90 length

            375

            375

            378

            375

            375

            381

            376

            398

            409

            420

            N95 length

            282

            282

            284

            285

            282

            289

            284

            286

            289

            290

            querygene number

            39461

            39376

            40564

            40759

            40673

            41318

            109371

            44589

            48253

            51281

            subjectgene number

            41754

            41609

            41338

            41977

            41652

            41396

            46500

            43770

            44768

            45443

            gene region alignment percentage

            61.11%

            61.17%

            61.97%

            62.81%

            62.49%

            62.49%

            67.13%

            62.73%

            64.21%

            64.33%

            組裝reads使用率

            91.76%

            90.79%

            91.36%

            91.45%

            90.11%

            91.42%

            94.43%

            92.69%

            93.28%

            93.72%

            存儲(chǔ)峰值

            35G

            35G

            35G

            35G

            35G

            35G

            200G

            80G

            80G

            80G

            內(nèi)存峰值

            38G

            38G

            38G

            38G

            38G

            38G

            90G

            78G

            78G

            78G

            運(yùn)行時(shí)間(小時(shí))

            3

            3

            3

            3

            3

            3

            18

            3+1

            3+1.2

            3+1.5

            4.1 軟件安裝

            1) 安裝新版2014年4月新版Trinity( trinityrnaseq_r20140413.tar.bz);

            2) 安裝perl 模塊PerlIO-gzip-0.18.tar.gz;

            3) 安裝TGICL(TGICL-2.1.tar.gz) ;

            4) 安裝CD-HIT;

            5) 安裝GMAP and GSNAP(gmap-gsnap-2014-04-20.tar.gz  );

            五.測(cè)試結(jié)論與討論

            從上述統(tǒng)計(jì)結(jié)果可以看出

            1) 對(duì)于Contigs N50:樣品單獨(dú)組裝與合并clean data數(shù)據(jù)后組裝的N50差不多,樣品單獨(dú)組裝后合并略有提升。

            2) Contigs數(shù)量:樣品單獨(dú)組裝后合并contigs數(shù)量比單個(gè)樣品組裝contigs數(shù)量稍多,合并并clean data數(shù)據(jù)后組裝contigs數(shù)量明顯增多(但是,數(shù)量太多)

            3) Reads 使用率:合并clean data數(shù)據(jù)后組裝、樣品單獨(dú)組裝后合并 reads使用率略高于單個(gè)樣品組裝

            4) 基因區(qū)域覆蓋度:合并clean data數(shù)據(jù)后組裝、樣品單獨(dú)組裝后合并 reads使用率略高于單個(gè)樣品組裝

            5) 另外:

            6) Genome-guided 模式?jīng)]有測(cè)通,故不在此次比較范圍內(nèi);

            7) 6個(gè)樣品單獨(dú)組裝后聚類(lèi),TGICL沒(méi)有跑通,故使用了3個(gè)樣品聚類(lèi)、4個(gè)樣品聚類(lèi)、5個(gè)樣品聚類(lèi)的結(jié)果進(jìn)行比較。

            8) CD-HIT是另外一種聚類(lèi)軟件,2個(gè)樣品聚類(lèi)可以成功運(yùn)行,但是3個(gè)樣品聚類(lèi)時(shí),一直顯示任務(wù)運(yùn)行但是無(wú)結(jié)果,也不報(bào)錯(cuò)。

            六.測(cè)試總結(jié)

            根據(jù)本次測(cè)試結(jié)果,綜合考慮到內(nèi)存、運(yùn)行時(shí)間、組裝結(jié)果、存儲(chǔ)等因素,樣品單獨(dú)組裝后聚類(lèi)的效果比較好。






            新巴尔虎左旗| 东安县| 临江市| 宿州市| 塔城市| 新巴尔虎右旗| 湟中县| 沅江市| 中西区| 安国市| 乐亭县| 长阳| 象州县| 治县。| 阿克| 景宁| 大埔区| 北川| 淮安市| 景洪市| 库伦旗| 鱼台县| 崇明县| 孝义市| 高台县| 文山县| 资源县| 新巴尔虎右旗| 沾化县| 沙河市| 武宁县| 惠安县| 瓮安县| 缙云县| 新和县| 射阳县| 鄂州市| 海宁市| 扶沟县| 满城县| 汉川市|