中文题名: | 不依赖参考基因组的可变剪切识别的研究 |
姓名: | |
保密级别: | 公开 |
论文语种: | chi |
学科代码: | 071300 |
学科专业: | |
学生类型: | 博士 |
学位: | 理学博士 |
学位类型: | |
学位年度: | 2023 |
校区: | |
学院: | |
研究方向: | 生物信息学 |
第一导师姓名: | |
第一导师单位: | |
提交日期: | 2023-06-08 |
答辩日期: | 2023-06-04 |
外文题名: | REFERENCE-FREE PREDICTION OF ALTERNATIVE SPLICING EVENTS IN A TRANSCRIPTOME |
中文关键词: | 无参考基因组 ; 转录组 ; 可变剪切 ; 混合k-mer ; 着色的de Bruijn图 ; 卷积神经网络 ; XGBoost ; 网页服务器 |
外文关键词: | Reference-free ; Transcriptome ; Alternative splicing ; Mixed k-mer colored de Bruijn graph ; Attention-based CNN ; XGBoost ; Laravel |
中文摘要: |
可变剪切(alternative splicing)是指同一基因座产生不同的转录本的过程,作为真核生物重要的转录后修饰机制,不但极大提高了转录组和蛋白质组的多样性,而且也是表型多样性的重要来源,对生物的环境适应和进化也发挥了重要的作用。测序技术的发展为可变剪切的研究提供了有力的工具,但是对于没有参考基因组的物种来说,基因结构信息的缺失极大地限制了其可变剪切的研究。如何在不依赖参考基因组的情况下,仅利用转录组序列来准确全面地识别全基因组范围内的可变剪切是在非模式物种中展开可变剪切研究的前提条件。为此,本研究提出了仅利用转录组序列,分别基于线性序列比对和基于图的两种策略,来识别可变剪切事件;通过基于序列的深度学习和基于特征矩阵的传统机器学习两种分类模型,对可变剪切事件进行类别的划分;并把我们的算法应用到三桠乌药的二代测序数据和无油樟的三代测序数据中;最后将我们的四种算法以网页服务器的形式供相关研究工作者使用。具体结果如下: |
外文摘要: |
As an important post transcriptional modification mechanism in eukaryotes, alternative splicing not only improves the diversity of transcriptome and proteome, but also is an important source of phenotypic diversity, playing an important role in environmental adaptation and evolution of organisms. The development of sequencing technology has provided powerful tools for the study of alternative splicing, but for species without reference genomes, the lack of gene structure information greatly limits the study of alternative splicing. How to accurately and comprehensively identify genome-wide alternative splicing using only transcriptome sequences without relying on the reference genome is the prerequisite for alternative splicing research in non model species. For this reason, this study proposes two strategies, namely sequence alignment based and de Bruijn graph based, to identify alternative splicing events using only transcriptome sequences; By using two classification models, sequence based deep learning and feature matrix based machine learning, alternative splicing events are classified; And our algorithm is applied to the transcriptome of the RNA-seq of Lindera obtusiloba and the Iso-Seq of Amborella; Finally, we provided our four algorithms in the form of web servers for all of the researchers to use. The specific results are as follows: |
参考文献总数: | 175 |
作者简介: | 本研究主要工作是在不依赖参考基因组的情况下,仅利用转录组序列,对组学水平的可变剪切的识别,并进行事件类型的分类,在研究内容的主要工作完成之后,开始了博士论文的撰写工作。 在内容方面,按照背景介绍、实验内容、总结展望的结构展开,共完成八章研究内容的撰写。除背景介绍和展望外,其余六章都按照引言、数据与方法、结果与讨论和小结四部分为主体结构展开描写,尽可能做到结构清晰,逻辑通畅。 在规范性方面,根据《北京师范大学学位论文撰写规则(2015版)》的要求,对目录、标题、脚注、图表、公式等都规范其格式。尤其是参考文献,按照国家标准《文后参考文献著录规则》GB/T 7714-2005,逐条检查,并规范其格式。 在结果展示方面,为了直观地展示结果,除了文字描述之外,本论文使用了较多的图和表进行结果展示,而且在图中,尽可能做到前后色系一致。并且在中英文的图注和表头的描述上,尽可能做到简洁全面。 在论文的撰写过程中,离不开庞老师的专业性指导,也离不开师弟师妹对文章的错别字格式等问题细致勘误,最终共同完成9万字的博士研究生论文。 |
馆藏地: | 图书馆学位论文阅览区(主馆南区三层BC区) |
馆藏号: | 博071300/23004 |
开放日期: | 2024-06-21 |