随着各种鱼类的转录组研究的迅速开展,大量的RNA-seq数据开始公开,展现特定时间点下,目标器官、组织或细胞中所有基因的表达情况,使得更为系统地理解鱼类基因表达的概况和细节成为可能。
中国科学院水生生物研究所鱼类功能基因组学学科组收集整理了鱼类RNA-seq相关数据,建立了鱼类的常规转录组数据库FishGET(Fish Transcriptome and Expression Database,http://bioinfo.ihb.ac.cn/fishget)、单细胞转录组数据库FishSCT(Fish Single-Cell Transcriptome Database, http://bioinfo.ihb.ac.cn/fishsct)和空间转录组数据库FishSED(Fish Spatial Expression Database, http://bioinfo.ihb.ac.cn/fishsed)。
FishGET收录了来自于斑马鱼、草鱼和虹鳟等8种鱼类的97项研究共1362个样本的RNA-seq双端数据(包括mRNA和lncRNA),进行了转录本组装、加权基因共表达网络分析(WGCNA)、NR/KEGG/GO注释、临近位置注释、lncRNA类型注释和同源性注释等工作。网站还提供了多样化的动态交互可视化服务,用于查询和展示鱼类不同发育阶段各组织器官内的基因表达和共表达网络等,以期促进鱼类基因在转录水平的相关研究(图1)。
图1 FishGET功能模块
FishSCT收录了包括斑马鱼等9种鱼类的数据,也是斑马鱼单细胞转录组数据最齐全的在线资源。数据库基于发表于2022年10月之前的44项研究的129个数据集,经过统一分析获得了964个标记基因和26,965个潜在标记基因信息,以及单细胞分辨率下的表达图谱(细胞数目:646,641),共涵盖9种鱼类的245种细胞类型。斑马鱼的相关数据构成数据库的主体,包括222种细胞类型的848个标记和13,800个潜在标记基因信息,所涉及的组织或器官涵盖了斑马鱼生长发育时间线的各个阶段(图2)。FishSCT提供了一个用户友好的网络界面,方便用户浏览目标基因的表达模式和标记信息等内容(图3 A-D),并且提供了细胞类型识别的功能(图3 E-F),来帮助研究人员进行scRNA-seq的相关分析。
图2 FishSCT数据库中,斑马鱼及其它鱼类各组织/器官中细胞类型和标记基因的数量
图3 FishSCT数据库的基因表达可视化示例和细胞类型识别功能。A-D,tubb5基因表达模式的可视化与蛋白互作网络展示;E-F,细胞类型识别功能
FishSED整理了已公开发表的斑马鱼空间转录组相关的原始数据,涵盖了来自10个项目的56个数据集的空间表达谱数据(图4 A)。样本类型包括所有发育阶段的胚胎和其他几个组织,经过分析和处理后,获得了涵盖5种测序技术的3D基因表达图谱,建立了一个用户友好、交互性强的斑马鱼空间转录组数据平台。这是目前唯一的专门收录斑马鱼空间转录组数据的数据库。FishSED根据不同的测序技术提供了不同的可视化服务,还可进行跨数据集的多基因表达模式搜索与作图,为研究者进行比较分析提供了方便(图4 B-G)。
图4 FishSED数据库的内容和可视化结果示例。A,FishSED数据库的数据集分布统计;B-G,不同测序技术的可视化结果示例
以上数据库的论文发表在《iScience》和《Science China Life Sciences》,由博士研究生郭成、段攸、叶伟东等人共同完成,夏晓勤研究员和石米娟副研究员为并列通讯作者。本研究得到国家重点研发计划“鲤鲫、草鱼优异种质资源鉴定”课题(2021YFD1200804)、“重要养殖鱼类基因组选育与单性控制技术”任务(2018YFD0901201),以及中国科学院战略先导科技专项(XDA24010206)课题“鲤模块整合育种的生物信息学分析”任务的共同资助。