微商城网站建设平台,程序员如何自学,长春网站排名提升,一站式营销型网站建设服务文章目录写在前面FusionMap融合检测原理FusionMap与其他软比较FusionMap分析流程FusionMap结果文件说明FusionMap mono CUP设置图片来源: https://en.wikipedia.org/wiki/Fusion_gene写在前面
下面主要内容是关于RNA-seq数据分析融合#xff0c;用到软件是FusionMap 【Fusion…
文章目录写在前面FusionMap融合检测原理FusionMap与其他软比较FusionMap分析流程FusionMap结果文件说明FusionMap mono CUP设置图片来源: https://en.wikipedia.org/wiki/Fusion_gene写在前面
下面主要内容是关于RNA-seq数据分析融合用到软件是FusionMap 【FusionMap参考文献】。
融合分析使用哪个软件哪个软件表现较好在Biostarts发现一个问答列举了一些软件看这里里面有STAR-Fusion, STAR-Fusion, deFuse, FusionCatcher等30多个融合分析软件其中约20多个软件的文献发表于2011-2013年FusionMap软件的文献也发表与2011年。还有几篇软件比较的文献各分析软件的优劣文献中也会提晚一些发表的文献也会与之前发表的软件作比较。
另外FusionMap软件应该很早不再更新了是在Oshell工具包中进行维护。
FusionMap融合检测原理
融合ReadsSeed reads和Rescued reads 融合方向图来源
FusionMap与其他软比较 图片来源文献: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4797269/
上面表格红色标注是相对FusionMap, 结果比FusionMap差的。从该文献给的上表中粗略看FusionMap在三组和构造的数据集上表现还可以而在乳腺癌和黑色素瘤的样本数据上表现较差对它的综合评价属于中等程度但它有个最大的好处就是用C#编写其运行速度较其他软件要快。
对于该软比较文献中具体使用的是什么样的数据各软件分析时使用的参数比较的评分标准可能对各个软件都会有影响。
FusionMap分析流程
软件分析流程pipline图来源 融合检测流程 其中序列比对是在GSNAP软件基础上进行了一些改进。介绍GSNAP
1分析流程配置oscript文件示例
http://www.arrayserver.com/wiki/index.php?titleOmicScript_example_for_RNA-Seq_data_analysis_pipeline
2软件使用示例
mono oshell.exe --runscript Base_Dir Script_path/buildIndex.oscript Temp_Dir Mono_PathFusionMap结果文件说明
结果文件reporthttp://www.arrayserver.com/wiki/index.php?titleFusion_SE_report
表头名称含义FusionID融合ID信息格式为: FUS_Start_END注[1]^{注[1]}注[1]Bam.UniqueCuttingPositionCountUniq read数相当于Seed ReadsRescued reads的去重Bam.SeedCount如上图中假设ααα就是一端softclip长度最小值则SeedCount则为softclip长度α的Reads数。(如果值比较小也可能根本比不上目的是这些Reads可作为种子序列扩展成较长的融合序列再将扩展的融合序列作为自构建ref比较靠边缘的融合序列比对到自构建ref。如果是PE150bpα25α25α25最多可扩展成125125250bp的融合序列Bam.RescuedCount相当于softclip长度α的reads数通过SeedReads自构建的ref进行比对上的readsStrand链方向Chromosome1断点1染色体Position1断点1位置Chromosome2断点2染色体Position2断点2位置KnownGene1断点1基因KnownTranscript1断点1转录本KnownExonNumber1断点1外显子号KnownTranscriptStrand1断点1基因链方向KnownGene2断点2基因KnownTranscript2断点2转录本KnownExonNumber2断点2外显子号KnownTranscriptStrand2断点2基因链方向FusionJunctionSequence融合断点上下游30bp序列FusionGene融合两端基因SplicePattern融合剪接模式 [1]SplicePatternClass融合剪接模式类型 [1]FrameShift发生frameshift的格式 [2]FrameShiftClassframeshift的类型 [2]Distance融合断点间距离不是同一染色体时为-1OnExonBoundary是否在Exon边界None两个断点都不在Both两个断点都在Single有一个断点在。Filter可过滤信息包括InFamilyList(家族基因列表)/InBlackList(黑名单列表)
其中
[1] SplicePatternClass包括
CanonicalPatter[Major]: GT-AG SplicePatternCanonicalPatter[Minor]: GC-AG and AT-AC SplicePatternNonCanonicalPatter: all other detected di-nucleotides
[2] FrameShiftClass包括
FrameShift融合处发生了移码。InFrame融合处是整码断点处基因的碱基是3的倍数。
FrameShift对应值的格式为: [0{0,1}1{0,1}2{0,1}-0{0,1}1{0,1}2{0,1}python正则表达式0{0,1}是指0字符出现0-1次
1若值为-或-0{0,1}1{0,1}2{0,1}或0{0,1}1{0,1}2{0,1}-例如-0/-01/-012可能是融合比对的位置两个断点或一端断点不在编码区【InFrame】2若值为0-1或1-2或2-0下图表示两个基因融合后没有发生移码【 InFrame】3若值为0-2/0-0、1-0/1-1或2-1/2-2表示两个基因融合后发生了移码 【FrameShift】4若值为-左端或右端有多种模式例如02-2012-1。当多种模式都包含在情形3中则为【FrameShift】例如0-02、01-0、02-2、1-01、12-1、2-12当多种模式中至少有一种属于情形2则为【InFrame】例如0-012、0-01、01-01等。
图来源 也介绍了fusionMap检测融合
推荐的过滤条件图来源
SeedCount 3 SplicePatternClass CanonicalPattern[Major] or CanonicalPattern[Minor] FilterEmpty 更严格的条件FrameShiftClassInFrameOnExonBoundaryBoth
单端/双端融合的基因表达结果图来源oscript配置中设定分析表达步骤 FusionMap mono CUP设置
占用较高CPU问题如何设置【还不清楚】 FusionMap使用说明文档 关于FusionMap的一些安装说明中提到控制文档示例中有提到mono的一些参数设置但不知道在哪里设置该文件
Mono的帮助文档中有相关参数
参数说明–aot环境变量MONO_CPU_ARCH覆盖自动 CPU 检测机制。目前仅用于arm, egMONO_CPU_ARCHarmv4 thumb mono ...MONO_THREADS_PER_CPU一般线程池中的最大线程数将为 20 (MONO_THREADS_PER_CPU * CPU 数)。此变量的默认值为 10MONO_TLS_SESSION_CACHE_TIMEOUTSSL/TLS 会话缓存将保留其条目以避免客户端和服务器之间的新协商的时间以秒为单位。协商非常占用 CPU因此特定于应用程序的自定义值可能证明对小型嵌入式系统有用。默认值为 180 秒。
其他参考
github上mono相关问题MONO_THREADS_PER_CPU100 参考在linux上使用mono跑c#的程序一定要特别注意whiletrue的问题使用sleep参考配置supervisor来管理mono程序 参考https://www.mono-project.com/docs/融合发生机制及检测方法