为您服务网站,北京网站建设建设公司,网上电商,游戏优化GDSC 写在前面下载数据疑问1.GDSC、CTRP数据里有TCGA配套的数据#xff1f;数据类型#xff1f;CTRP原始数据如何处理 写在前面
开此贴做GDSC的数据分析记录
下载数据
GDSC官网#xff1a;http://www.cancerrxgene.org/ 由于在官网下载数据过于麻烦#xff0c;于是我使用… GDSC 写在前面下载数据疑问1.GDSC、CTRP数据里有TCGA配套的数据数据类型CTRP原始数据如何处理 写在前面
开此贴做GDSC的数据分析记录
下载数据
GDSC官网http://www.cancerrxgene.org/ 由于在官网下载数据过于麻烦于是我使用了另外的下载途径https://osf.io/c6tfx/(该网址为oncoPredict包的作者所收集处理的)其中V2版本为通用版本而且在药物对应细胞系的敏感数据中IC50为log转化的需要另外变化。 CTRC数据库下载参照教程https://mp.weixin.qq.com/s?__bizMzg3NDE3NTk4MAmid2247485837idx1sn515e75861476242a5af3cb1fdeacc2cescene6keyfaebc134c2294cbd2ebc6c9607e8eab16ecb524ad091a914a7d1684f59a191ac3426d303401fc8f67c9859de1d94491094447292a116f2f8354d20c17275b77213900552fd9f5226b3252805b2f61d63bac61b8d0ca0c9eaa1143036f9ad335710c584e272e4df23efa5c9b611b39fde361acb3b1b9454f38a16ee05e0f0b450ascene1uinMzEzODEzNzcxMA%3D%3DdevicetypeWindows11x64version6308011alangzh_CNexportkeyn_ChQIAhIQ2JIVd9r17wpODi6B6lVhwxLqAQIE97dBBAEAAAAAAATMOLOC%2FRIAAAAOpnltbLcz9gKNyK89dVj0fCCGJswEjYs1xTYvaQoDJzlZpPNnwwz2VNHSVvwSerKbxH13SidfmttRU9KrYJ24zRIkv5TjenhNTCfVRLycWqqTMmn8JRchyIkgJBhmmsdeg2hcwVDD92QQoDqdUTF6wlhpb47mt%2Bv288GyJrUgpnMAGN0IZs49eV4U01RZpxGwOKnWEgU8gvJnv8Pxcv6%2Frdl%2Fn33VACS2HwG45nQGUUZsXv2zH%2BAJiIqZIYqC6dSws1VRYkKloYQEnymMsWouhwTZkw%3D%3Dacctmode0pass_ticketIbveLHgQ%2Bbad7MZECSFkg0w6cNrkoyGiGKhcolyBLbSUO3Tf4mSa84MSeqKHGEpa1JHVT1%2Ft1afXlkxlUkQ%2B1Q%3D%3Dwx_header1fontgear2
疑问
1.GDSC、CTRP数据里有TCGA配套的数据数据类型 这边首先样本为1085而如果是使用上述处理好的文件则为805个样本大致少了280个样本。 这边指的配套数据可能是与判定后与TCGA癌型一样的数据并不是配套数据 上面这张图片能说明如何确定细胞系与肿瘤的对应关系该图来自于S1E 而对于CTRP而言其信息在于官网下载的细胞系meta文件中
CTRP原始数据如何处理 上图为ctrp原始数据但里面信息比较难看懂点开一个写着数据质控的里面是这些信息里面有expeiment_id 及master_cpd_id,其余看上起都是数值 experiment 在meta.per.experiment 有相关信息而master_id在meta.per_compound文件里但即便这样这有的信息应该也只是化合物对应细胞系的表达谱缺少基因对应细胞系的表达谱。还有个疑问是基因与细胞系的表达谱那么就相当于细胞系没有使用化合物处理过那么此时将全部细胞系历经某化合物的药敏数据与某基因在全部细胞系的表达做相关则说明的是某基因表达越高/低其对该化合物的药敏性就越高/低。刚开始考虑想基因数据要不要也是细胞系经过药物处理的某基因表达数据这个时候数据就是三维的了这个时候做相关应该是某药物敏感性越低某基因表达越高越低。这个时候因果相当于有点反的一般我们都希望未用药前知道结果所以说未经处理的基因数据更好