当前位置: 首页 > news >正文

外贸网站建设注意事项徐州企业建站

外贸网站建设注意事项,徐州企业建站,重庆网站设计重庆最加科技,企业信息管理平台系统研究背景#xff1a; 病毒感染可以导致多种组织特异性损伤#xff0c;所以 virus-host PPIs 的预测有助于新的治疗方法的研究#xff1b;目前已有的一些 virus-host PPIs 鉴定或预测方法效果有限#xff08;传统实验方法费时费力、计算方法要么基于蛋白结构或基因#xff… 研究背景 病毒感染可以导致多种组织特异性损伤所以 virus-host PPIs 的预测有助于新的治疗方法的研究目前已有的一些 virus-host PPIs 鉴定或预测方法效果有限传统实验方法费时费力、计算方法要么基于蛋白结构或基因要么基于手动特征工程的机器学习DL在PPIs预测中的应用愈加广泛包括特征嵌入、autoencoder、LSTM等而最近几年基于NLP领域的一些基于迁移学习的方法、基于 transformer 的预训练模型的应用等在 PPIs 预测中展现了更好的表现本文中作者提出了一个基于 ProtBERT 模型的深度学习方法名为 STEP据作者所知这是第一个用预训练 transformer 模型获取序列嵌入特征用于 PPIs 预测的方法 数据集构成 数据集构成Tsukiyama22,383 positive PPIs (5,882 human proteins 996 virus proteins)Guo5943 positive PPIsSun36,545 positive PPIs, 36,323 negative PPIs Tsukiyama 的数据集是 human-virus PPIs正负样本数目比为1:10负样本构造方法是dissimilarity-based negative sampling method。此外将整个数据集中的20%取出作为独立的验证集 (independent test data)Guo 的数据集是 Yeast PPIs其中负样本PPIs的数目和正样本PPIs一样构建方法有三种1). 正样本蛋白随机组对2). 不同亚细胞定位的蛋白进行组对3). 利用人为构造将已有蛋白的序列进行打乱的蛋白序列进行组对Sun 的数据集是 Human PPIs从 HPRD 数据库中整理得到的负样本构建方法是 “不同亚细胞定位随机组对” 和 “Negatome database 中的非互作蛋白” 研究思路和方法 代码https://github.com/SCAI-BIO/STEP 从示意图中可以看出STEP方法的整体结构是很简单的所以根据上述示意图对主要代码进行简述代码主要来自src/modeling/ProtBertPPIModel.py 1. __single_step()方法从宏观上规定了STEP运行过程 上面截图为ProtBertPPIModel.py的314行-327行这段代码规定了STEP的运行顺序其中我觉得比较重要的点我用红线标了出来 该段代码定义了一个__single_step(self, batch)的方法其输入是batch根据315行可以确定batch是由inputs_A, input_B, targets三部分构成的。之后的316和317行表示将 inputs_A和inputs_B输入到self.forward()方法中得到model_out_A和model_out_B从这一步可以推测出inputs_A是由input_ids, token_type_ids, attention_mask构成。self.forward()的输出作为下一步self.classifier()方法的输入之后得到classifier_output即预测输出之后再利用self.loss_bce_with_integrated_sigmoid()方法计算损失最终__signle_step()方法返回(loss, trues, preds)即损失值、真实标签和预测值。 self.forward()方法定义了ProtBERT模型如何对输入的蛋白序列进行编码的 首先蛋白A和蛋白B的序列由氨基酸构成的字符串不能直接输入到神经网络中进行训练需要将需要将字符串映射为数值型数据。这一步就是干这个事的也就是用预训练的ProtBERT模型将蛋白质序列进行向量化表示。 input_ids, token_type_ids, attention_mask 输入self.ProtBertBFD()方法之后得到word_embeddings之后通过self.pool_strategy()方法对word_embedding进行池化操作而这个self.pool_strategy()如下图所示这里的features指的就是{token_embeddings: word_embeddings, cls_token_embeddings: word_embeddings[:, 0], attention_mask: attention_mask}而self.pool_strategy()的输出output_vectors则计算了三种情况下的池化结果。 这里存在的疑问是input_ids, token_type_ids, attention_mask究竟指的是什么 根据 src/data/VirHostNetDataset.py 中下图所示可以看出input_ids, token_type_ids, attention_mask是由self.tokenizer()方法得到的而self.tokenizer()方法指的是预训练模型Roslab/prot_bert_bfd中的tokenizer这三个数据可以从tokenizer中得到可见 https://huggingface.co/Rostlab/prot_bert_bfd。 self.ProtBertBFD()加载预训练PortBERT模型 正如上面所述预训练模型ProtBERT可以直接从 hugging face 上下载得到通过BertModel.from_pretrained()方法进行加载即可红框所注部分。 self.classifier()对蛋白A和蛋白B特征进行哈达玛积并进行预测分类 将通过self.forward()方法得到的蛋白A和蛋白B的特征进行哈达玛积并将结果输入到self.classification_head()方法中即可得到预测结果其中self.classification_head()方法在上面的__build_model()方法中。 大概情况就是这样有错之处还请指出及时更改其他细节详见代码。 实验结果及讨论 1. Comparative evaluation of STEP with state-of-the-art work: 方法特征模型Tsukiyama (2021)word2vec sequence embedding LSTM-PHV Siamese model (5-fold-cv)Yang (2019)doc2vec RF classifierGuo (2008)auto covariance SVM (5-fold-cv)Sun (2017)AC CT autoencoder (10-fold-cv)Chen (2019)Siamese residual RCNN (5-fold-cv)STEP (2022)ProtBERT Siamese Neural Network 1.1 PPIs 预测任务上各方法的预测表现 1.2 在 PPIs 互作类型和结合亲和力任务上各方法的预测表现 PPIs 互作类型预测    数据集SHS27k dataset由Chen对STRING数据库整理得到包括 26,944 PPIs涉及7种互作类型: activation (16.70%), binding (16.70%), catalysis (16.70%), expression (5.84%), inhibition (16.70%), post-translational modification (ptmod; 10.66%), and reaction (16.70%)。PPIs 结合亲和力预测    数据来自 SKEMPI 数据库包括 2,792 突变蛋白复合物的结合亲和力参考Chen的方法对数据集进行了处理。模型修改    1). 对于PPIs预测任务多分类任务将 bottleneck classification head 替换为三个一样的线性层dropout和ReLU不变将损失函数换成 cross-entropysigmoid 激活函数换成 Softmax。    2). 对于PPIs 结合亲和力预测回归问题将损失函数替换成 mean squared error loss并将预测值缩放到0-1之间。做10-fold-cross validation。 1.3 结论1 Table1 demonstrated at least state-of-the-art performance of STEP.STEP compared on exactly the same data published by Tsukiyama performs similar to their LSTM-PHV method and better than the approach by Yang.TableS4, we also evaluated our STEP architecture on two additional tasks, namely, PPI type prediction and a PPI binding affinity estimation using the data and the CV setup provided by Chen. For both tasks, we reached at least state-of-the-art per- formances with our approach. 2. Prediction of JCV major capsid protein VP1 interactions: We split the brain tissue-specific interactome dataset including all positive and pseudo-negative interactions into training (60%), validation (20%), and test (20%) datasets.After tuning on the validation set, we used our best model to make predictions on the hold-out test set.之所以用 brain tissue-specific interactome 的数据是因为 JCV 可以透过血脑屏障入脑。 2.1 超参数优化模型微调 2.2 STEP-Brain对于脑组织特异性互作蛋白的预测表现 2.3 STEP-Brain对于JCV major capsid protein VP1 互作蛋白的预测结果top10 We used this STEP-brain model to predict interactions of the JCV major capsid protein VP1 with all human receptors. 2.4 JCV major capsid protein VP1 被预测的互作蛋白富集分析结果 Altogether, we observed a strong enrichment of VP1 interactions predicted with olfactory, serotonin, amine, taste, and acetylcholine receptors. 3. Prediction of SARS-CoV-2 spike glycoprotein interactions: 3.1 训练思路 We performed a nested CV procedure on the given SARS-CoV-2 interactions dataset. We used five outer and five inner loops to validate the generalization performance and while performing the hyperparameter optimization in the inner loop. In each outer run, we created a stratified split of the interactome into train (4/5) and test (1/5) datasets. In the nested run, we further split the outer train dataset into train (1/5) and validation (1/5) datasets, which were used to optimize the hyperparameters of the model using the respective training data. 关于 Nested Cross Validation 的示意图图片来自网络 3.2 超参数优化 3.3 STEP-virus-host model 的 Nested CV 测试结果 3.4 STEP-virus-host model 预测SARS-CoV-2 spike 蛋白的人类受体结果 STEP-virus-host model obtained from the best outer fold to predict interactions of the SARS-CoV-2 spike pro- tein (alpha, delta, and omicron variants) with all human receptors that were not already contained in VirHostNet. For all virus variants the sigma intracellular receptor 2 (GeneCards:TMEM97; UniProt:Q5BJF2) was the only one predicted with an outstanding high probability (of 70% in all cases).The sigma 1 and 2 receptors are thought to play a role in regulating cell survival, morphology, and differentiation.In addition, the sigma receptors have been proposed to be involved in the neuronal transmission of SARS- CoV-2. They have been suggested as targets for therapeutic intervention.Our results suggest that the antiviral effect observed in cell lines treated with sigma receptor binding ligands might be due to a modulated binding of the spike protein, thus inhibiting virus entry into cells. 4. 讨论 利用预训练ProtBERT和Siamese neural network架构仅根据蛋白质以及序列来预测 PPIs结果表明该方法STEP比之前的基于LSTM等原理的方法效果更优通过将STEP进行超参数优化得到的模型可以很好地预测脑组织特异性PPIs以及virus-host PPIs的预测微调的模型 STEP-Brain 和 STEP-virus-host 可分别用于预测 JCV major capsid protein VP1 互作蛋白以及 SARS-CoV-2 spike glycoprotein 互作受体作者首次提出将预训练大模型用于PPIs预测意义还是很重大的。但是整体上来看尽管模型比较简单但是对计算资源的要求很高每一次微调需要 2xA100GPU with VMEM of 32GB尽管可以并行但是微调116次作者用了10days的时间 【本文章给我的启发就是没有足够的计算资源大模型还是不要搞得好‍】
http://www.dnsts.com.cn/news/119113.html

相关文章:

  • 网站建设管理情况说明WordPress建站维护服务
  • 建设一个网站的规划平面设计兼职接单群
  • 网站做推广需要营业执照网站关键词写在哪里
  • 企业网站宣传视频外链郑州百度快速排名提升
  • 厂西建设厅网站代做网站app
  • 网站站点建设做全球视频网站赚钱吗
  • 网站基础模板我做网站编辑写文章很慢怎么办
  • 免费建立自己的个人网站网站建设摊销会计分录
  • 成品网站能用吗wordpress能发多少邮件
  • 百度上能收到的企业名称网站怎么做玛沁县公司网站建设
  • 百度竞价推广出价技巧aso搜索优化
  • wordpress 访问不了泰安抖音seo
  • 营销网站设计方案中国风html5网站模板
  • 在线做文档的网站成都市温江区建设局网站
  • 做产地证网站泰安市建设信息网站
  • 珠海网站制作推广公司哪家好网易收不到wordpress
  • 泉州网站建设有哪些网站建设制作与运营
  • 苏州工业园区建设网站东莞网络优化服务商
  • 网站建设合同属于印花税的哪个税目佛山制作网站公司哪家好
  • 建设市政务信息共享网站建筑工程网首页
  • 工程建设管理网站卫生计生加强门户网站建设
  • 医院预约挂号系统网站开发方案杭州网站搜索
  • 多语种 小语种网站推广方法西安专业做网站的
  • 专业图书商城网站建设网站建设中 html免费
  • 医疗网站建设基本流程网站建设调查的问卷
  • 网站开发语言是什么 东西小榄做网站企业
  • 网站建设维护php简单搜索网页代码
  • 网站开发的疑虑做网站静态和动态
  • 临沂市经济开发区建设局网站精品网站建设费用 要上磐石网络
  • 国外创意设计网站在一个网站的各虚拟目录中默认文档的文件名要相同