广州外贸独立网站制作,最新的国际新闻,柳市做公司网站,网站栏目页排名这篇文献主要介绍了一个名为PGxQA的资源#xff0c;用于评估大语言模型#xff08;LLM#xff09;在药物基因组学问答任务中的表现。
研究背景
药物基因组学#xff08;Pharmacogenomics, PGx#xff09;是精准医学中最有前景的领域之一#xff0c;通过基因指导的治疗… 这篇文献主要介绍了一个名为PGxQA的资源用于评估大语言模型LLM在药物基因组学问答任务中的表现。
研究背景
药物基因组学Pharmacogenomics, PGx是精准医学中最有前景的领域之一通过基因指导的治疗来提高药物的安全性和疗效。然而由于缺乏教育和意识PGx在临床中的应用进展缓慢。大语言模型LLM如GPT-4的引入为开发能够提供及时信息的医疗聊天机器人提供了可能性。
研究目标
研究的主要目标是开发和评估一个名为PGxQA的资源用于评估LLM在回答PGx相关问题时的表现。该资源旨在帮助临床医生、患者和研究人员更好地理解和利用PGx知识。
方法
自动问题生成使用Python脚本从CPIC数据库中提取相关信息并生成问题-答案对。
LLM查询使用Python脚本将问题发送到本地或远程的LLM服务器并收集LLM的回答。
手动问题生成从实际临床和研究环境中收集问题并手动整理成问题-答案对。
自动评分开发了一系列自动评分函数来评估LLM的表现包括数值评分、信息检索评分和文本相似度评分。
人工评审招募PGx专家对LLM的回答进行人工评审评估其准确性、完整性和安全性。
结果
自动评分结果GPT-4在大多数评分指标上表现优异特别是在数值回答和信息检索任务中表现出色。
人工评审结果GPT-4的回答在准确性、完整性和安全性方面得分较高但在某些问题上仍存在错误或危险的回答。
讨论
研究指出LLM在处理PGx查询时存在一些局限性如对数值回答的准确性较差、容易生成虚假信息等。为了解决这些问题提出了几种改进方法包括提示工程、微调和检索增强生成RAG。
结论
PGxQA为评估LLM在PGx任务中的表现提供了一个框架并展示了GPT-4在这一领域的潜力。未来的研究将继续改进这一框架以确保LLM在临床环境中的应用更加安全和有效。
欢迎关注“赛文AI药学” 赛文AI药学致力于探索人工智能在药学场景中的创新与应用聚焦药师的AI赋能与专业素养提升。我们提供前沿的AI技术动态、实用的药学场景案例分享以及个性化学习资源助力药师在智能化时代实现价值跃升。