网站设计制作的服务商,登录html模板,关键词推广营销,创业做网站开发Chatgpt的崛起之路 背景与发展历程背景发展历程 技术原理第一阶段#xff1a;训练监督策略模型第二阶段#xff1a;训练奖励模型第三阶段#xff1a;采用强化学习来增强模型的能力。 国内使用情况及应用的领域面临的数据安全挑战与建议ChatGPT获取数据产生的问题数据泄露问题… Chatgpt的崛起之路 背景与发展历程背景发展历程 技术原理第一阶段训练监督策略模型第二阶段训练奖励模型第三阶段采用强化学习来增强模型的能力。 国内使用情况及应用的领域面临的数据安全挑战与建议ChatGPT获取数据产生的问题数据泄露问题删除权问题语料库获取合规问题 ChatGPT恶意利用产生的问题 结语 OpenAI 11月30号发布首先在北美、欧洲等已经引发了热烈的讨论。随后在国内开始火起来。全球用户争相晒出自己极具创意的与ChatGPT交流的成果。ChatGPT在大量网友的疯狂测试中表现出各种惊人的能力如流畅对答、写代码、写剧本、纠错等甚至让记者编辑、程序员等从业者都感受到了威胁更不乏其将取代谷歌搜索引擎之说。继AlphaGo击败李世石、AI绘画大火之后ChatGPT成为又一新晋网红。下面是谷歌全球指数我们可以看到火爆的程度。 国内对比各大平台最先火起来是在微信上通过微信指数我们可以看到97.48%来自于公众号开始于科技圈迅速拓展到投资圈等。我最先了解到ChatGPT相关信息的也是在关注的科技公众号上随后看到各大公众号出现关于介绍ChatGPT各种震惊体关键词地震、杀疯了、毁灭人类等。随后各行各业都参与进来有趣的整活问数学题问历史还有写小说写日报写代码找BUG…
背景与发展历程
背景
ChatGPT是由OpenAI开发的一个人工智能聊天机器人程序于2022年11月推出。该程序使用基于GPT3.5架构的大型语言模型并通过强化学习进行训练。
ChatGPT以文字方式互动除了可以透过人类自然对话方式进行交互还可以用于相对复杂的语言工作包括自动文本生成、自动问答、自动摘要等在内的多种任务。如在自动文本生成方面ChatGPT可以根据输入的文本自动生成类似的文本在自动问答方面ChatGPT可以根据输入的问题自动生成答案。还具有编写和调试计算机程序的能力。
ChatGPT因其在许多知识领域给出详细的回答和清晰的答案而迅速获得关注但其事实准确性参差不齐被认为是一重大缺陷。ChatGPT于2022年11月发布后OpenAI估值已涨至290亿美元。上线两个月后用户数量达到1亿。
ChatGPT主要包含以下特点
OpenAI使用 RLHFReinforcement Learning from Human Feedback人类反馈强化学习技术对 ChatGPT 进行了训练且加入了更多人工监督进行微调。可以主动承认自身错误。若用户指出其错误模型会听取意见并优化答案。ChatGPT 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时机器人会说明哥伦布不属于这一时代并调整输出结果。ChatGPT 可以承认自身的无知承认对专业技术的不了解。支持连续多轮对话。ChatGPT可以通过分析语料库中的模式和敏感词或句子来识别敏感话题种族政治人身攻击等。它将会自动识别可能触发敏感问题的输入并且可以自动过滤掉敏感内容最大程度地确保用户的安全。此外它也可以帮助用户识别出可能触发敏感问题的话题从而避免他们无意中使用不当的语言破坏聊天气氛。
发展历程
在过去几年中Google一直是NLP领域大规模预训练模型的引领者而2022年11月ChatGPT的发布其效果惊艳了众多专业以及非专业人士虽然Google也紧接着发布了类似的Bard模型但已经错失了先机。下图是这场旷日持久的AI暗战之下的关键技术时间线。
技术原理
在整体技术路线上ChatGPT在效果强大的GPT 3.5大规模语言模型LLMLarge Language Model基础上引入“人工标注数据强化学习”RLHFReinforcement Learning from Human Feedback来不断微调Fine-tune预训练语言模型主要目的是让LLM模型学会理解人类的命令指令的含义比如给我写一段小作文生成类问题、知识回答类问题、头脑风暴类问题等不同类型的命令以及让LLM学会判断对于用户给定的问题也称prompt什么样的答案是优质的富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等多种标准。
具体而言ChatGPT的训练过程分为三个阶段
第一阶段训练监督策略模型
GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图首先会在数据集中随机抽取问题由专业的人类标注人员给出每个问题prompt的高质量答案形成prompt,answer问答对然后用这些人工标注好的数据来微调 GPT-3.5模型获得SFT模型, Supervised Fine-Tuning。
经过这个过程可以认为SFT初步具备了理解人类问题中所包含意图并根据这个意图给出相对高质量回答的能力但是很明显仅仅这样做是不够的因为其回答不一定符合人类偏好。
第二阶段训练奖励模型
这个阶段主要是通过人工标注训练数据来训练奖励模型Reward Mode。在数据集中随机抽取问题使用第一阶段训练得到的模型对于每个问题生成多个不同的回答。人类标注者对这些结果综合考虑例如相关性、富含信息性、有害信息等诸多标准给出排名顺序。这一过程类似于教练或老师辅导。
接下来使用这个排序结果数据来训练奖励模型。对多个排序结果两两组合形成多个训练数据对。奖励模型接受一个输入给出评价回答质量的分数。这样对于一对训练数据调节参数使得高质量回答的打分比低质量的打分要高。
第三阶段采用强化学习来增强模型的能力。
PPOProximal Policy Optimization近端策略优化强化学习模型的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy即将在线学习转化为离线学习这个转化过程被称之为Importance Sampling。PPO由第一阶段的监督策略模型来初始化模型的参数这一阶段利用第二阶段训练好的奖励模型靠奖励打分来更新预训练模型参数。具体而言在数据集中随机抽取问题使用PPO模型生成回答并用上一阶段训练好的奖励模型给出质量分数。把奖励分数依次传递由此产生策略梯度通过强化学习的方式以更新PPO模型参数。
如果我们不断重复第二和第三阶段通过迭代会训练出更高质量的ChatGPT模型。
从上述原理可以看出ChatGPT具有以下几个优势(1) ChatGPT 的基模型GPT3.5使用了千亿级的数据进行了预训练模型可谓是“见多识广”(2) ChatGPT 在强化学习的框架下可以不断学习和优化。
国内使用情况及应用的领域
ChatGPT 目前仍然处于体验和试用阶段且未在国内进行开放注册所以国内暂时还没有实际性的应用。不过在ChatGPT发布之后国内开始出现平替产品例如近期国内正式发布的首个功能对话大模型ChatYuan。
ChatGPT 由美国OpenAI公司于2022年11月发布官网暂未对国内进行开放但有其他方法可以使用教程详见这里。
ChatYuan由中国初创公司元语智能2022年12月发布在线体验网址为www.clueai.cn/chat。
面临的数据安全挑战与建议
ChatGPT存在一些数据安全问题这些问题分为两类一类是ChatGPT获取数据产生的问题一类是ChatGPT恶意利用产生的问题。
ChatGPT获取数据产生的问题
数据泄露问题
用户在使用ChatGPT时会输入信息由于ChatGPT强大的功能一些员工使用ChatGPT辅助其工作这引起了公司对于商业秘密泄露的担忧。因为输入的信息可能会被用作ChatGPT进一步迭代的训练数据。
建议ChatGPT可提升工作生产力不建议完全禁用公司可以制定相应的规则制度并且开发相应的机密信息检测工具指导并辅助员工更安全地使用ChatGPT。
删除权问题
ChatGPT用户必须同意公司可以使用用户和ChatGPT产生的所有输入和输出同时承诺ChatGPT会从其使用的记录中删除所有个人身份信息。然而ChatGPT未说明其如何删除信息而且由于被收集的数据将用于ChatGPT不断的学习中很难保证完全擦除个人信息痕迹。
建议要求ChatGPT给出明确的删除信息的流程与使用的公司达成协议。
语料库获取合规问题
如果ChatGPT通过抓取互联网上的信息获得其训练数据可能并不合法。网站上的隐私政策条款本身表明数据不能被第三方收集ChatGPT抓取数据会涉及违反合同。在许多司法管辖区合理使用原则在某些情况下允许未经所有者同意或版权使用信息包括研究、引用、新闻报道、教学讽刺或批评目的。但是ChatGPT并不适用该原则因为合理使用原则只允许访问有限信息而不是获取整个网站的信息。在个人层面ChatGPT需要解决未经用户同意大量数据抓取是否涉及侵犯个人信息的问题。
建议要求ChatGPT公布数据的使用明细与脱敏流程对于不符合规范的行为要求其进行删除。在使用的过程中如果发现有侵犯隐私信息的情况也可以要求其进行改进。
ChatGPT恶意利用产生的问题
用户对ChatGPT的恶意利用也会带来很多数据安全问题如(1) 撞库生成大量可用于对在线帐户进行自动攻击的潜在用户名和密码组合进行撞库攻击(2) 生成恶意软件利用自然语言编写的能力编写恶意软件从而逃避防病毒软件的检测(3) 诱骗信息利用ChatGPT的编写功能生成钓鱼电子邮件利用对话功能冒充真实的人或者组织骗取他人信息。
建议对于使用ChatGPT的用户需要要求其明确指出内容是使用ChatGPT生成的。也可以使用技术手段自动检测ChatGPT生成的内容例如近期斯坦福大学推出DetectGPT以应对学生通过ChatGPT生成论文并进行进一步的干预。
结语
ChatGPT 现在还处于测试阶段可以看出在未来它可以极大地提升人类的生产力。但由于这是一个新鲜事物还没有完善的法规和政策对它进行约束和规范所以可能会存在一些数据安全等问题。要想实现ChatGPT以及类似产品在国内的落地与商业化还有很长的路要走。