当前位置: 首页 > news >正文

揭阳做网站设计wordpress 柚子皮下载

揭阳做网站设计,wordpress 柚子皮下载,品牌营销策略,aso优化的主要内容为论文链接#xff1a;https://arxiv.org/pdf/2011.05367.pdf 摘要 社交媒体被故意用于恶意目的#xff0c;包括政治操纵和虚假信息。大多数研究都集中在高资源语言上。然而#xff0c;恶意行为者会跨国家/地区和语言共享内容#xff0c;包括资源匮乏的语言。 在这里#xf…论文链接https://arxiv.org/pdf/2011.05367.pdf 摘要 社交媒体被故意用于恶意目的包括政治操纵和虚假信息。大多数研究都集中在高资源语言上。然而恶意行为者会跨国家/地区和语言共享内容包括资源匮乏的语言。 在这里我们调查是否以及在何种程度上可以在低资源语言设置中检测到恶意行为者。我们发现2016 年美国总统大选后Twitter 打击干扰行动的一部分是大量用他加禄语发布的账户被暂停。 通过结合文本嵌入和迁移学习我们的框架可以准确地检测到用他加禄语发布的恶意用户而无需事先了解该语言的恶意内容或对其进行训练。 我们首先独立学习每种语言的嵌入模型即高资源语言英语和低资源语言他加禄语。 然后我们学习两个潜在空间之间的映射来传输检测模型。 我们证明所提出的方法显着优于包括 BERT 在内的最先进模型并且在训练数据非常有限的环境中产生显着优势——这是处理在线平台中检测恶意活动时的常态。 引言 虚假信息和政治操纵由来已久例如早在社交媒体时代到来之前的 1984 年一个声称艾滋病毒是美国政府作为生物武器制造的故事在全世界疯传。如今社交媒体以前所未有的速度放大和加速信息传播。 Twitter 和 Facebook 等在线社交网络 (OSN) 一直面临恶意内容的大量增长这破坏了在线话语的真实性和真实性 [1, 21, 24, 32, 74, 77]。 各种研究表明OSN 已被用于恶意目的损害了我们社会的多个组成部分 [42, 75]从地缘政治事件 [22, 27, 44, 58, 63] 到公共卫生 [14, 25, 28、52、78]。机器人和巨魔是社交媒体操纵和虚假信息活动的主要参与者 [3, 11, 26, 45, 62]通常以协调一致的方式 [29, 51, 53, 64, 67, 76]。 人们特别关注政治背景下大规模舆论操纵的风险最好的例子就是2016年美国总统讨论选举中的网络干扰[4, 6]。从那时起OSN 一直在努力打击滥用行为并在其平台上保持信任和健康的对话。尽管付出了努力巨魔和机器人的活动似乎仍然存在[36,43,72]。例如Twitter 识别并暂停了来自不同国家包括俄罗斯、伊朗、孟加拉国和委内瑞拉的恶意帐户[71]这表明存在协调一致的努力来操纵跨国家和跨语言的在线言论。最近皮埃里等人[58] 在乌克兰和俄罗斯之间持续冲突的背景下记录了平台滥用和随后的 Twitter 干预的证据 [57]。虽然其他人已经探索了高资源语言中恶意用户的各种策略[41,43,69,70]以实现他们的检测[12,13,33,49]但在这里我们提出了一种使用迁移学习来检测恶意用户的新方法能够自动识别低资源语言中的行为不当帐户。 这项工作的贡献 我们的目的是调查文本内容是否可以以及在多大程度上可以用作代理来检测社交媒体上的恶意活动特别关注以低资源语言共享消息的帐户。总的来说我们的目标是回答两个主要研究问题 RQ1我们可以仅根据帐户共享的内容将其归类为恶意帐户吗我们探索从推文中学习单词表示以识别暂停帐户的有效性。 RQ2我们可以从高资源语言英语学习模型并将知识转移到低资源语言他加禄语来检测暂停帐户吗我们研究学习两个独立训练的词嵌入之间的映射是否有利于识别行为不当的帐户。 数据美国2016年总统选举 在本研究中我们使用 Twitter 作为测试平台来检测关注 2016 年美国总统大选的恶意账户的活动。该数据集由近 600 万不同用户发布了约 4200 万条推文由 [6] 首次发布。通过 Twitter Streaming API 使用 23 个选举关键词收集推文唐纳德·特朗普 5 个、希拉里·克林顿 4 个、第三方候选人 3 个大选任期11。该收集是在 2016 年 9 月 16 日至 2016 年 10 月 21 日期间进行的。从收集的推文集中删除了重复的推文这些重复的推文可能是通过对 Twitter API 的意外冗余查询捕获的。表 1 列出了最流行的关键词和相关推文数量。虽然所有关键词都是英文但也收集了其他语言的推文。 我们确定了 60 多种不同的语言其中用欧洲语言编写的推文数量最多。其中近 500 万用户发布了超过 3760 万条英文推文。我们发现大量他加禄语的推文他加禄语是一种南岛语是菲律宾四分之一人口的第一语言也是菲律宾一半以上人口的第二语言。按使用人数计算他加禄语是美国第四大常用语言 [73]仅次于英语、西班牙语和中文按推文数量计算他加禄语是我们数据中排名第一的低资源语言。美国也是菲律宾境外菲律宾移民人口最多的国家之一。此外对其维基百科规模的分析进一步证实了他加禄语的资源匮乏状况——维基百科是估计一种语言的数字资源量的常用指标。他加禄语的维基百科目前按文章数量排名第 101 位与其在我们数据集中的流行程度形成鲜明对比。因此我们将注意力集中在他加禄语作为这项工作的目标语言。 4 方法论 4.1 词表示 为了学习词嵌入和训练分类模型我们使用 FastText 框架。 FastText 没有将单词视为文本的原子单元而是将单词表示为一袋字符 n-gram [8]其中每个 n-gram 都有自己的向量表示并且单词表示为其组成字符 n-gram 的总和。这使得模型能够适应形态丰富、词汇量大的语言并能更好地从较小的训练语料库中进行泛化。 尽管基于神经网络的模型在文本分类任务中取得了相当大的成功但它们的训练和部署成本仍然相当昂贵。 FastText 利用分层 softmax 来服务作为 softmax 分类器的快速近似用于计算给定类别的概率分布 [38]。使用特征修剪、量化、散列和再训练来显着减小模型大小而不牺牲准确性或速度这种方法允许在大型文本语料库上训练模型比基于神经网络的方法快得多[37]。 4.2 迁移学习 用于自然语言处理的传统机器学习方法侧重于为特定任务训练专用模型。然而这需要大量数据而对于资源匮乏的语言来说这是很难获取的。历史上这引发了对高资源语言主要是欧洲语言的更多研究从而为这些语言创建了更多资源从而促进了这一循环。迁移学习最近兴起作为一种利用从源语言或源任务学到的知识并利用它来提高目标语言或目标任务性能的方法。 为了解决本工作中分析的目标语言数据稀缺的问题我们使用 MUSE这是一个框架用于在同一空间中对齐来自不同语言的单语词嵌入并允许它们之间的知识转移。 MUSE 使用 Procrustes 对齐来学习从源空间到目标空间的映射以最小化两种语言中相似单词之间的距离 [40]。它接受两组预训练的单语言单词嵌入例如 FastText 学习的单词嵌入作为输入每种语言一组并且可以以监督或无监督的方式学习它们之间的映射。监督方法需要使用双语词典通过识别在共享空间中应该靠近的相似单词对来帮助将两个嵌入对齐在一起。在没有这样的字典的情况下无监督替代方案利用逆向训练来初始化源空间和目标空间之间的线性映射并生成合成并行字典。 [15]表明这种方法可以用于执行无监督单词翻译而无需使用任何并行数据其结果在某些情况下甚至优于先前的监督方法。 4.3 学习任务 单语文本分类。在第一种方法中我们使用每种语言各自的数据集从头开始训练独立的文本分类模型。出于分类目的我们使用 FastText 框架它将文本表示为词袋BoW并将它们的单独表示平均化为组合文本表示。然后将该文本表示形式用作具有 softmax 函数的线性分类器的输入该函数计算标签类的概率分布以进行预测。
http://www.dnsts.com.cn/news/15920.html

相关文章:

  • 建设网站方案青岛网络推广的有哪些公司
  • 莆田网站开发wordpress文章id重新排序
  • 网站与维护深圳网站备案查询
  • 郑州做网站销售怎么样常见的静态网页
  • 网站小程序制作公司辽宁网站建站系统哪家好
  • 想开发一个网站需要怎样做ui设计学校培训机构
  • 提供网站建设服务的网站电子商务网站建设和管理
  • 2007年怎么做网站高端网站设计哪家好
  • 微商网站制作网站自己的
  • 镇江网站建设方式优化北京网站营销seo方案
  • 网站建设方案有关内容房屋设计装修公司
  • 万户做网站好不好WordPress支付宝登录
  • 模板网站与定制网站的价格不忘初心 继续前进网站怎么做
  • 单页面组合网站黄冈做网站公司
  • 怎么做锅炉网站wordpress插件 七牛
  • 外包加工网站电子商务都是做网站的吗
  • 色彩设计网站高校资源网网站建设方案
  • 网站开发分前台后台中华室内设计师
  • 企业网站导航一般做多高排版设计图
  • 小公司做网站用哪种服务器wordpress设置邮件提醒
  • 东莞网站建设托管工作总结2023年个人
  • 大型网站外链是怎么建设的爱南宁app下载二维码
  • 不用dw怎么做网站wordpress表白源码
  • 学做标书的网站小程序开发案例
  • 国外校友网站建设的现状网站设计客户对接流程
  • 京东导购网站开发凡科小程序价格
  • swoole怎么做直播网站海外网站推广方法
  • 设计 网站 源码零售户订烟电商网站
  • 网站更新提示怎末做qq快速登录入口
  • 网站域名区别公司网站建设需求