当前位置：首页 > news >正文

phpcms建设网站电子商务网站业务流程

news 2026/2/3 12:57:17

phpcms建设网站,电子商务网站业务流程,公关策划公司是干什么的,c2c交易是什么意思文章目录 Abstract1. Introduction2. Learning From Imbalanced Data1. 数据级2. 算法级3. 集成方法 3. Deep Learning From Imbalanced Data基于深度神经网络的实例生成损失函数适应长尾识别 4. DeepSMOTEA. 动机B. 描述C. encoder-decoder框架D. 增强的损失函数E. 人工图像生… 文章目录 Abstract1. Introduction2. Learning From Imbalanced Data1. 数据级2. 算法级3. 集成方法 3. Deep Learning From Imbalanced Data基于深度神经网络的实例生成损失函数适应长尾识别 4. DeepSMOTEA. 动机B. 描述C. encoder-decoder框架D. 增强的损失函数E. 人工图像生成 5. Experimental StudyA. Setup1. 数据集概述2. 类不平衡3. 参考重采样方法4. 分类模型5. 性能度量6. 测试程序7. 结果的统计分析8. DeepSMOTE实现细节 B. 实验1与现有技术水平的比较1. 人工实例的放置2. 与基于像素的过采样方法的比较3. 与基于gan的过采样的比较4. 对模式崩溃的鲁棒性5. 测试集分布的影响 C. 实验2人工生成的图像的质量1. 由DeepSMOTE生成的图像质量2. 对DeepSMOTE图像生成的见解 D. 实验3不同不平衡比条件下的鲁棒性和稳定性1. 对不同不平衡比率的稳健性2. 不同不平衡比条件下的模型稳定性 6. Discussion7. Conclusion**总结****展望** 参考 2-SMOTE算法 Abstract 尽管经过了20多年的进步不平衡的数据仍然被认为是当代机器学习模型面临的一个重大挑战。深度学习的现代进步进一步放大了不平衡数据问题的重要性特别是在从图像中学习时。因此需要一种专门针对深度学习模型的过采样方法可以在保留原始图像属性的同时处理原始图像并且能够生成高质量的人工图像可以增强少数类和平衡训练集。我们提出了深度合成少数过采样技术SMOTE一种新的深度学习模型的过采样算法利用了成功的打击算法的特性。它很简单但在设计上却很有效。它由三个主要部分组成 1)编码器/解码器框架 2)基于SMOTE的过采样 3)是一个专用的损失函数它通过一个惩罚项进行了增强。与基于生成对抗网络GAN的过采样相比DeepSMOTE的一个重要优势是DeepSMOTE不需要鉴别器它生成的高质量的人工图像既信息丰富又适合视觉检查。DeepSMOTE代码可以在https://github.com/dd1github/DeepSMOTE上公开获得。 1. Introduction 从不平衡的数据中学习是机器学习社区[1]所面临的最关键的问题之一。不平衡的类分布影响了分类器的训练过程导致了对大多数类es的不利偏差。这可能导致高错误甚至完全遗漏少数类es。这种情况在大多数现实应用中都不能在例如医学或入侵检测中被接受因此对抗类不平衡问题的算法一直是20多年来[2]研究的焦点。当代的应用程序扩展了我们对数据不平衡问题的看法证实了不平衡的类并不是学习问题的唯一来源。倾斜的类不平衡比率往往伴随着其他因素如困难和边界实例小的间断小样本量[2]或流媒体数据的漂移性质[3][4]。这些不断出现的挑战使该领域不断扩大需要找到新而有效的解决方案可以分析、理解和解决这些数据级的困难。深度学习目前被认为是机器学习中最有前途的分支能够实现卓越的认知和识别潜力。然而尽管其强大的功能深架构仍然非常容易受到不平衡数据分布[5][6]和受到新的挑战如复杂的数据表示[7]不平衡数据之间的关系和提取嵌入[8]数据[9]的不断漂移性质从大量的类[10]学习。 A. 研究目标提出一种新的过采样方法专门针对深度学习模型利用合成少数过采样技术的优势[11]而嵌入在一个深度架构能够有效地操作复杂的数据表示如图像。 B. 动机尽管不平衡数据问题强烈地影响了深度学习模型[12]和浅层模型但在深度学习领域如何应对这一挑战的研究有限。在过去克服这一挑战的两个主要方向是损失函数修改和重采样方法。深度学习重采样方案要么是基于像素的要么是使用生成式对抗网络GANs进行人工实例生成。这两种方法都有很强的局限性。基于像素的解决方案通常不能捕获图像的复杂数据属性也不能生成有意义的人工图像。基于GAN的解决方案需要大量的数据难以调优并可能出现模式崩溃[13]-[16]。因此需要一种新颖的过采样方法专门针对深度学习模型的本质可以在原始图像同时保留他们的属性并能够生成人工图像的高视觉质量和丰富深度模型的鉴别能力。 C. 概要我们提出了一种新的DeepSMOTE一种基于高度流行的深度学习模型的过采样算法。我们的方法结合了基于度量的重采样方法的优点使用数据特性利用他们的性能使用一个能够处理复杂和高维数据的深度架构。三个主要组成1编码器/解码器框架2基于SMOTE的过采样3专用损失函数增强。这种方法允许我们将基于SMOTE生成的有效人工实例嵌入到一个深度编码器/解码器模型中用于流线型和端到端过程包括低维嵌入、人工图像生成和多类(MC)分类。 D. 主要贡献为了使过采样方法成功地应用于深度学习模型它应该满足三个基本标准 1)以端到端方式操作2)学习原始数据的表示并将数据嵌入低维特征空间3)很容易生成可以视觉检查的输出如图像。提出了满足这三个标准的DeepSMOTE并为类不平衡下的深度学习领域提供了以下科学贡献1)深度过采样体系结构我们引入了DeepSMOTE这是一种用于过采样和人工实例生成的自包含深度架构允许高效处理复杂不平衡的高维数据如图像。2)简单有效的解决类不平衡我们的框架简单但设计有效。它只包括三个主要组件分别负责原始数据的低维表示、重采样和分类。3)在训练过程中不需要鉴别器与基于GAN的过采样相比DeepSMOTE的过采样的一个重要优势在于在人工实例生成过程中DeepSMOTE不需要鉴别器。我们提出了一个惩罚函数以确保有效地使用训练数据来初始化生成器。4)高质量的图像生成DeepSMOTE生成高质量的人工图像既适合视觉检查它们与真实对应图像的质量相同又信息丰富允许类的有效平衡减轻了不平衡分布的影响。5)广泛的实验研究我们提出了一个精心设计和彻底的实验研究将DeepSMOTE与最先进的过采样和基于GAN方法进行比较。在两种不同的测试协议上我们使用5个流行的图像基准测试和3个专用的不平衡不敏感度量通过经验证明了DeepSMOTE相对于参考算法的优点。此外我们还证明了DeepSMOTE对不断增加的不平衡比率表现出了极好的鲁棒性能够有效地处理即使是极端倾斜的问题。 E.文章大纲在本文中我们首先概述了不平衡的数据问题和被用来解决这个问题的传统方法。接下来我们将讨论如何使用深度学习方法来生成数据和增强不平衡的数据集。然后我们介绍了我们的不平衡学习的方法它结合了深度学习和打击。最后我们讨论了我们广泛的实验它验证了Deep SMOTE的好处。 2. Learning From Imbalanced Data 关于不平衡数据的第一个工作来自于二元分类问题。这里假设存在多数类和少数类具有特定的不平衡比例。这种倾斜的类分布对机器学习模型提出了挑战因为标准分类器是由一个0-1损失函数驱动的该函数假设对两个类都有统一的惩罚。因此任何由这个功能驱动的学习过程都会导致对大多数类的偏向。与此同时少数类通常更重要因此不能得到不充分的认识。因此致力于克服不平衡问题的方法旨在减轻类的倾斜或交替的学习过程。这三种主要的方法如下。 1. 数据级这个解决方案应该被视为一个独立于分类器的预处理阶段。在这里我们专注于在应用任何分类器训练之前平衡数据集。这通常通过三种方式之一实现1减少多数类的大小欠采样2增加少数类的规模过采样或3前两种解决方案的组合混合方法。欠采样和过采样都可以以随机的方式执行这种方式的复杂度较低但会导致潜在的不稳定行为例如删除重要实例或增强噪声实例。因此有人提出了指导解决方案试图明智地选择实例进行预处理。虽然针对引导欠采样[17]-[19]的解决方案并不多但由于渗透[11]的成功过采样得到了更多的关注这导致了[20]-[24]的引入。然而最近的研究表明基于SMOTE的方法不能正确地处理多模态数据和具有高类内重叠或噪声的情况。因此不依赖于k-近邻的全新方法已经成功地开发出了[25][26]。 2. 算法级与前面讨论的方法相反算法级解决方案直接在所考虑的分类器的训练过程中工作。因此它们缺乏数据级方法所提供的灵活性但用一种更直接和更强大的方法来减少学习算法的偏差。他们还需要深入了解一个给定的训练程序是如何进行的以及它的哪些特定部分可能会导致对大多数阶层的偏见。该算法方法最常解决的问题是为决策树[27]-[29]开发新的倾斜不敏感分割标准对支持向量机[30]-[32]使用实例加权或在深度学习[33]-[35]中修改不同层的训练方式。此外成本敏感的方案[36]-[38]和单类分类[39]-[41]也可以被认为是一种算法级方法的形式。 3. 集成方法管理不平衡数据的第三种方法是使用集成学习[42]。在这里我们要么将流行的集成体系结构通常基于绑定或增强与前面讨论的两种方法中的一种结合起来要么开发一个全新的集成体系结构在自己的[43]上倾斜不敏感。最成功的方法之一是将绑定与欠采样[44]-[46]结合增强任何重采样技术[47]-[49]或使用多个分类器[50]-[52]进行成本敏感学习。数据级技术可以用于管理集成[53]的多样性这是多重分类器系统预测能力背后的一个关键因素。此外为了管理分类器的个体准确性和消除较弱的学习者可以使用动态分类器选择[54]和动态集成选择[55]这确保最终决策将仅基于池[56]中最有能力的分类器。 3. Deep Learning From Imbalanced Data 由于数据不平衡问题越来越受到深度学习研究的关注让我们讨论这一领域的三个主要趋势。基于深度神经网络的实例生成最近将深度学习与浅层过采样方法相结合的工作并没有给出理想的结果而传统的重采样方法也不能有效地增强深度模型[2][57]的训练集。这导致了对生成模型的兴趣并将其以类似于过采样技术[58]的方式工作。编码器/解码器组合可以有效地将人工实例引入到给定的嵌入空间[59]中。GANs[60]、变分自动编码器(VAEs)[61]和瓦瑟斯坦自动编码器(WAEs)[62]已成功应用于计算机视觉(CV)[63]、[64]和机器人控制[65]、[66]以学习数据的潜在分布。这些技术还可以扩展到过采样例如医学成像[67]的数据生成。 VAEs通过最大化数据对数似然值[68][69]的变分下界来运作。VAE中的损失函数通常是通过将重建损失与库尔贝克-莱布勒(KL)散度相结合来实现的。KL散度可以解释为对重构损失的隐性惩罚。通过惩罚重建损失该模型可以学习改变其对数据分布的重建从而基于输入的潜在分布生成输出如图像。 WAEs也表现出生成的特点。与VAE类似WAE的损失函数通常是通过将重构损失和惩罚项相结合来实现的。在WAE的情况下惩罚项表示为鉴别器网络的输出。 GANs在计算机视觉领域、[70][71].等领域取得了令人印象深刻的成果。GANs将图像生成表示为生成器和鉴别器网络[72]之间的最小-最大博弈。尽管它们的结果令人印象深刻但GANs需要使用两个网络有时很难训练并且容易出现模式崩溃即重复生成类似的例子[13]-[16]。损失函数适应使神经网络倾斜不敏感的最流行的方法之一是修改它们的损失函数。这种方法成功地延续到了深度架构中可以被视为一种算法级的修改。修改损失函数背后的想法是基于这样的假设即实例在训练过程中不应该被统一处理并且少数类上的错误应该受到更大的惩罚使其与成本敏感的学习[38]平行。平均假误差[73]和焦点损失[74]是基于这一原理的最流行的两种方法。前者只是平衡了来自少数类和多数类的实例的影响而后者则减少了简单的实例对损失函数的影响。最近还提出了多个其他损失函数如对数双线性损失[75]、交叉熵损失[76]和类平衡损失[77] 长尾识别这个深度学习的子领域是从一些问题演变而来的尽管这些问题的样本量很低但它们仍然应该得到适当的识别。因此长尾识别可以被视为MC不平衡问题的一个极端情况其中我们处理非常多的类数百个和极高的不平衡比率。由于类的大小非常不成比例直接重采样是不可取的因为它要么会显著减少大多数类的大小要么需要创建太多的人工实例。此外分类器需要处理样本量小的问题这使得从尾部类中学习非常具有挑战性。需要注意的是这个领域中的大多数工作都假设测试集是平衡的。这个问题非常有趣的解决方案是基于深度神经网络中损失函数的自适应如均衡损失[78]、无轮毂损失[79]和范围损失[80]。最近的研究建议仔细研究类分布并将它们分解为平衡集——这是传统的不平衡分类中流行的一种方法。Zhou等人[81]提出了一种从全局数据属性到基于类的特征的累积学习方案。Sharma等人。[82]建议使用一个由三个分类器组成的小集成每个分类器专注于类的大多数、中间或尾部组。元学习也通常用于改进尾类[83]的分布估计。 4. DeepSMOTE A. 动机我们提出了DeepSMOTE一种新的和突破性的过采样算法致力于增强深度学习模型和对抗不平衡类造成的学习偏差。如上所述过采样是一种已被证明的对抗类不平衡的技术然而它传统上被用于经典的机器学习模型。人们已经尝试将过采样方法如SMOTE扩展到深度学习模型尽管结果是混合的[84]-[86]。为了使过采样方法成功地应用于深度学习模型我们认为它应该满足三个基本标准。 1)它应该通过接受原始输入来以端到端方式操作例如图像(即类似于VAEs、WAEs和GANs)。2)学习原始数据的表示并将数据嵌入低维特征空间用于过采样。3)它应该很容易地生成输出例如图像可以被视觉检查而不需要广泛的操作。 B. 描述 DeepSMOTE由一个编码器/解码器框架、一个基于SMOTE的过采样方法和一个具有重构损失和惩罚项的损失函数组成。下面将讨论这些特征图1描述了DeepSMOTE方法的流程而算法1中给出了DeepSMOTE方法的伪代码概述。图1DeepSMOTE实现的说明。编码器/解码器结构的训练与不平衡的数据和重建和惩罚损失。在训练过程中对数据进行采样、编码并在解码前对例子的顺序进行排列。然后将训练好的编码器和解码器与SMOTE结合产生过采样数据。 C. encoder-decoder框架 DeepSMOTE主干是基于已建立的深度卷积GAN(DCGAN)体系结构[87]。Radford等人[87]在GAN中使用了鉴别器/生成器这从根本上类似于编码器/解码器因为鉴别器有效地编码输入没有最终的完全连接的层而生成器解码器产生输出。编码器和解码器以端到端的方式进行训练。在DeepSMOTE训练过程中一个不平衡的数据集被分批发送给编码器/解码器。根据批处理的数据计算重建损失。在训练过程中使用所有的类以便编码器/解码器可以学习从不平衡的数据中重建多数类和少数类图像。由于少数类的例子很少所以使用大多数类的例子训练模型以学习数据中固有的基本重构模式。这种方法基于类共享一些相似特征的假设eg所有类都代表数字或面。因此例如虽然数字9少数类与数字0大多数类居住在一个不同的类中但该模型学习数字的基本轮廓。 D. 增强的损失函数 • 除了重建损失外DeepSMOTE损失函数还包含一个惩罚项。惩罚项是基于对嵌入式图像的重建。DeepSMOTE的惩罚损失由以下方式产生。 • 在训练过程中从所有类©的集合中随机选择一个类©然后从c中随机抽取一组样本其数量等于批处理大小。因此采样示例的数量与用于重建损失目的的示例的数量相同然而与在训练的重建损失阶段使用的图像不同采样的图像都来自同一类。 • 通过编码器将采样后的图像简化为一个较低维的特征空间。在解码阶段解码器不按照与编码的图像相同的顺序重建编码的图像。通过改变来自同一类的重建图像的顺序我们有效地将方差引入到编码/解码过程中。例如图像的编码顺序可以是D0、D1、D2并且图像的解码顺序可以是D2、D0、D1。这种差异有助于在推理过程中生成图像(其中图像被编码、SMOTE、被解码)。 • 排列步骤是必要的因为DeepSMOTE使用了一个自动编码器一个编码器和一个解码器。一个自动编码器的输出相对于它的输入是确定性的在这个意义上一个自动编码器只能解码或生成它所编码的内容。在一个标准的自动编码器中被编码和解码的数据没有差异。因此一个标准的自动编码器不能生成与输入数据不同的示例。我们的目标是在编码的特征空间中引入方差从而使解码的例子与自动编码器的输入不同但受到输入数据的约束。我们通过排列被编码数据的顺序将方差引入到编码/解码过程中。因此编码图像D0和解码图像D1之间必然存在一定的差异。差异不太可能非常大因为D0和D1D0都来自同一个类然而会有些不同。这种差异就变成了惩罚项。通过在编码过程中引入方差解码器在不同于输入数据的解码例子中获得了“实践”自动编码器中的标准解码器没有被训练去做。这种“实践”是必要的因为在推理过程中一个例子被编码然后它通过打击插值改变到一个不同的例子解码器必须解码。 • 惩罚损失是基于D0和D1、D1和D2之间的均方误差(MSE)差以此类推就像图像被打击过采样即好像基于图像和图像的邻居之间的差生成图像。这一步旨在在编码/解码过程中插入差异。因此我们避免了对鉴别器的需要因为我们使用训练数据来通过简单地改变编码/解码图像的顺序来训练生成器。 • SMOTE算法通过随机选择一个少数类的例子及其一个类邻居来生成合成实例。计算了该示例与其邻居之间的距离。将距离乘以一个随机百分比即在0到1之间然后添加到示例实例中以生成合成实例。我们在DeepSMOTE训练过程中通过选择一个类样本并计算实例与其邻居之间的距离在嵌入或特征空间中来模拟SMOTE的方法除了训练过程中的距离(MSE)被用作重构损失的隐式惩罚。正如Arjovsky等人[16]所指出的许多生成式深度学习模型有效地在其损失函数中加入了惩罚或噪声项从而将多样性赋予模型分布。例如VAEs和WAEs在其损失函数中都包含了惩罚项。我们在训练中使用排列而不是刺激因为它更提高记忆和计算效率。在推理阶段使用惩罚项和SMOTE在插入合成样本时的保真度允许我们避免使用鉴别器这通常被GAN和WAE模型使用。 E. 人工图像生成一旦DeepSMOTE被训练好就可以使用编码器/解码器结构生成图像。编码器将原始输入减少到一个较低维的特征空间这是被打击过采样。然后解码器将SMOTED特征解码为图像这可以增强深度学习分类器的训练集。 DeepSMOTE训练阶段和生成阶段的主要区别是在数据生成阶段SMOTE取代了顺序排列步骤。在数据生成过程中使用SMOTE来引入方差而在训练过程中方差是通过排列被编码和解码的训练例子的顺序以及通过惩罚损失来引入的。SMOTE本身不需要训练因为它是非参数的。 5. Experimental Study 我们设计了以下实验研究以回答以下研究问题: RQ1DeepSMOTE是否能够超越最先进的基于像素的过采样算法 RQ2DeepSMOTE能否超过用于处理复杂和不平衡的数据表示的最先进的基于gan的重采样算法 RQ3测试集分布对DeepSMOTE性能有什么影响 RQ4DeepSMOTE生成的人工图像的视觉质量如何 RQ5DeepSMOTE对不断增加的类不平衡比率是否稳健 RQ6DeepSMOTE能否在极端的类别不平衡情况下产生稳定的模型 A. Setup 1. 数据集概述我们选择了5个常用数据集作为评估不平衡数据过采样的基准改进的国家标准研究和技术数据集(MNIST)[88]Fashion-MNIST数据集(FMNIST)[89]CIFAR-10[90]街景房屋号码(SVHNs)[91]和大规模的名人脸属性(CelebA)[92]。下面我们将讨论它们的细节而它们的类分布如表I所示。表I五个基准数据集的类分布 • MNIST/FMNISTMNIST由手写数字组成FMNISTZalando服装文章图像。这两个训练集都有6万张图像。两个数据集都包含灰度图像1×28×28每个图像都有10个类。 • CIFAR-10/SVHNCIFAR-10由汽车、猫、狗、青蛙和鸟类等图像组成而SVHN由谷歌街景图像中的房子编号的小数字组成。CIFAR-10有50 000 张训练图像。SVHN有73 257 位数字用于训练。这两个数据集都由彩色图像3×32×32组成每个图像都有10个类。 • CelebACelebA数据集包含20万张名人图片每张图片都有40个属性注释即类。该数据集中的彩色图像3×178×218覆盖了较大的姿态变化和背景杂波。为了本研究的目的我们将图像的大小调整为3×32×32并选择了5个类黑头发、棕色头发、金色、灰色和秃头。 2. 类不平衡通过从训练集中的每个类中随机选择样本来引入不平衡。对于MNIST和FMNIST不平衡的例子数量为[4000、2000、1000、750、500、350、200、100、60、40]。对于CIFAR-10和SVHN数据集不平衡实例的数量为[4500、2000、1000、800、600、500、400、250、150、80]。对于CelebA不平衡的例子的数量是[9000、4500、1000、500、160]。对于MNIST和FMNIST各自的多数类与最小的少数类的不平衡比率为1001而对于CIFAR-10、SVHN和CelebA该比例约为。56:1.在实验3中我们在[20 400]中创建了每个数据集的20个版本。这种不平衡比率是最大和最小类之间的不比例而所有其他不平衡比率都是根据类的数量成比例分布的。这被称为多数方法我们有一个多数类所有其他类都是少数类。 3. 参考重采样方法为了评估DeepSMOTE的有效性我们将其与目前最先进的浅层和深度重采样方法进行了比较。我们选择了四种基于像素的现代过采样算法SMOTE[11]、基于自适应的马氏距离的过采样(AMDO)[93]、组合清洗和重采样(MC-CCR)[94]和基于径向的过采样(MC-RBO)[95]。我们还选择了两种性能最好的基于GAN的过采样方法平衡GAN(BAGAN)[96]和生成式对抗性少数过采样(GAMO)[97]。BAGAN用自动编码器的解码器部分初始化其生成器该部分在少数和多数图像上进行训练。GAMO是基于凸生成器、分类器网络和鉴别器之间的三人对抗博弈。 4. 分类模型所有的重采样方法都使用相同的Resnet-18[98]作为它们的基本分类器。 5. 性能度量以下度量用于评估各种模型的性能平均类别特定精度(ACSA)、宏观平均几何平均值(GM)和宏观平均F1测度(FM)。索科洛娃和拉帕尔姆已经证明这些措施对大多数[99]类没有偏见 6. 测试程序采用五倍交叉验证的方法对评估方法进行训练和测试。因此我们随机打乱每个训练集并将训练集分成五份。然后选择每个折叠体作为一个测试组并从剩下的组中抽取训练示例。采用了两种形成测试集的方法不平衡测试和平衡测试。对于不平衡测试测试示例的比例与训练集中存在的不平衡比例相同这种方法在不平衡分类领域很常见。对于平衡测试集所有类的测试示例的数量近似相等这种方法在长尾识别领域很常见。例如使用MNIST/FMNIST有60 000 个例子。通过五倍交叉验证每个分割由12 000 个示例组成分为10个类或大约。每个类有1200个示例。 7. 结果的统计分析为了评估DeepSMOTE是否在统计上显著优于参考重采样算法我们使用弗里德曼检验与谢弗事后检验[100]和贝叶斯威尔克森符号秩检验[101]在多个数据集上进行统计比较。两种检验均采用了0.05的统计学显著性水平。 8. DeepSMOTE实现细节如上所述为了实现DeepSMOTE我们使用了Radford等人[87]开发的DCGAN架构并进行了一些修改。编码器结构由四个卷积层组成然后是批处理归一化[102]和LeakyReLu激活函数[103]。每一层由具有指定的内核大小(K)和步幅(S)的卷积通道©组成。对于所有的数据集卷积层都有以下参数C[64,128,256,512]K[4,4,4,4]和S[2,2,2,2]。最后一层是一个致密层MNIST和FMNIST的潜在维度为300CIFAR-10、SVHN和CelebA数据集的潜在维度为600。解码器结构由镜像卷积转置层组成它使用批归一化和整流线性单元(ReLU)激活函数[104]除了最后一层使用Tanh。我们对模型进行了50-350个时期的训练这取决于训练损失何时达到稳定状态。我们使用Adam优化器[105]学习率为0.0002。我们在PyTorch中使用NVIDIA GTX-2080GPU实现了DeepSMOTE。 B. 实验1与现有技术水平的比较 1. 人工实例的放置基于人工实例生成的过采样算法的关键要素之一在于它们放置实例在特征空间中的位置。随机定位是远远不可取的因为我们想要保持少数类的原始属性并在不确定/困难的区域增强它们。这些区域大多是类边界、重叠区域和小的间断区域。因此最好的过采样方法侧重于实例的智能放置不仅能平衡类分布而且还能降低学习难度。图2使用PCA和t-SNE说明MNIST实例在类中的分布。在应用t-SNE之前首先使用PCA减少高维图像其中X轴和y轴表示t-SNE分量。(a)原始不平衡训练集分布。(b)使用BAGAN进行均衡分配。(c)与GAMO平衡分配。(d)使用DeepSMOTE实现均衡分布。(a)数据不平衡。(b)巴根。(c)GAMO(d)DeepSMOTE。图2 描述了一个不平衡的MNIST数据集的二维投影以及使用BAGAN、GAMO和DeepSMOTE进行过采样后的类分布。在图2中我们采用主成分分析(PCA)对过采样数据集进行降维然后采用t-分布随机邻域嵌入(t-SNE)以更好地可视化数据实例分布[106]。我们可以注意到BAGAN和GAMO都专注于独立地饱和每个类的分布在每个类的主分布中生成一个绝对数量的人工实例。这种方法平衡了训练数据可能有助于一些基于密度的分类器。然而BAGAN和GAMO都没有关注以定向的方式引入人工实例来增强类边界也没有提高在过采样数据上训练的分类器的识别能力。 DeepSMOTE将由类几何控制的过采样与我们的惩罚函数相结合引入实例以降低少数类的错误概率。我们假设这可以更好地放置人工实例并结果在实验比较中看到更准确的分类。 2. 与基于像素的过采样方法的比较第一组参考算法是四种最先进的过采样方法。表II和表III显示了它们三个指标和两种测试集分布类型的结果。清楚地看到基于像素的过采样不如基于gan的算法和DeepSMOTE。这使得我们可以得出结论在处理复杂和不平衡的图像时基于像素的过采样不是一个好的选择。不出所料标准SMOTE在所有被评估的算法中表现最差而其他三种方法试图抵消它们无法用高级实例生成模块处理数据的空间属性的能力。MC-CCR和MC-RBO都返回了所有四种测试算法的最佳结果而MC-RBO则接近于基于gan的方法。这可以归因于它们的复合过采样解决方案它分析实例的难度并优化新实例的放置同时清理重叠区域。然而这是以非常高的计算复杂度和具有挑战性的参数调整为代价的。与基于像素的方法相比DeepSMOTE返回了更好的平衡训练集同时提供了一个直观和易于调优的架构并且根据表4中提供的非参数和贝叶斯检验在统计上优于所有基于像素的方法(RQ1回答)。 3. 与基于gan的过采样的比较表II和表III显示无论使用何种度量DeepSMOTE在除两种情况外的所有情况下都优于基于gan的基线模型。这两种情况都发生在F1测量和不同的模型上(BAGAN在CELEBA上显示的F1值略高而在CIFAR上显示的是GAMO)。值得注意的是对于相同的基准测试DeepSMOTE提供了比任何这些参考算法都更高的ACSA和GM值这允许我们得出结论F1级的性能变化并不能反映DeepSMOTE如何处理少数类。我们假设DeepSMOTE的成功可以归因于更好地放置人工实例和增强不确定性区域。因为过采样是由我们的惩罚损失函数驱动的。DeepSMOTE具有增强决策边界的潜力有效地减少了分类器对大多数类的偏差。由于DeepSMOTE是由选择和放置人工实例的基于SMOTE的方法驱动的我们确保少数类是由具有高鉴别质量的不同训练数据组成的丰富。表4显示DeepSMOTE显著的方式上优于所有基于gan的方法(RQ2回答)。这也带来了直接生成更高质量的人工图像的额外好处这将在下面的实验中讨论。我们注意到CIFAR-10数据集是深度过采样算法中最具挑战性的基准测试。我们假设与其他数据集相比这些模型在CIFAR-10上没有表现出较高的准确性的原因是因为CIFAR-10类没有类似的属性。例如在MNIST和SVHN中所有的类都是数字的实例在CelebA中所有的类都代表脸而在CIFAR-10中类是多样的例如猫、狗、飞机、青蛙。因此模型不能利用它们从多数类有更多的示例学习到的信息影响到少数类包含更少的示例。此外我们还注意到在某些情况下CIFAR-10类特征似乎有显著的重叠。 4. 对模式崩溃的鲁棒性 DeepSMOTE并不具有基于gan的过采样的一些局限性比如模式崩溃。。一个广泛用于确定生成图像质量和测量模式崩溃的指标是Frechet初始距离(FID) [107]。 FID基于初始网络中的特征激活[108]来计算分数评估真实图像和生成图像的分布之间的距离。较低的分数或真实图像和生成图像之间的距离表示更真实的图像。因此在样本基础上我们选择了训练图像(真实)和由DeepSMOTE、BAGAN和GAMO生成的图像用于CelebA数据集中的少数类(类别bald)。我们计算了每个模型的FID分数并注意到DeepSMOTE的FID分数(48.88)大大低于GAMO (213.66)和BAGAN (256.88)。 5. 测试集分布的影响第一个实验的最后一部分集中于评估类分布在测试集中的作用。在不平衡数据学习领域测试集遵循训练集的分布以反映实际的类不比例[1]。这也影响了几个成本敏感方法的计算这些方法更严重地惩罚少数类[2]的错误。然而最近出现的长尾识别领域遵循了一个不同的测试协议[78]。在这种极端MC不平衡的情况下训练集是倾斜的但大多数基准测试的测试集是平衡的。由于DeepSMOTE的目标是成为一种处理不平衡数据预处理和重采样的通用方法我们评估了它在这两种场景下的性能。表2DeepSMOTE实现的说明。编码器/解码器结构的训练与不平衡的数据和重建和惩罚损失。在训练过程中对数据进行采样、编码并在解码前对例子的顺序进行排列。然后将训练好的编码器和解码器与SMOTE结合产生过采样数据。表2报告了传统的不平衡设置的结果而表3反映了长尾识别设置。我们可以看到DeepSMOTE在这两种情况下都很出色这证实了我们之前关于基于像素和基于gan的方法的观察。有趣的是对于长尾设置DeepSMOTE在CIFAR10和CelebA数据集上返回了稍微更好的F1性能。这可以用F1度量的计算方式来解释因为它对精度和召回率同等重要。当处理平衡测试集时DeepSMOTE能够在这两个指标上返回更好的性能。对于所有其他度量和数据集DeepSMOTE显示了不平衡和不平衡测试集的类似趋势。这使得我们可以得出结论DeepSMOTE是对不平衡和长尾识别场景的一个合适和有效的解决方案(RQ3回答)。 C. 实验2人工生成的图像的质量 1. 由DeepSMOTE生成的图像质量图3-7展示了由BAGAN、GAMO和DeepSMOTE为所有五个基准数据集人工生成的图像。我们可以看到由DeepSMOTE生成的图像的质量。这可以归因于DeepSMOTE使用了一种具有增强损失函数的高效编码/解码架构以及通过基于度量的实例计算来保留类拓扑。我们注意到在GAMO的情况下我们提供了用于分类目的的图像而不是由GAMO2PIX方法生成的图像以便提供了GAMO训练图像与BAGAN和DeepSMOTE生成的训练图像的直接比较。这两个实验的结果都表明DeepSMOTE生成的人工图像既信息丰富即它们提高了深度分类器的鉴别能力它们对抗了大多数偏差又具有高视觉质量(RQ4回答)。 2. 对DeepSMOTE图像生成的见解图8描述了通过将基本图像与其最近的邻居图像结合起来生成新的人工图像的过程。每幅图像影响组合过程的比率由SMOTE算法的比例因子随机确定(该算法根据新的人工图像与基础图像和相邻图像的相似程度得出0-1的值) 由于DeepSMOTE在图像的编码域上进行操作因此新的人工图像是由目标图像及其最近邻的图像组合生成的在图8中我们可以看到不同的比例因子值如何导致不同类型的输出图像——有些更类似于基本图像有些更类似于最近邻图像以及一些具有两种图像的独特特征。我们假设这种生成图像的多样性可能是导致DeepSMOTE出色性能的原因。为了获得最佳的人工丰富和多样化的数据集在未来研究一种直接控制尺度因子的直接方法似乎是值得的。 D. 实验3不同不平衡比条件下的鲁棒性和稳定性 1. 对不同不平衡比率的稳健性从不平衡的数据中学习的最具挑战性的方面之一是创建能够解决多种数据级问题的鲁棒算法。许多现有的重采样方法只有在特定条件下或在有限的不平衡比范围下才能得到很好的结果。因此为了全方面了解DeepSMOTE性能我们分析了它的不平衡比在[20,400]范围内的鲁棒性。图9描述了这三个性能指标与所使用的五个基准测试上不断增加的不平衡比率之间的关系。该实验不仅允许我们评估DeepSMOTE和各种倾斜场景下的参考方法而且还提供了每种重采样方法显示的性能曲线特征。理想的重采样算法的特征应该是对增加的不平衡比率具有高鲁棒性显示稳定或者随着类不平衡的增加性能下降很小。急剧和显著的性能下降表明了重采样方法的临界点并显示了一个给定的算法何时停止能够生成有用的实例和对抗类的不平衡。通过分析图9我们可以得出几个有趣的结论。首先实验1表明基于像素的解决方案不如基于gan的解决方案。然而我们可以看到这种观察结果并不适用于不平衡比率的极端值。当类之间的不占比例增加时基于像素的方法(特别是MC-CCR和MC-RBO)开始显示出更强的鲁棒性。相反这两种基于gan的方法对增加的不平衡比率更为敏感我们可以观察到它们的预测能力下降得更快。这可以用两个因素来解释重采样方法使用原始实例的方法和样本量小的问题。前一个因素显示了基于gan的方法的局限性。虽然它们专注于实例生成和创建高质量的图像但它们并没有更复杂的机制来精确地注入新的人工实例。随着较高的不平衡比率这部分开始发挥至关重要的作用因为分类器需要处理越来越困难的偏差。目前基于gan的模型对这个问题使用了相对简单的机制。相反基于像素的方法依赖于更复杂的机制(例如MC-CCR使用基于能量的函数而MC-RBO使用局部优化来定位它们的人工实例)。随着不平衡比率的增加这种机制开始主导更简单的基于gan的解决方案使基于像素的方法对极端的不平衡比率更健壮。下一个因素小样本量也强烈影响基于GAN的算法。在极度不平衡的情况下我们拥有的少数类实例越来越少这使得训练有效的GANs变得更加困难。与基于像素和基于gan的方法相比DeepSMOTE即使对最高的不平衡比率也显示出极好的鲁棒性。我们可以看到DeepSMOTE能够有效地处理这样一个具有挑战性的场景在所有评估指标上显示出最低的性能下降。这可以归因于SMOTE在类几何图形之后生成人工实例而且只使用最近的邻居来生成实例。这使得我们可以得出结论DeepSMOTE不像基于gan的方法那样受到小样本量和智能放置人工实例的影响从而导致良好的鲁棒性(RQ5回答)。 2. 不同不平衡比条件下的模型稳定性评估现代重采样算法的另一个重要方面是它们的稳定性。我们需要评估一个给定的模型如何对数据中的小扰动做出反应因为我们想评估它的泛化能力。在如此小的变化下显示出高方差的模型不能被视为稳定的因此不应该被首选。这在从不平衡数据区域学习时尤为重要因为我们希望选择一种重采样算法在任何数据排列下生成信息丰富的人工实例为了评估这一点我们测量了DeepSMOTE和基于gan的算法在20次重复的5倍交叉验证下的性能指标的扩展。在每次重复实验中少数类是从原始的平衡基准中随机创建的。这确保了我们不仅测量了在单个数据集实例中训练数据排列的稳定性而且还测量了使用不同困难的实例创建少数类的可能性。图10为三种重采样方法的图阴影区域表示结果的标准差。在较高的不平衡比率下基于gan的方法显示出越来越大的差异表明这些方法不能被认为是挑战不平衡数据问题的稳定模型。 DeepSMOTE在这些指标中返回了最低的方差显示了我们的重采样算法的高稳定性。这一信息丰富了我们之前关于DeepSMOTE的鲁棒性的观察。图中的联合分析。9和10允许我们得出这样的结论DeepSMOTE可以处理类之间的极端不平衡同时在具有挑战性的条件下生成稳定的模型(RQ6回答)。 6. Discussion 简单的设计是有效的DeepSMOTE是一种对抗类不平衡和训练倾斜不敏感的深度学习分类器的有效方法。它优于最先进的解决方案并能够工作在原始图像表示。DeepSMOTE由三个组件组成一个编码器/解码器与一个专用的损失函数和基于SMOTE的重采样相结合。这种简单性使它成为处理深度学习中的类不平衡的一种易于理解、透明但又非常强大的方法。用于人工实例生成的专用数据编码DeepSMOTE使用一种两阶段的方法首先训练一个专用的编码器/解码器架构然后使用它来获得过采样过程的高质量嵌入。这使得我们能够为过采样找到最佳的数据表示允许基于SMOTE的生成来丰富少数类的训练集。人工实例的有效放置DeepSMOTE遵循少数类的几何属性在类之间的边界上创建人工实例。我们假设这在平衡的数据集上使用DeepSMOTE导致了判别模型的训练的改进这反过来导致了分类准确性的改进和对多数类的偏差的减少优于基于像素和基于gan的算法DeepSMOTE优于最先进的重采样方法。能够通过处理原始图像并从中提取特征DeepSMOTE可以生成比基于像素的方法生成更有意义的人工实例即使使用相对更简单的实例生成规则也是如此。通过使用高效和专用的数据嵌入DeepSMOTE可以在不同的不平衡比率下比基于gan的解决方案更好地丰富少数类易于使用原始SMOTE算法巨大成功的原因之一是它简单直观的使用。DeepSMOTE遵循这些步骤因为它不仅准确而且是一个有吸引力的现成解决方案。我们的方法很容易在任何数据上进行调整和使用既作为黑盒解决方案也作为开发新颖和健壮的深度学习架构的基石。随着深度学习被越来越广泛的跨学科受众所使用这种特征受到了高度的追捧。高质量的生成图像DeepSMOTE可以返回高质量的人工图像在视觉检查下与真实图像没有区别。这使得DeepSMOTE成为一种全面的方法因为生成的图像既清晰又信息丰富。优秀的鲁棒性和稳定性DeepSMOTE可以处理极端的不平衡比率同时对小样本量和数据内的方差具有鲁棒性。DeepSMOTE比任何一种参考方法都更不容易发生训练数据的变化。它是一种稳定的过采样方法适用于增强在现实应用程序中部署的深度学习模型 7. Conclusion 总结我们提出了DeepSMOTE一个新的和变革性的不平衡数据模型它融合了高度流行的SMOTE算法和深度学习方法。DeepSMOTE是一种有效的过采样解决方案用于训练不平衡数据分布上的深度架构。它可以被看作是类不平衡的数据级解决方案因为它创建了平衡训练集的人工实例然后可以用来训练任何深度分类器而不受偏差。DeepSMOTE独特地满足了一个成功的重采样算法的三个关键特征对原始图像进行操作的能力创建高效的低维嵌入以及生成高质量的人工图像。这是通过一种新的架构而实现的该架构将编码器/解码器框架与基于烟雾的过采样和增强的损失函数相结合。大量的实验研究表明DeepSMOTE不仅优于最先进的基于像素和基于gan的过采样算法而且在生成人工模型稳定性的同时提供了无与伦比的鲁棒性展望下一个工作将集中于使用关于类级和实例级困难的信息来增强DeepSMOTE这将使它能够更好地解决特征空间中具有挑战性的区域。我们计划通过实例级惩罚来增强我们的专用损失函数以便将编码器/解码器训练集中在显示边界/重叠特征的实例上同时丢弃异常值和噪声实例。这种复合的倾斜不敏感损失函数将建立在数据级和算法级方法之间的桥梁从不平衡的数据中学习。此外我们希望使DeepSMOTE适合于持续和终身学习场景因为这些场景需要处理动态类比率和生成新的人工实例。我们设想DeepSMOTE可能不仅有助于对抗在线课程的不平衡而且还有助于提高终身学习模型对灾难性遗忘的健壮性。最后我们计划扩展DeepSMOTE以合并其他数据模式如图形和文本数据。

查看全文

http://www.dnsts.com.cn/news/269800.html