客户问 你们网站怎么做的,帮我做网站推广,wordpress 一键生成,天空在线网站建设原文下载#xff1a;https://www.sciencedirect.com/science/article/abs/pii/S0169743997000324
摘要
本文介绍了PARAFAC的多维分解方法及其在化学计量学中的应用。PARAFAC是PCA对高阶数组的推广#xff0c;但该方法的一些特性与普通的二维情况截然不同。例如#xff0c;…原文下载https://www.sciencedirect.com/science/article/abs/pii/S0169743997000324
摘要
本文介绍了PARAFAC的多维分解方法及其在化学计量学中的应用。PARAFAC是PCA对高阶数组的推广但该方法的一些特性与普通的二维情况截然不同。例如可以从多维光谱数据(multi-way spectral data)中恢复出纯光谱pure spectra。
1 介绍
以交叉方式测量变量结果的集合为多维数据。
PARAFAC以及二路PCA等方法都是多线性或双线性分解方法它们将数组分解成分数和负载[16]loadings的集合希望以比原始数据数组更精简的形式描述数据。
主成分分析模型可以被认为是最复杂和最灵活的模型而PARAFAC是最简单和最受限制的模型。
结构越多拟合越差模型越简单。使用多维方法不是为了获得更好的拟合而是为了获得更充分、更稳健和可解释的模型。
对于组分数为F的I×J×K数组平行因子模型含有F(IJK)个参数。
PARAFAC的一个非常令人讨厌的特性是计算模型所需的时间很长。所使用的算法通常基于交替最小二乘法ALSALS的初始化使用随机值或基于广义特征值问题的直接三线性trilinear分解。
在下文中为了简单起见讨论将仅限于三维three-way数据但大多数结果对任何更高阶的数据和模型都有效。
2 术语
标量小写斜体
矢量粗体小写
二维矩阵粗体大写
三维数组带下划线的粗体大写字母
xijkX的第ijk个元素
模式mode、way和顺序order这三个术语或多或少可以互换使用。
术语因子factor和组分component之间没有区别。
3 模型
数据被分解为三线性分量三元组triads每个分量由一个分数向量和两个负载向量组成。在三维中通常不区分分数和负载因为分数和负载在数学上是同等对待的。
三维数组的平行因子模型由三个负载矩阵A、B、C组成其中的元素分别表示为aif、bjf、ckf建立三线性模型以最小化模型中的残差eijk。三维数组的元素可由负载矩阵的元素与残差计算得到公式如下 x i j k ∑ f 1 F a i f b j f c k f e i j k ( 1 ) x_{ijk}\sum_{f1}^{F}a_{if}b_{jf}c_{kf}\;e_{ijk} (1) xijkf1∑Faifbjfckfeijk(1)
图1为公式(1)在二组分情况下的计算示意图。 该模型也可记为 X ‾ ∑ f 1 F a f ⨂ b f ⨂ c f \underline{X}\sum_{f1}^{F}a_f\bigotimes b_f\bigotimes c_f Xf1∑Faf⨂bf⨂cf
其中af、bf、cf分别为矩阵A、B、C的第f列。
3.1 唯一性
PARAFAC模型的一个明显优点是解的唯一性。如果数据确实是三线性的使用了正确数量的分量并且信噪比合适就能得到真正的潜在光谱。
3.2 多维数组的秩rank
秩为1的矩阵可以写成2个向量分数和负载向量的外积。这样的组成部分被称为二元组。
三元组是二元组的三线性等价物即三线性PARAFAC分量是3个向量的积。
4 实现
4.1 交替最小二乘法Alternating least squares
PARAFAC模型的解可以通过该方法找到方法是依次假设两种已知模式下的载荷然后估计最后一种模式的未知参数集。这也是最初提出的对模型进行估计的方式。
PARAFAC ALS算法的流程 0确定组分数F 1初始化B和C 2通过最小二乘回归从X, B, C中估计A 3用同样的方法估计B 4用同样的方法估计C 5从步骤(2)开始往下执行直到收敛。
ALS算法将在每次迭代中改善模型的拟合。如果算法收敛到全局最小值则找到模型的最小二乘解。
ALS的优点确保每次迭代都能优化解ALS的主要缺点模型估计时间长当变量数量很多时有时需要数百到数千次迭代才能收敛。
6 评估解
6.2 杠杆和残差
杠杆和残差可用于影响和残差分析。
6.3 组分数
提取太多的分量不仅意味着噪声被越来越多地建模而且真实因素被更多相关的分量建模。
确定组分数的主要方法有三种1分半实验2判断残差3与建模数据的外部知识进行比较。
[19]主张使用分半实验。其想法是将数据分为两半然后在这两半上创建PARAFAC模型。通常情况下应该以具有足够数量的自变量/样本independent variables/samples的模式来分割数据。
9 应用II稀疏荧光数据的唯一分解
9.1 数据
这个问题是PARAFAC使用非负约束获得唯一分解的一个示例。
样品含有不同量的酪氨酸、色氨酸和苯丙氨酸的2个样品。
因此要分解的数组是2×51×201。 图10d中的估计负载实线与纯谱虚线注意区分一起显示。估计的载荷量现在与纯光谱非常相似。
样本模式的负载是估计的分析物的浓度。
在多线性分解中应该避免瑞利散射有三种方法可以做到这一点iii测量空白并从样品测量值中减去该测量值。在这个实验中最初没有采取任何措施来消除瑞利散射。
9.2 结果与讨论
三组分PARAFAC溶液的发射负载如图10a所示。从中可以看出与色氨酸相对应的光谱具有大的负区域。得出的结论是由于变化性小两个样品分解很困难。由于我们知道荧光光谱和浓度应该是正的所以很自然地将PARAFAC 负载限制在正值 。在图10b中使用非负性约束显示了估计的发射负荷。估计的光谱与分析物的纯光谱非常相似但对于色氨酸由于非多重线性瑞利散射在300mn以下有一个小峰。为了避免这种情况试图将受瑞利散射影响的所有变量设置为缺失值然后估计相应的PARAFAC模型结果如图10c所示。显然仅凭这一点不足以确保色氨酸光谱具有良好的曲线分辨率。将缺失元素方法与非负约束相结合有助于模型关注图中数据的正确方面。在图10d中估计的发射负载与纯光谱一起显示。估计的载荷现在与纯光谱非常相似。估计的激发光谱如图11所示。