注视模式的个性化预测(二)
之前的两篇文章是基本概念,主要就是证明针对个体的预测方式是可行的。以下这篇文章就是我实习项目中要使用的技术。
Learning User Embeddings from Human Gaze for Personalised Saliency Prediction
这篇题为《从人类眼动中学习用户嵌入以实现个性化显著性预测》的论文由Florian Strohm等人撰写,探讨了如何通过分析人类眼动数据来提取用户嵌入(user embeddings),从而实现个性化的显著性预测。以下是论文的主要内容:
研究背景
传统的显著性预测模型通常忽略个体差异,预测的是通用的显著性图(Universal Saliency Map, USM)。然而,个体在观看图像时的注意力分配存在显著差异,这些差异可能源于场景的复杂性、语义特征、专业知识、年龄和性格等因素。因此,个性化的显著性预测(Personalised Saliency Prediction, PSM)变得越来越重要。
正如前文的内容,为了突破“噪声上限”,我们需要对不同的个体单独做预测模型。但是单独做模型的成本太大,首先是个人产生的数据太少,至少以现在的眼动设备的普及程度来看。所以在他们的方法中,充分利用了通用的显著性图(Universal Saliency Map, USM),这是被传统模型预测的,我们可以直接拿来用。同时还要加上我们从个体数据集上学到的用户嵌入(user embeddings),我们可以理解成用户的个人习惯。 通过这种个人习惯调整,未见过的图片以及对应的通用的显著性图,得到个性化的显著性预测(Personalised Saliency Prediction, PSM)。
研究目的
本研究提出了一种新方法,通过分析用户观看自然图像时的眼动数据来提取用户嵌入。这些嵌入可以用于调整通用显著性图,从而实现个性化的显著性预测。
⼈类在观察⼈时可以⼤致分为两类。他们要么倾向于关注头部和⾯部内部特征,要么关注⼿臂和腿等⾝体部位,这种偏好就是用户嵌入。我们浏览网页的偏好也是用户嵌入,并且以及很成熟的运用了。
研究方法
- 用户嵌入提取:研究使用了一种Siamese卷积神经网络编码器1,通过对比不同用户的图像和个性化显著性图对来学习用户嵌入。这些嵌入捕捉了用户在视觉注意行为上的独特差异。
- 个性化显著性预测:通过将用户嵌入整合到显著性预测网络中,模型能够预测个性化的显著性图。这种方法通过学习用户特定的信息来改进预测性能。
我们用Siamese CNN来提取嵌入向量并且把它叫做用户嵌入,这是Siamese CNN本身就具有的功能。下一步是将图像刺激及其对应的通⽤显著性图 (USM) 作为输⼊,并且加上用户嵌入的调整,生成差异图\(\Delta (I, U)\),于是最终输出结果\(PSM(I, U) = USM(I) + \Delta (I, U)\), \(I\)是给定的图片\(U\)是给定的用户,实践中指用户嵌入。
研究发现
- 嵌入的判别能力:提取的嵌入具有高判别能力,能够有效地区分不同用户,并且在预测个性化显著性图时表现出色。
- 泛化能力:嵌入在未见过的用户和图像上也表现出良好的泛化能力,表明该方法具有较强的适应性。
- 性能改进:在两个公开的显著性数据集上的实验表明,该方法在个性化显著性预测任务中优于现有的基线方法。
研究意义
本研究展示了通过隐式的眼动行为数据提取用户嵌入的可行性,并将其应用于个性化显著性预测。这一方法不仅提高了预测精度,还为其他需要个性化的任务提供了新的思路。
结论
通过提取用户嵌入,研究人员能够捕捉用户在视觉注意行为上的独特特征,从而实现更精确的个性化显著性预测。这一方法为未来的个性化计算模型提供了重要参考。
Deep Semantic Gaze Embedding and Scanpath Comparison for Expertise Classification during OPT Viewing
这篇题为《深度语义眼动嵌入与扫视路径比较用于OPT观看中的专业分类》的论文由Nora Castner等人撰写,探讨了如何通过结合深度学习和眼动数据分析来区分专家和新手在观看牙科全景X光片(OPT)时的行为模式。以下是论文的主要内容:
研究背景
眼动数据在用户评估中起着关键作用,但由于任务语义对眼动行为的影响,传统方法难以准确区分专家和新手。现有的眼动分析方法通常依赖手动标注的兴趣区域(AOIs),这种方法主观且耗时。
我认为眼动数据随着眼动仪的普及甚至可以用于下一代数据标记,目前数据标记工作主要是利用中国印度的廉价劳动力进行手动标注,但只标注最终目标,但实际上之前的搜索过程也很重要,人眼并非整体成像选择目标,它是先搜索目标再确认的过程。这个搜索显然是“后验的”,如果给出不符合常理的图片比如兔子在湖上,鱼在草丛中,那么人去识别这个目标并标记一定要用更多时间。秉持着“人工智能基本原则:有多少人工就有多少智能”,如果可以将人类眼动搜索数据加入模型训练可能可以提高训练效率。这是一个思路,虽然数据采集设备“眼动仪”价格略高,但新一代的标记并不会多付出人力成本且能获得更多信息,值得数据标记公司去尝试,目前的很多AR设备具有眼动检测功能,批量化后应该会降低成本,甚至开发个人可以用眼动标记来赚钱的应用。
研究目的
本研究提出了一种新方法,利用卷积神经网络(CNN)处理眼动数据中的场景信息,从而在不需要手动标注AOIs的情况下,通过眼动扫视路径(scanpath)比较来区分专家和新手。
你不用训练CNN,他仅仅只用预训练的VGG-16提取了特征,但这里用VGG-16这样一个在日常生活环境下训练的CNN解决OPT也就是眼部图片有点不合理,但我的项目是日常生活图片,感觉没问题。
研究方法
- 深度语义嵌入:使用VGG-16网络提取每个固视点(fixation)对应的图像块特征,这些特征向量包含了时间和空间上的眼动信息。
- 扫视路径比较:通过局部序列对齐(local alignment)方法比较不同扫视路径的相似性,从而区分专家和新手的眼动行为。
局部序列对齐具体采用的方式是Smith-Waterman算法算法2,而深度语义嵌入就是提取固视点的观察内容,把它想象成DNA中的某个核苷酸,或者蛋白质中的某个氨基酸,只不过它不止4种或20种,而是一个由1000维的向量描述的“某某酸”,事实证明虽然这个“千维酸”是不可读的,但是你甚至可以通过计算这个1000维向量之间的绝对差之和来发现不同“千维酸”之间的相似度。然后就如同计算DNA或者蛋白质的局部相似度来得出,这两个Scanpath像还是不像。
研究发现
- 高准确率:该方法在区分牙科专家和新手时达到了93%的准确率,显著优于传统方法。
- 语义特征:通过图像块特征的比较,该方法能够捕捉到任务相关的语义信息,从而提高了分类性能。
- 泛化能力:该方法不仅适用于牙科领域,还有潜力应用于其他需要语义特征分析的任务中。
你别说新手是不知道看哪,如果没有经验是不知道关注点的。
研究意义
本研究展示了通过深度学习和眼动数据分析相结合的方法,能够有效区分专家和新手的行为模式。这一方法为自适应学习系统和专业技能评估提供了新的思路。
结论
通过结合深度学习和眼动数据分析,研究人员成功地提取了能够区分专家和新手的行为特征,从而实现了高精度的专业分类。这一方法为未来的自适应学习系统和专业技能评估提供了重要参考。
Footnotes
孪生卷积神经网络(Siamese Convolutional Neural Network)是一种特殊的神经网络架构,通常用于处理配对输入数据的任务。输出可以是嵌入向量表示输入数据的特征表示。这些嵌入向量可以用于进一步的比较或其他下游任务。↩︎
这是一种用于局部序列对齐的动态规划算法,广泛应用于生物信息学和计算机科学中的序列比较任务。它最初是由Temple F. Smith和Michael S. Waterman在1981年提出的,用于寻找两个序列(如DNA、蛋白质或文本)之间的最佳局部匹配。 \[ M_{i,j} = \max \begin{cases} 0, \\ M_{i-1,j-1} + s(a_i, b_j), & \text{($s$为接受差异的收益,可能为负)} \\ M_{i-1,j} + d, & \text{($I$序列增加以符合$J$的代价,$d$是代价为负收益)} \\ M_{i,j-1} + d, & \text{($J$序列增加以符合$I$的代价,$d$是代价为负收益)} \end{cases} \] 其中: - \(s(a_i, b_j)\) 是位置 \(i\) 和 \(j\) 的字符匹配或不匹配的得分。 - \(d\) 是插入或删除操作的惩罚值。 就是表明两个序列的第i位和第j位之前若干位的匹配程度,在第一个序列的\(i\)位和第二个序列的\(j\)位的匹配程度,可以准确判定最佳匹配出现在哪。比如你发现\(M_{i,j}\)是矩阵中最大的元素,一定可以说明第一个序列的\(i\)位和第二个序列的\(j\)位之前若干位相似度累计不错,不过后续由于不匹配,可能局部序列相似度被清零。它表示了如果匹配可以带来的收益\(s\), 与其对比同时接受差异后用于变更的成本为\(d\)。我们可以看到这个算法是合理的。↩︎