情感计算介绍
时间:2023-08-26 14:07:02
本文是本人对情感计算论文
A Systematic Review on Affective Computing: Emotion Models, Databases, and Recent Advances
研究后报告的报告文档,以及PPT截图,供您参考
2
这是我今天报告的目录,主要分为以下几个部分介绍、背景、情感模型、数据库、单形式情感识别、多形式情感分析,最后总结。

3
首先要知道什么是情感计算,
最早的情感计算起源于美国MIT 皮卡德,媒体实验室(Picard),皮卡德和1995年提出了情感计算的概念,并于1997年正式出版《Affective Computing(情感计算)。在书中,她指出情感计算是能够测量和分析人类外部表现并影响情感的计算。其思想是使计算机具有情感,能够像人一样识别和表达情感,从而使人机交互更加自然。
在回答了什么是情感计算之后,我们将研究情感计算的研究对象。
4
情感计算的研究对象包括physical information物理信息和physiological signals通过对两者的研究,构建情感模型的生理信号Discrete emotion model离散情感模型和
Dimensional emotion model情感模型的维度,情感模型的使用。
和其他人工智能一样,我们需要数据库作为训练集进行训练。
5
主要使用的数据库包括文本、语音、视觉、生理信号和多形式综合,主要研究方向也分为单个形式Unimodal affect recognition即单峰情感和多模态分析Multimodal affective analysis多模态情感识别。
6
目前,根据不同的研究对象,情感识别可分为三种,即基于物理外部特征的情感识别、基于生理信号的情感识别和基于物理生理集成的情感识别。
我们可以看到蒙拉丽莎在右边的微笑。图中有许多连接线。FER即facial expression recognition根据边界点划分人脸的几何模型,然后根据几何模型进行训练和情感分析。
下图是基于生理信号的情感识别。首先,许多传感器连接到人体获取生理信号,然后通过观看不同的图片或视频来引导受试者获取生理信号。
物理生理融合是将两者结合起来,即分析外部物理特征,分析生理信号以获得结果。
7.
接下来,我们将介绍两个基本的情感模型。这里提到的模型不是情感计算中使用的分类和训练模型,而是情感本身的建模。首先,有两种离散情感模型,一种是易克曼的六种基本情感,另一种是普拉奇克的情感轮模型。
Ekman六种基本情绪
anger,disgust,fear,happy,sad,suprise
遵循规则:
1)基本情绪来自人性
2)人类在同样的情况下会产生同样的情绪
3)人们用相同的语义表达相同的基本情感
4)每个人表达基本情绪的方式都是一样的
局限性:不同文化背景的人对不同的情绪有不同的解释,不同的基本情绪会混合在一起形成复杂的情绪。
Plutchik情感轮模型
情感轮模型包含八种基本情绪,以及情绪之间的相互关联。情感轮模型将较强的情绪占据中心,而较弱的情绪占据极端,并且向外分化成更细粒度的情感,还将情感划分为三极(积极地,消极的,中性的)。为了便于描述细粒度的情感,使用了矛盾情感处理,增强了分类的性能。
8.
维度情感模型是为了克服离散情感模型的挑战而建立的概念。目前最受认可的模型是PAD
P 代表愉悦,代表个体情绪状态的正负特征;
A 代表激活,代表个体神经生理激活水平
D 代表优势,表示个人对场景和他人的影响或影响状态
使用P和A这两个维度可以表达大部分情感,所以Russell提出了基于Valence-Arousal的环状模式,是一个二维模型,x轴是V代号愉悦,纵坐标为A代表激活,共有四个象限可以代表不同的情绪状态。
通过情感模型的维度,我们可以更好地分析情感。
9.
然后是数据库。情感计算数据库按形式分为文本数据库、语音数据库、视觉数据库、生理信号数据库和多形式数据库。其中,由于当前人脸识别的发展和面部表更多的情感信息,视觉数据库分为面部表情数据库和肢体动作数据库。
这些数据库给出了我们可以获得的所有情感数据。
文字数据库
Multi-domain sentiment (MDS)最早的文本情感数据库
来自亚马逊的产品评论超过10万条,分为积极和消极两类和五类情感类(强积极、弱积极、中性、弱消极、强消极极)。
语音数据库
划分为非自发性的和自发性的
早期使用非自发性的数据库,主要来源于专业演员的表演,代表有Berlin Database of Emotional Speech (Emo-DB)
后来为了减少表演导致的夸大的效果有了自发性的数据,主要有Belfast Induced Natural Emotion (Belfast)。
面部表情数据库
典型的有JAFFE,从213张图片含有7种面部表情
肢体动作情感数据库包含来自电影或者真实生活的肢体动作
EmoTV,FAce and BOdy database (FABO)等
生理数据库,使用生理信号更加有说服力主要使用的生理信号又EEG,ECG脑电图,心电图等。
多模式数据库
划分为两种,多重物理形态数据库以及物理和生理数据库。分别是将多个物理形态融合的数据库和将物理和生理信号共同包含在内的数据库。
10.
Unimodal affect recognition单峰情感识别,就是对单个形态进行情感分析,按照形态的不同,大类上分为物理形态和生理形态。
11.
其中物理形态也划分为,基于文字的,基于语音的和基于视觉的,每个又由于使用的模型不同分为基于机器学习的和基于深度学习的。这里由于使用的方法过多,我不一一赘述,关于这两种方法的特点在最后总结我会统一介绍。
12.
生理形态目前主要用的EEG和ECG也是按照处理方法不同划分为ML-based和DL-based.
13.
Multimodal affective analysis
多模态情感识别主要是将多个形态进行融合之后进行情感分析,主要也是按照形态的不同划分为,多物理模态融合,多生理模态融合和物理-生理模态融合。
融合的策略有
Feature-level fusion
将从多模态输入中提取的特征组合成一个一般的特征向量,然后将其发送到分类器中
Decision-level fusion
将每个模态独立生成的所有决策向量合并进行判断
Model-level fusion
发现从不同模式中提取的特征之间的相关特性,设计出性能更好的融合模型
Hybrid fusion将feature-level fusion and decision-level fusion结合起来。
14.
总结分为以下四点,首先是不同信号对单峰情感识别的影响
视觉模态最为常用,因为便于获取并且基于视觉的情感识别比基于音频的情感识别更有效,因为音频信号容易受到噪声的影响
又有研究表明,基于文字的情感分析的准确率最高
而且虽然可穿戴传感器采集的生理信号比物理信号更难获取,但由于其客观可靠的结果,许多基于eeg或基于ecg的情绪识别方法被研究和提出。
接着是第二点模态组合和融合策略对多模态情感分析的影响
多模态情感分析的两种基本融合策略是特征级融合和决策级融合
特征级融合明显比决策级融合更常见。
基于特征级融合的情感分类器的性能受到来自不同模式特征的时间尺度和度量级别的显著影响。
另一方面,在决策级融合中,将来自各个模态的输入独立建模,最后将这些单模态影响识别的结果进行合并。
与特征级融合相比,决策级融合更为容易,因为它只需要进行最后的决策融合但忽略了不同模式特征之间的相关性。
Hybrid-level融合将特征级和决策级结合起来,拥有两者的共同优点。
模型级融合使用HMM隐马尔可夫模型和贝叶斯网络建立不同模态特征之间的联系和一个宽松的融合模式,一般用于特殊的任务。
第三点是情感计算中基于机器学习和基于深度学习的模型的影响
ML包含信号预处理,手动特征提取和定制的分类器,泛用性不强。
SVM目前效果最好。
DL目前很火,由于其特征学习的功能。对于静态信息,CNN可以很好地提取特征,对于序列信号,RNN可以提取具有时间特性的特征,CNN-LSTM用于提取时间-空间特征,对抗学习用于提高模型的鲁棒性,此外注意力机制和自编码算法被嵌入到深度学习方法中用以提升全局性能。
但是ML在生理情感识别上比DL要强。
再讲一下一些潜在因素对情感计算的影响
目前数据库上的限制是情感计算发展失衡的原因之一,视觉-生理情感识别方法目前就较少,因为对应的数据库数量的限制。
最后是情感计算的日常应用。
基于文字的情感计算用于推荐系统
基于视频的情感分析用于教学,决策辅助等
由于音频/语音情绪信号的可靠性和稳定性,以及可穿戴设备生理信号的可达性,音频和生理信号常被用于检测临床抑郁和应激。

