锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

论文阅读:Push the Limit of Acoustic Gesture Recognition

时间:2023-02-19 14:30:00 rf系列线性位移传感器fci连接器10075025

在这里插入图片描述本文是2020年香港理工大学郑元庆副教授团队IEEE INFOCOM(IEEE International Conference on Computer Communications)会议文章,并获得会议最佳论文奖(Best Paper Award in IEEE INFOCOM 2020),主要内容是使用声学信号进行手势识别,提出RobuCIR解决了UltraGesture频率选择性下降和训练数据较少的问题。
本文记录了我对本文的阅读和浅薄的理解。水平有限,能力一般,仅代表个人观点。请参考原文。

PDF: https://www4.comp.polyu.edu.hk/~csywwang/papers/infocom2020.pdf
Presentation Video: http://www4.comp.polyu.edu.hk/~csyqzheng/video/RobuCIR.mp4
Citation: Wang Y, Shen J, Zheng Y. Push the limit of acoustic gesture recognition[J]. IEEE Transactions on Mobile Computing, 2020.

文章目录

  • Abstract
  • I. INTRODUCTION
    • Motivation
    • Prior works and limitation
    • Challenges
    • Our solution
    • Our contributions
  • II. BACKGROUND
  • III. SYSTEM DESIGN
    • *A. Overview*
    • *B. Design of Transceiver*
    • *C. Gesture Identifier*
  • IV. EXPERIMENT AND EVALUATION
    • *A. Experiment Setting*
    • *B. Evaluation*
  • V. RELATED WORK
  • VI. CONCLUSION


Abstract

随着智能设备及其应用的日益普及,手势控制设备越来越受到人们的关注。最近的一些研究工作使用声音信号来跟踪手的运动和识别手势。然而,因为频率选择性下降(frequency selective fading)、干扰(interference)和缺乏训练数据(insufficient training dataa),它们的鲁棒性差。本文提出RobuCIR,可在不同的使用场景中工作,具有较高的精度和鲁棒性。RobuCIR采用跳频机制( frequency-hopping mechanism)缓解频率选择性下降,避免信号干扰。为了进一步提高系统的强度,我们研究了一系列基于少量数据收集的数据数据增强该技术可以模拟不同的使用场景。增强数据用于有效训练神经网络模型,并处理各种影响因素(如手势速度、接收器距离等)。实验结果表明,RobuCIR能识别15个手势,在准确性和鲁棒性方面优于SoTA。


I. INTRODUCTION

Motivation

无接触手势识别技术促进了人机交互(human-computer interaction, HCI)该方法允许用户在没有任何身体接触的情况下控制数字设备。想象一下,我们可能只是在家里的智能音频附近做一个手势,切换音乐,在车里聊天时控制扬声器的音量,拒绝会议而不触摸设备,或者在VR/AR无接触人机交互实现在应用程序中。这些无接触系统为游戏、智能家居和教育领域提供身临其境的用户体验。这些应用程序除了准确识别外,在各种使用场景下都需要高鲁棒性。本文旨在设计鲁棒无接触手势识别系统,实现鲁棒手势识别的准确性。

Prior works and limitation

基于射频的现有(RF-based)人机交互技术探索了使用无线信号控制设备的潜力。这种技术需要特殊的硬件(如USRP,FMCW雷达),这将增加成本,并禁止在某些地区部署。最近的声传感系统利用嵌入智能设备的扬声器和麦克风实现无接触运动跟踪。FingerIO可通过发送OFDM调制声学信号,分析运动对象引起的信号变化,准确跟踪运动对象(如挥手)。LLAP能够通过测量接收信号的相位变化来跟踪手指的运动。Strata通过估计反射信号的信道脉冲响应(Channel Impulse Response, CIR),在跟踪一个移动对象时实现了更高的精度。
这些工作将整个手指/手建模成单个反射点,忽略了弱多径信号。这种单反射模型可以有效地提高跟踪移动对象的性能。然而,由于手指运动相对复杂,将手建模成单个反射点不能为手势识别提供足够的分辨率。例如,为了识别伸展或挤压手势(如图1所示),我们需要同时区分和跟踪五个手指。最近的工作试图利用神经网络从接收信号中自动提取有效特征,因为很难准确模拟复杂的信号反射。例如,UltraGesture从测量的角度使用深度神经网络CIR为了识别不同的手势,识别不同的手势。但由于训练数据不足,训练后的模型在实践中无法处理各种实际使用场景。

Challenges

由于手势运动的复杂性,很难实现鲁棒的声学手势识别系统。基于声学手势识别的一个挑战性问题是频率选择性下降( frequency selective fading, FSF),这是由于声学信号的多径传输以及扬声器和麦克风在高频下的失真(如≥ 18KHz)。以前的工作只发送固定频率的声音信号,在特定环境下,信号范围可能会急剧下降。可以同时在多个频率上传输声学信号,以减轻FSF高频下的影响和信号失真。然而,处理多频信号的计算成本很高,很难满足轻量级智能设备(如智能手表)的实时处理要求。另一个实际挑战是缺乏训练数据。神经网络需要足够的训练数据来覆盖不同实际场景下手势的不同变化,以确保手势识别的鲁棒性。事实上,从用户那里收集足够的培训数据是不现实的。

Our solution

我们提出了RobuCIR,这是基础智能手机鲁棒手势识别系统传输声信号,在各种使用场景下都能达到较高的识别精度。RobuCIR如图1所示,可识别15个标准化手势。RobuCIR可检测到距离智能手机约50厘米的手势。
采用跳频(frequency hopping )来缓解频率选择性下降,并仔细设计低通
滤波器,以避免子帧间干扰III-B所述)。特别是,我们调制了已知的基带信号,将变频传输到不同的频率,并定期发射到每个频率。我们认为这个周期性信号是由不同频率的多个子帧组成的信道测量帧。为了进一步改进RabuCIR鲁棒不同于以前只使用范围重量的工作,我们综合考虑幅度相位分量来捕获更多的多径信息。我们注意到相位分量通常对干扰和噪声更具鲁棒性,有望实现高精度定位和跟踪。

为了解决缺乏训练数据我们没有手动收集所有的训练数据,而是收集了少量的原始数据,并应用了一系列的选择性数据增强增强数据的技术。这种数据增强方法来自于我们的实验观察,即不同的使用场景(例如,不同的手势速度,到收发器的距离,NLOS、噪声)下的CIR测量变化可以模拟,并且与手势变化有关。因此,RobuCIR可以处理各种使用场景,可能不是由原始数据完全捕获,而是由增强数据捕获。据我们所知,我们是第一个CIR与不同使用场景相关的测量变化。如图1所示,不同的手势生成不同的模式CIR这些图像通过图像估计最小二乘信道估计技术。为了识别手势,我们使用神经网络训练分类器进行监督和学习。分类器由分类器组成CNN和LSTM从增强数据中自动提取复杂特征并识别手势的网络组成。

Our contributions

整体设计使我们能够实现更高的信道测量分辨率和足够的训练数据,同时减轻FSFISI (帧间干扰,inter-subframe interference),而不会对轻量级智能设备造成额外的计算开销。RobuCIR在各种使用场景下对15个手势的识别准确率达到98.4%。
Contributions如下:

  • 通过周期性地传输不同频率的声学信号来解决多径效应引起的频率选择性衰落的问题。
  • 利用CIR测量和手势变化的相关性来克服训练数据不足的问题。扩充数据自动生成,无需用户参与。
  • 实验结果表明,在各种使用场景下,RobuCIR在准确性和鲁棒性方面优于最新的工作。

II. BACKGROUND

现有的基于声学信号的手势识别系统通过测量反射信号帧的CIR来检测手指/手的运动。发射机调制已知信号,上变频为高频fc,并连续发送该音频信号帧。然后,信号帧从移动的手指/手反射并被接收器接收。接收到的帧被下变频以生成基带信号的虚部和实部。声音传播信道可以建模为线性时不变系统,可以有效地对声音沿多条传播路径的传播延迟和信号衰减进行建模。接收到的信号可以在数学上表示为 r [ n ] = s [ n ] ∗ h [ n ] r[n]=s[n] ∗ h[n] r[n]=s[n]h[n],其中 h [ n ] h[n] h[n]表示声音传播信道的信道冲激响应(CIR), r [ n ] r[n] r[n] s [ n ] s[n] s[n]分别表示接收信号和发射信号。
实际上,可以通过发送已知信号帧作为探针来估计CIR。对于接收到的帧,最小二乘信道估计方法可以估计CIR。最小二乘信道估计测量信道 h = arg min ⁡ h ∣ ∣ r − M h ∣ ∣ 2 h=\argmin_{h}||r-Mh||^2 h=hargminrMh2,其中M是由发送的循环正交码(例如,训练序列码(TSC),巴克码)组成的训练
矩阵。CIR的测量用一组复数表示,其中每个复数测量一定传播延迟范围内的信道信息,可以得到相应的CIR幅度和相位。


III. SYSTEM DESIGN

A. Overview

图2是RobuCIR的整体结构。

RobuCIR由三个主要部件组成,即收发器(Transceiver)、信道估计器(Channel Estimator)和手势识别器(Gesture Identifier)。在Transceiver中,扬声器播放用于信道测量的不可听见的帧,麦克风记录接收到的帧。在每个帧内,载波频率在多个频率之间跳跃以减轻频率选择性衰落(FSF)。然后,Channel Estimator使用最小二乘信道估计来估计信道冲激响应(CIR)。最后,Gesture Identifier将在一定时间内测量的CIR相位和幅度分别视为CIR相位图像和CIR幅度图像。为了提高系统的鲁棒性,我们对每个CIR图像执行数据增强,以便扩充的数据能够覆盖各种实际使用场景。因此,使用增强数据训练的最终模型可以处理各种环境(例如,手势速度、距离、噪声等)。增强数据用于训练CNN自动提取特征,以及训练LSTM网络执行手势识别。

B. Design of Transceiver

图3为Transceiver的设计。
Transceiver由一个扬声器(用作发射器)和一个麦克风(用作接收器)组成,它们在单个设备中并置并同步。发射机发送预定义的信号帧,接收机通过分析接收到的信号帧来测量CIR。具体而言,发射机发送26位训练序列码(TSC),该码具有良好的自相关特性,有助于信道测量。然后对TSC进行上采样,并在传输之前将其上变频为载波频率fc。为了确保传输的帧是听不见的,载波频率被设置为高于18KHz。为了避免子帧间干扰(ISI),以前的工作在帧之间添加了保护间隔(guard intervals, GI),在帧之间添加零采样(zero samples ),以便当前帧的反射不会在后续帧中混合。

1) 减少频率选择性衰落(Mitigate Frequency Selective Fading)

现有工作将预定义的TSC符号调制并上转换为单一频率。基于单一频率的方法可能会受到FSF的影响,因为从多个对象反射的音频信号可能会相互叠加,从而大大降低系统性能。为了更好地理解FSF如何影响信道测量,我们进行了实验,并测量了在多个频率下传输时的CIR幅度和相位。在实验中,我们在收发机前做了5次推拉(push and pull)手势。我们以三种频率发送BPSK调制的TSC。
图4显示了实验期间测得的CIR幅值。
在图中,X轴表示时间,而Y轴表示CIR的tap position(不知道该如何翻译)。亮度表示CIR的大小。每个tap对应一定的延迟范围,具有相似传播延迟的反射信号汇总在同一tap中。在图4中,当在 f c 1 f_{c1} fc1(上)传输时,由于拉和推活动,CIR幅度发生了变化。当在 f c 2 f_{c2} fc2(中)处传输时,由于频率选择性衰落,CIR幅度显著降低,并呈现不太清晰的图案。与对CIR幅度的影响类似,频率选择性衰落也会影响不同频率下的相位测量。实验结果表明,如果处理不当,频率选择性衰落会严重影响信道测量结果,导致手势识别的精度和鲁棒性下降。
在多个频率(例如OFMD)下传输可以增强对FSF的鲁棒性,因为不同的频率分量不太可能同时以破坏性方式叠加。然而,由于FFT和IFFT运算,现有的基于多频率的方法会产生较高的计算开销。相反,我们采用跳频来在不同的载波频率(即 f c 1 f_{c1} fc1、···、 f c N f_{cN} fcN)下周期性地发射信号以减轻FSF。特别地,我们以特定载波频率(例如, f c i f_{ci} fci)发射,并跳到相邻频率(例如, f c j f_{cj} fcj)。因此,整个信道测量帧由以N个不同频率发送的N个子帧组成。
在发射机发射第一个样本后,接收机立即开始记录反射帧。要检测接收帧中第一个样本的位置,计算发送和接收音频样本的皮尔逊相关系数(PCC),并定位相关峰值。一旦检测到帧的第一个样本,由于子帧的固定长度,当前帧和后续帧中的子帧的边界可以容易地定位并完全同步。注意,在每个接收帧内,频率周期性地从 f c 1 f_{c1} fc1跳到 f c N f_{cN} fcN。接收机通过将每个子帧与其对应的 c o s ( 2 π f c i t ) cos(2{\pi}f_{ci}t) cos(2πfcit) − s i n ( 2 π f c i t ) -sin(2{\pi}f_{ci}t) sin(2πfcit)相乘来下变频该帧。然后,下变频帧通过低通滤波器过滤出高频分量。最后,使用相同频率的复向量 r ( t ) r(t) r(t)提取CIR幅度和CIR相位。

2) 消除帧间干扰(Remove Inter-Subframe Interference)
这种下变频技术可以自然地消除ISI。为了了解这种下变频技术如何避免子帧间干扰,我们假设当前子帧的频率为 f c j f_{cj} fcj,这可能会受到前N个子帧的干扰。因此,当前接收到的子帧可以表示为 y ( t ) = ∑ i = 1 N + 1 A i c o s ( 2 π f c i t + θ i ) y(t)=\sum_{i=1}^{N+1}A_icos(2{\pi}f_{ci}t+\theta_i) y(t)=i=1N+1Aicos(2πfcit+θi),其中 A i A_i Ai是子帧的振幅, θ i \theta_i θi是多径效应引起的相位偏移, i ∈ [ 1 , N ] i\in[1,N] i[1,N]。通过使用 c o s ( 2 π f c j t ) cos(2{\pi}f_{cj}t) cos(2πfcjt)下变频,我们得到:
∑ i = 1 N + 1 A i c o s ( 2 π f c i t + θ i ) × c o s ( 2 π f c j t ) = ∑ i = 1 N + 1 A i 2 [ ( c o s ( 2 π ( f c i + f c j ) t + θ i ) ⏟ h i g h t − f r e q u e n c y   c o m p o n e n t + c o s ( 2 π ( f c i − f c j ) t + θ i ) ⏟ l o w − f r e q u e n c y   c o m p o n e n t ) ] \sum_{i=1}^{N+1}A_icos(2{\pi}f_{ci}t+\theta_i)\times{cos(2{\pi}f_{cj}t)}= \sum_{i=1}^{N+1}\frac{A_i}{2}[(\underbrace{cos(2{\pi}(f_{ci}+f_{cj})t+\theta_i)}_{\bf{hight-frequency \,component}}+\underbrace{cos(2{\pi}(f_{ci}-f_{cj})t+\theta_i)}_{\bf{low-frequency \,component}})] i=1N+1Aicos(2πfcit+θi)×cos(2πfcjt)=i=1N+12Ai[(hightfrequencycomponent cos(2π(fci+fcj)t+θi)+lowfrequencycomponent cos(2π(fcifcj)t+θi))]

对于上式中的低频分量,有:
∑ i = 1 N + 1 A i 2 [ ( c o s ( 2 π ( f c i − f c j ) t + θ i ) = A i 2 c o s ( θ j ) + ∑ i = 1 N A i 2 [ ( c o s ( 2 π ( f c i − f c j ) t + θ i ) \sum_{i=1}^{N+1}\frac{A_i}{2}[(cos(2{\pi}(f_{ci}-f_{cj})t+\theta_i)=\frac{A_i}{2}cos(\theta_j)+\sum_{i=1}^{N}\frac{A_i}{2}[(cos(2{\pi}(f_{ci}-f_{cj})t+\theta_i) i=1N+1

相关文章