主要内容
一种使用各类变换的音频隐写方法。
文章不是特别有价值,但是有一些可以学习的知识点
数据库 $NOIZEUS$,人声
有声帧检测
提出了选择嵌入帧的方法,其核心在于这个帧发生的时候是否存在声带颤动。
衡量标准为 Zero Croessing Count(ZCC) 和 Short-Time Energy(STE),ZCC越低越好,STC越高越好。
\[ZCC=\frac12\sum_{n=1^N}\mid sign(f[n])-sign(f[n-1]) \mid\] \[sign(f[n])= \begin{cases} +1, if\ f[n]>0\\ -1, Otherwise. \end{cases}\] \[STE=\sum(f[n]w[m-n])^2,\ w[i]\ is\ Hamming\ window\] \[ZE = \cfrac{ZCC_{voiced}}{STE_{voiced}},\text{using this value to select frame}\]Various transform
下面三个变换连着使用,取奇异值的最大特征值
Graph-based Transform(GBT)
Discrete Wavelet Transform(DWT)
Singular Value Decomposition(SVD)
Embedding and Extraction
嵌入修改公式如下
\[S'_{max} = \begin{cases} S+\alpha, \text{if message bit} = 1\\ S-\alpha, \text{if message bit} = 0 \end{cases}\]提取的时候保留之前的S,然后比对一下。。。
评估指标
- Peak Signal to Noise Ratio (PSNR)
- Short-Time Objective Intelligibility (STOI)
- Perceptual Evaluation of Speech Quality (PESQ)
攻击方法
- Additive Gaussian Noise20dB
- MP3
- Resampling
- Low Pass Filter (4 kHz)
- High Pass Filter (50 Hz)
- Amplitude Scaling (0.7)
- Re-quantization
文档信息
- 本文作者:Jiamin Zeng
- 本文链接:https://jiaminzeng.github.io/2022/11/12/Paper-%E9%9F%B3%E9%A2%91%E9%9A%90%E5%86%99/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)