DKU-JNU-EMA 电磁关节造影数据
==========================

本数据库是一个包含了中文普通话以及三种方言（客家话，潮汕话，广东话）的电磁关节造影数据集。一共有3330条朗读数据。每种语言包含2到7位说话人的数据。

我们用NDI电磁关节造影术语音研究系统（https://www.ndigital.com/msci/products/wave-speech-research）来采集实时的声道器官轨迹。同时，数据采集人会佩戴一个头戴式麦克风来录制同步的音频，数据采集声卡为MOTU MicroBook IIC。EMA轨迹数据采集频率为100Hz，音频的采样率为22kHz，最后降采样到16kHz。数据采集人会放置6个感应器在嘴里（分别是上唇，下唇，齿龈，舌尖，舌中，舌根），还有一个参照点放在鼻梁。

DKU-JNU-EMA数据集是在中国暨南大学采集的，为了提供中文的电磁关节造影数据，可用于更广泛的研究领域，比如语音识别，声音-声道轨迹转换，发声模拟，方言识别等等。

数据构成
-------

数据集一共有4种类型的朗读数据，每种语音包含其中的2-3种：
    句子类型：数据采集者朗读句子或者短文
    辅音类型：数据采集者朗读带相关辅音的词
    元音类型：数据采集者朗读带相关元音的词
    声调类型：数据采集者朗读每个词的不同声调

每一种语言都有对照的音节表，还有音素平衡的句子和短文。每种语言的docs文件夹都包含PDF格式的音节表。数据集还包含了说话人的上颚形状参数。

数据说明
-------

本次采集的数据（包括上颚的探针轨迹）都以鼻梁上部、眉心靠下位置为参考点。
发音数据轨迹文件以tsv文件存储，文件中包含7个通道，分别为：
--------  --------
   通道    对应部位
--------  --------
 P01-CH0    上唇
 P01-CH1    下唇
 P02-CH0    舌根
 P02-CH1    舌中
 P03-CH0    舌尖
 P03-CH1    齿龈
 P04-CH0  参考电极

探针轨迹文件包含6个通道,分别为：
--------  --------
   通道    对应部位
--------  --------
 P01-CH0    无
 P01-CH1    无
 P02-CH0    无
 P02-CH1    无
 P03-CH0   探针
 P04-CH0  参考电极

数据文件中Tx,Ty,Tz为坐标点.
注：
 - 由于设置问题，在使用数据过程中需要用每一通道坐标减去参考电极坐标，例如：
P01-CH0中的Tx减去P04-CH0中的Tx，得到P01-CH0中Tx的实际坐标。
 - 本数据的对应论文中将X对应采集点前后的运动轨迹，Y对应采集点上下的运动轨迹。而本数据实际X对应上下的运动轨迹，Y对应前后的运动轨迹。

文件类型
-------

文件目录结构：

root（根目录）
├── data（数据）
│   └── language（语系）
│       ├── docs（文档）
│       └── speaker（说话人）
│           └── section（录音类型）
│               ├── utterance.flac
│               ├── utterance.tsv
│               └── utterance.wco
└── docs（文档）

录音是按照文档（音节表，短文，句子）里的内容顺序录制的，录音文件名会带有顺序数字索引，以便和文档里的文本内容匹配起来。

utterance.flac：单通道，采样率为16000Hz，位数为16bit

utterance.tsv：每个传感器的数据（旋转度，斜度，偏角，X-Y-Z三维坐标点）

更多详细的数据采集信息，请参照“The DKU-JNU-EMA Electromagnetic Articulography Database on Mandarin and Chinese Dialects with Tandem Feature based Acoustic-to-Articulatory Inversion”