DKU-JNU-EMA 电磁关节造影数据 ========================== 本数据库是一个包含了中文普通话以及三种方言(客家话,潮汕话,广东话)的电磁关节造影数据集。一共有3330条朗读数据。每种语言包含2到7位说话人的数据。 我们用NDI电磁关节造影术语音研究系统(https://www.ndigital.com/msci/products/wave-speech-research)来采集实时的声道器官轨迹。同时,数据采集人会佩戴一个头戴式麦克风来录制同步的音频,数据采集声卡为MOTU MicroBook IIC。EMA轨迹数据采集频率为100Hz,音频的采样率为22kHz,最后降采样到16kHz。数据采集人会放置6个感应器在嘴里(分别是上唇,下唇,齿龈,舌尖,舌中,舌根),还有一个参照点放在鼻梁。 DKU-JNU-EMA数据集是在中国暨南大学采集的,为了提供中文的电磁关节造影数据,可用于更广泛的研究领域,比如语音识别,声音-声道轨迹转换,发声模拟,方言识别等等。 数据构成 ------- 数据集一共有4种类型的朗读数据,每种语音包含其中的2-3种: 句子类型:数据采集者朗读句子或者短文 辅音类型:数据采集者朗读带相关辅音的词 元音类型:数据采集者朗读带相关元音的词 声调类型:数据采集者朗读每个词的不同声调 每一种语言都有对照的音节表,还有音素平衡的句子和短文。每种语言的docs文件夹都包含PDF格式的音节表。数据集还包含了说话人的上颚形状参数。 数据说明 ------- 本次采集的数据(包括上颚的探针轨迹)都以鼻梁上部、眉心靠下位置为参考点。 发音数据轨迹文件以tsv文件存储,文件中包含7个通道,分别为: -------- -------- 通道 对应部位 -------- -------- P01-CH0 上唇 P01-CH1 下唇 P02-CH0 舌根 P02-CH1 舌中 P03-CH0 舌尖 P03-CH1 齿龈 P04-CH0 参考电极 探针轨迹文件包含6个通道,分别为: -------- -------- 通道 对应部位 -------- -------- P01-CH0 无 P01-CH1 无 P02-CH0 无 P02-CH1 无 P03-CH0 探针 P04-CH0 参考电极 数据文件中Tx,Ty,Tz为坐标点. 注: - 由于设置问题,在使用数据过程中需要用每一通道坐标减去参考电极坐标,例如: P01-CH0中的Tx减去P04-CH0中的Tx,得到P01-CH0中Tx的实际坐标。 - 本数据的对应论文中将X对应采集点前后的运动轨迹,Y对应采集点上下的运动轨迹。而本数据实际X对应上下的运动轨迹,Y对应前后的运动轨迹。 文件类型 ------- 文件目录结构: root(根目录) ├── data(数据) │   └── language(语系) │   ├── docs(文档) │   └── speaker(说话人) │   └── section(录音类型) │   ├── utterance.flac │   ├── utterance.tsv │   └── utterance.wco └── docs(文档) 录音是按照文档(音节表,短文,句子)里的内容顺序录制的,录音文件名会带有顺序数字索引,以便和文档里的文本内容匹配起来。 utterance.flac:单通道,采样率为16000Hz,位数为16bit utterance.tsv:每个传感器的数据(旋转度,斜度,偏角,X-Y-Z三维坐标点) 更多详细的数据采集信息,请参照“The DKU-JNU-EMA Electromagnetic Articulography Database on Mandarin and Chinese Dialects with Tandem Feature based Acoustic-to-Articulatory Inversion”