DKU-JNU-EMA 电磁关节造影数据 ========================== 本数据库是一个包含了中文普通话以及三种方言(客家话,潮汕话,广东话)的电磁关节造影数据集。一共有3330条朗读数据。对于每种语言,都会有2到7位说话人。 我们用NDI电磁关节造影术语音研究系统(https://www.ndigital.com/msci/products/wave-speech-research)来采集实时的声道器官轨迹。同时,数据采集人会佩戴一个头戴式麦克风来录制同步的音频,数据采集声卡为MOTU MicroBook IIC。EMA轨迹数据采集频率为100Hz,音频的采样率为22kHz,最后降采样到16kHz。数据采集人会放置6个感应器在嘴里(分别是上唇,下唇,齿龈,舌尖,舌中,舌根),还有一个参照点放在鼻梁 DKU-JNU-EMA数据集是在中国暨南大学采集的,为了提供中文的电磁关节造影数据,可用于更广泛的研究领域,比如语音识别,声音-声道轨迹转换,发声模拟,方言识别等等。 数据构成 ------- 数据集一共有4种类型的朗读数据,每种语音包含其中的2-3种: 句子类型:数据采集者朗读句子或者短文 辅音类型:数据采集者朗读带相关辅音的词 元音类型:数据采集者朗读带相关元音的词 声调类型:数据采集者朗读每个词的不同声调 每一种语言都有对照的音节表,还有音素平衡的句子和短文。每种语言的docs文件夹都包含PDF格式的音节表。数据集还包含了说话人的上颚形状参数。 文件类型 ------- 文件目录结构: root(根目录) ├── data(数据) │   └── language(语系) │   ├── docs(文档) │   └── speaker(说话人) │   └── section(录音类型) │   ├── utterance.flac │   ├── utterance.tsv │   └── utterance.wco └── docs(文档) 录音是按照文档(音节表,短文,句子)里的内容顺序录制的,录音文件名会带有顺序数字索引,这样就可以和文档里的文本内容匹配起来。 utterance.flac:单通道,采样率为16000Hz,位数为16bit utterance.tsv:每个传感器的数据(旋转度,斜度,偏角,X-Y-Z三维坐标点) 更多详细的数据采集信息,请参照“The DKU-JNU-EMA Electromagnetic Articulography Database on Mandarin and Chinese Dialects with Tandem Feature based Acoustic-to-Articulatory Inversion”