语音识别在医疗领域要跨过的那些坎儿

医疗健康 来源:健康界
2014
06/16
12:49
健康界 医疗健康

语音识别即通过麦克风捕捉用户发出的声音,将声波信号转换成机器可以处理的“发音特征”,再从发音和语言的“模型空间”中快速搜索最匹配的句子,即识别结果。语音识别过程就是一个模型匹配的过程,模型训练的好坏直接关系到系统识别的结果。

为了得到一个好的模型,往往需要有大量的原始语音数据来进行训练,特别是对于非特定人的语音识别系统来说,这一点显得更为重要。因此,在开始进行语音识别研究之前,首先要建立一个语音数据库。数据库包括不同性别、年龄、口音的说话人的声音,并且必须具有代表性,能均衡地反映实际使用情况。模型训练就是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数。

目前在医学领域并没有专门的语音识别词库和模型。由于医学术语、药物名称、疾病名称等用词的专业性很强,识别率会大幅下降。我带领团队花费了7个月的时间,分别于iOS平台和Android平台,采用科大讯飞和云之声两个主流第三方SDK,对药品词库的36176个药品名称和疾病词库的23501个疾病名进行了测试,训练出错率较高的词汇,初步搭建了医学语音识别领域的第三方素材库,并决定免费开放给任何有志于开发移动医疗APP的创业团队和个人。

下面以Android为例,具体介绍我们构建体系的流程、标准和测试方法,以帮助各位移动医疗开发人员快速上手:

测试平台:2台android4.0系统手机(小米2、中兴U930HD)、珍立拍系统、科大讯飞SDK

小    组: A组和B组

测试方法:对所有药品和疾病名称进行反复测试,使用纠正训练法,来克服语音识别体系中HMM的训练效果。小组A测试药品,小组B测试疾病,普通话识别。

测试步骤:

1. 医学词汇约有数十万条,前期总结查找筛选最常用词汇并分组。

2. 使用珍立拍系统中的语音识别对所有词库进行第一遍测试。

3. 在第一遍测试的基础上,对筛选出来错误的词汇进行二次测试,再次筛选。

4. 总结出识别易错词汇,两组交叉测试后,随后交给程序人员,按科大讯飞SDK模型训练,输入相应代码,完善建库。

可能存在的影响因素:

1.  读错:由于医学词汇中有很多较为生僻的汉字,读错很难避免,很多医生即使会写这个词,但是发音也可能会错。

规避方法:遇到拿捏不准的汉字时,查找准确读音,尽量避免错误。

2. 环境因素:测试时,所处的环境存在噪音。

规避方法:选择在低噪音环境中测试,但不能完全于安静的环境中测试,因其与日常使用环境不符。

3. 汉字的同音字:例如“弱视”“荨麻疹”,识别结果“若是”“寻麻疹”。

4. 汉字尾音:例如“肝癌”,识别结果为“刚来”。

5. 实际发音影响:例如“阻生齿”,识别结果“主生殖”。

下面以疾病词汇举例:

测试小结:

由统计结果可以看出,疾病名的识别率高于药品名。笔者分析,造成此结果的原因在于,疾病名的广普率要高于药品名,所以各个语音识别公司比较重视,而且疾病生僻汉字较少,而药品种类要远多于疾病种类,其中生僻汉字也较多。二次测试的正确率较一次测试大约提升了一个百分点左右,还是可以适当减少错误数据库中的词汇量。

音节短的词出错率较高,如:单音节词,痣(识别结果“志”),双音节词,义眼(识别结果“一眼”),长音节词出错率低,原因可能是音节越短的词,其同音节的普通词较其更常见,而且如果其尾音特殊的话,影响较大。

针对医学专业词汇识别率低的问题,目前可使用以下三种解决办法:

一、  扩充自定义词库

虽然有用户词表,但是目前科大讯飞用户词表仅限数量2000,经沟通后他们正在扩大词汇表数量中。但如果数据过大,将会导致数据包过重的问题,而移动端由于存储和运算能力受限,所以无法满足数量庞大的整个医学词库,因此我们只能先做常用库。

二、  搭建第三方素材库

语音识别虽然在实用性上已得到很大提高,但是由于目前语音识别的单一性(只能单纯的识别中文或者英文),以及使用环境、语音差异化等因素的影响,容易造成识别错误。就这些因素而言,我们为此做了大量的基础工作,用于搭建第三方数据库,在尽可能排除其它干扰因素的情况下,检测出识别错误的词汇,也为下一步构建专业领域的识别模型搭建出了样本数据库(针对大量样本数据库,精简出识别错误的小样本数据库,减少模型训练词库)。

三、  构建专业领域的识别模型

对于有大量专业词汇的识别系统来说,使用模型训练可以有效提升识别率,目前模型训练比较常用的有四种方法:最大似然估计、纠正训练法、最小分类错误、最大互信息方法。模型训练需要专业的技术,并与语音识别公司进行合作,由企业提供词库信息和语音集,专业人员采用模型训练对需要识别的词库进行训练,最终给出个性化定制的识别模型,以提升识别率。

语音识别技术在移动医疗领域中的应用会越来越普遍,但还有大量的基础工作需要我们大家齐心协力去完成。希望业内的精英之士能够对此多交流,多合作,抛开一些利益的纠葛,共同为行业的发展贡献出自己的力量。


来源:健康界

为你推荐

药价查询,药价查询,全国已有29个省、市及新疆生产建设兵团上线定点药店比价小程序资讯

药价查询,药价查询,全国已有29个省、市及新疆生产建设兵团上线定点药店比价小程序

据新闻联播报道,国家医疗保障局消息,截至目前,全国已有29个省(自治区、直辖市)及新疆生产建设兵团上线定点药店比价小程序,可实现药品价格在手机上一键查询、实时比对和位...

2025-02-22 21:28

CDE:晚期胃癌新药临床试验设计指导原则资讯

CDE:晚期胃癌新药临床试验设计指导原则

胃癌(Gastric cancer, GC) 是我国高发的消化系统恶性肿瘤, 其新发病例数和死亡病例数分别位列我国恶性肿瘤发病和死亡的第 5 位和第 3 位。

2025-02-21 21:19

首款依视路星趣控眼镜于上海眼镜展全球首秀 专为近视管理设计 延缓中国儿童青少年近视进展资讯

首款依视路星趣控眼镜于上海眼镜展全球首秀 专为近视管理设计 延缓中国儿童青少年近视进展

依视路星趣控眼镜提供符合人体工程学设计的镜架,满足不同年龄段的孩子在面部结构和尺寸上的显著差异,尺码范围广,覆盖38号至50号,为3-5岁儿童,6-9岁和10-12岁青少年年龄段提...

2025-02-21 17:33

恒宇医疗完成超亿元融资,加速构建全球领先的血管介入腔内影像学平台资讯

恒宇医疗完成超亿元融资,加速构建全球领先的血管介入腔内影像学平台

恒宇医疗成立于2016年,是一家专注于光学与超声医用成像技术及激光消蚀技术研究的高科技企业。

2025-02-21 14:07

百林科完成A+轮战略融资数亿元,多家投资机构联合投资资讯

百林科完成A+轮战略融资数亿元,多家投资机构联合投资

百林科成立于2021年9月10日,是一家专注于疫苗、抗体药物、重组蛋白、细胞治疗、基因治疗、血液制品以及其他生物制品关键工艺设备与耗材研发和制造的高科技企业。

2025-02-21 13:30

深研生物完成超3亿元B+轮融资,越秀产业基金领投资讯

深研生物完成超3亿元B+轮融资,越秀产业基金领投

深研生物成立于2014年,是一家专注于细胞与基因治疗(CGT)领域的高新技术企业,致力于为核心技术与设备的自主研究和开发提供整体解决方案。

2025-02-21 13:23

阿斯利康以1.6亿美元收购珐博进中国,获得罗沙司他在中国的独家权利资讯

阿斯利康以1.6亿美元收购珐博进中国,获得罗沙司他在中国的独家权利

昨日(2月20日)晚间,阿斯利康在其官微宣布与珐博进有限公司达成协议,将以约1 6亿美元收购珐博进中国。

2025-02-21 10:20

快速崛起的中国创新药公司,真实生物赴港IPO资讯

快速崛起的中国创新药公司,真实生物赴港IPO

2月18日据港交所披露,真实生物科技有限公司(以下简称“真实生物“)递交上市申请书,中金公司为其独家保荐人。这家成立于2012年的生物科技企业,以创新药物研发为核心,专注于...

2025-02-20 20:57

华东医药经皮肾小球滤过率测量设备获批,有望提供GFR监测新方法资讯

华东医药经皮肾小球滤过率测量设备获批,有望提供GFR监测新方法

2025年2月19日晚,华东医药(000963 SZ)公告,其全资子公司杭州中美华东制药有限公司申报的创新产品三类医疗器械经皮肾小球滤过率测量设备注册申请获得上市批准。

2025-02-19 19:15

国采中选企业满足一定条件,可变更药品上市许可持有人及生产企业、增加规格包装等,第一批名单发布资讯

国采中选企业满足一定条件,可变更药品上市许可持有人及生产企业、增加规格包装等,第一批名单发布

2月18日,国家组织药品联合采购办公室发布《关于国家组织药品集中采购部分中选药品信息变更的通知(第一批)》,涉及到5批国采的15个品种。

2025-02-19 18:26

凯米生物完成超亿元Pre-A轮融资首关,加速肿瘤治疗性疫苗全球布局资讯

凯米生物完成超亿元Pre-A轮融资首关,加速肿瘤治疗性疫苗全球布局

此次融资将用于加速核心产品SN3001(前列腺癌治疗性疫苗)、SN2001(慢性乙肝免疫治疗疫苗)的全球临床,以及基于SynNeogen®核心技术平台的肿瘤治疗性疫苗产品持续布局。

2025-02-19 13:50

潜在交易金额超12亿美元,石药集团ADC癌症新药达成国际授权合作资讯

潜在交易金额超12亿美元,石药集团ADC癌症新药达成国际授权合作

今日(2月19日),石药集团发布公告称,其控股子公司巨石生物与Radiance Biopharma达成协议,Radiance Biopharma将获得巨石生物自主研发的重组抗人类受体酪氨酸激酶样孤儿受体1...

2025-02-19 11:21

又一玩家加入,来自恒瑞医药的“近视神药”上市申请获受理资讯

又一玩家加入,来自恒瑞医药的“近视神药”上市申请获受理

近日,恒瑞医药发布公告宣布,公司已经收到国家药监局下发的《受理通知书》,旗下产品 HR19034滴眼液的药品上市许可申请获得国家药监局受理。

2025-02-19 10:47

国家医保局:医保领域2025年度第一批重点事项清单资讯

国家医保局:医保领域2025年度第一批重点事项清单

2025年底前,全国80%左右统区基本实现与定点医药机构即时结算。基本实现医保部门与医药企业对集采药品的直接结算,加快推动与医药企业对集采医用耗材、国谈药的直接结算。

2025-02-18 21:14

“悦如初,达新程” 2025特应性皮炎免疫创新学术会议于成都举办资讯

“悦如初,达新程” 2025特应性皮炎免疫创新学术会议于成都举办

特应性皮炎是一种慢性、复发性、炎症性皮肤病,在非致命性皮肤疾病中疾病负担位列第一,给患者个人及家庭带来沉重的生理、心理负担,造成长期的社会影响。

2025-02-18 10:58

第九十批仿制药参比制剂目录资讯

第九十批仿制药参比制剂目录

国家药品监督管理局发布仿制药参比制剂目录(第九十批)。

2025-02-17 22:22

拜耳在欧盟申请EyleaTM 8mg治疗间隔延长至6个月资讯

拜耳在欧盟申请EyleaTM 8mg治疗间隔延长至6个月

拜耳已向欧洲药品管理局(EMA)提交申请,将EyleaTM 8mg(阿柏西普8mg,114 3mg ml注射液)用于治疗两种主要视网膜疾病,即新生血管(湿性)年龄相关性黄斑变性(nAMD)和糖...

2025-02-17 19:55

EyleaTM 8mg延长给药间隔治疗湿性年龄相关性黄斑变性的长期疗效和安全性在三年时得到证实资讯

EyleaTM 8mg延长给药间隔治疗湿性年龄相关性黄斑变性的长期疗效和安全性在三年时得到证实

近日,在于美国迈阿密举行的第22届新生血管年会上,拜耳及其合作伙伴Regeneron公布了PULSAR开放标签扩展研究治疗新生血管(湿性)年龄相关性黄斑变性(nAMD)患者第三年的临床试验结果。

2025-02-17 19:44

备思复(维恩妥尤单抗)联合疗法全国首张处方落地,开启泌尿肿瘤精准治疗新篇章资讯

备思复(维恩妥尤单抗)联合疗法全国首张处方落地,开启泌尿肿瘤精准治疗新篇章

2025年2月17日,北京大学肿瘤医院泌尿肿瘤暨黑色素瘤肉瘤内科主任、中国临床肿瘤学会副理事长兼秘书长郭军教授为一位晚期尿路上皮癌患者开具备思复(维恩妥尤单抗)联合帕博利珠...

2025-02-17 19:38

安诊儿率先融合DeepSeek-R1,升级大模型底座能力资讯

安诊儿率先融合DeepSeek-R1,升级大模型底座能力

2月16日,由浙江省卫健委和蚂蚁集团联合推出的 "安诊儿 "宣布融合DeepSeek-R1,升级大模型底座能力,成为国内首批支持专业推理模型的AI医疗健康应用之一。

2025-02-16 15:46