日记 之 肮脏的大数据 现在大数据很流行,好像做什么事情不带上大数据就不够高大上,据说就连号贩子也在用大数据来开展业务为医生定价了。
最近几年流行各种各样的医院排行榜,时间最长,最权威的应该是复旦的医院排行榜。最近北大也开始做北大版的医院排行榜,北大版排行榜认为自己的榜单更加可靠,因为他们用了最“可靠”的大数据。
这个“可靠”的大数据应该是来源于国家卫计委,国家卫计委的数据应该是来源于全国各家医院的病史首页,那就让我们了解一下病史首页。什么是病史首页?2016年6月27日,国家卫计委公布了《住院病案首页数据填写质量规范(暂行)》和《住院病案首页数据质量管理与控制指标(2016版)》。文件规定:住院病案首页包括患者基本信息、住院过程信息、诊疗信息、费用信息。住院病案首页填写应当客观、真实、及时、规范,项目填写完整,准确反映住院期间诊疗信息。
疾病诊断编码应当统一使用ICD-10,手术和操作编码应当统一使用ICD-9-CM-3。 谁来填写病史首页?临床医师、编码员及各类信息采集录入人员,在填写病案首页时应当按照规定的格式和内容及时、完整和准确填报。
临床医师应当按照本规范要求填写诊断及手术操作等诊疗信息,并对填写内容负责。
编码员应当按照本规范要求准确编写疾病分类与手术操作代码。临床医师已作出明确诊断,但书写格式不符合疾病分类规则的,编码员可按分类规则实施编码。
医疗机构应当做好住院病案首页费用归类,确保每笔费用类别清晰、准确。
问题来了,一份病史首页需要由至少三个人经手:临床医生、编码员、其它信息采集录入人员,要想保证病史首页完成的及时性,完整性和准确性,挑战非常大。肮脏的大数据我国很多数据的准确性一向很成问题,多少年来,就连我们国家一年生多少孩子都没有一个准数,国家卫计委、民政部、国家统计局和公安部几个部委的数据从来就没有一致过,数字可以相差几十万到上百万。当然,你可以说是统计口径不一样所造成的,但是不应该差这么多吧。
你去看看医院的医疗数据,医务部门、财务部门、信息科和科室自己统计的数据也经常有很大的出入,院长也搞不清楚哪个数据最准确。
好的,让我们再回到病史首页。
你应该知道,三甲大医院的临床医生很忙,而且绝大多数的临床医生是没有受过ICD编码培训的,你能指望他们把诊断和手术操作准确的按照ICD-10和ICD-9-CM-3去填写好吗?你能指望他们去客观、真实、及时、规范、完整、准确地填写好病史首页吗?
还有一个大问题,医生写病史所使用的自然语言与ICD编码是完全两回事情,两种语言体系经常不匹配。例如一个简单的子宫肌瘤手术就会对应着N多个不同的医生自然语言:子宫肌瘤切除术,子宫肌瘤剜除术,子宫肌瘤剔除术,子宫肌瘤挖除术,子宫肌瘤剥除术,子宫肌瘤XX术……。
医生是爱写什么就写什么的,还可能今天这么写明天那么写的,够狠的吧,而且这坏毛病还一时半会改不了。
你也应该知道即使是大的三甲公立医院也没有足够多受过正规培训,有上岗证书的ICD编码员的。
数据最好不要太过于依靠医生或编码员去复习病史进行二次填写,患者数据最好从一开始就是结构化,标准化的,最好来源于真正的结构化电子病史,病史首页最好是能够自动生成。
现在的大数据的特点是Massive and Messy(大而肮脏)。
这届医生不行,这届编码员不行,这届病史首页不行,这届大数据不行,那你说北大版医院排行榜行不行?
PS:本人对北大没有任何偏见,对北大版医院排行榜也没有什么偏见,本人对肮脏的大数据有偏见。
(来源于网络)
更多>>
更多>>