日记之肮脏的大数据

日记之肮脏的大数据现在大数据很流行，好像做什么事情不带上大数据就不够高大上，据说就连号贩子也在用大数据来开展业务为医生定价了。
最近几年流行各种各样的医院排行榜，时间最长，最权威的应该是复旦的医院排行榜。最近北大也开始做北大版的医院排行榜，北大版排行榜认为自己的榜单更加可靠，因为他们用了最“可靠”的大数据。
这个“可靠”的大数据应该是来源于国家卫计委，国家卫计委的数据应该是来源于全国各家医院的病史首页，那就让我们了解一下病史首页。什么是病史首页？2016年6月27日，国家卫计委公布了《住院病案首页数据填写质量规范（暂行）》和《住院病案首页数据质量管理与控制指标（2016版）》。文件规定：住院病案首页包括患者基本信息、住院过程信息、诊疗信息、费用信息。住院病案首页填写应当客观、真实、及时、规范，项目填写完整，准确反映住院期间诊疗信息。
疾病诊断编码应当统一使用ICD-10，手术和操作编码应当统一使用ICD-9-CM-3。谁来填写病史首页？临床医师、编码员及各类信息采集录入人员，在填写病案首页时应当按照规定的格式和内容及时、完整和准确填报。
临床医师应当按照本规范要求填写诊断及手术操作等诊疗信息，并对填写内容负责。
编码员应当按照本规范要求准确编写疾病分类与手术操作代码。临床医师已作出明确诊断，但书写格式不符合疾病分类规则的，编码员可按分类规则实施编码。
医疗机构应当做好住院病案首页费用归类，确保每笔费用类别清晰、准确。
问题来了，一份病史首页需要由至少三个人经手：临床医生、编码员、其它信息采集录入人员，要想保证病史首页完成的及时性，完整性和准确性，挑战非常大。肮脏的大数据我国很多数据的准确性一向很成问题，多少年来，就连我们国家一年生多少孩子都没有一个准数，国家卫计委、民政部、国家统计局和公安部几个部委的数据从来就没有一致过，数字可以相差几十万到上百万。当然，你可以说是统计口径不一样所造成的，但是不应该差这么多吧。
你去看看医院的医疗数据，医务部门、财务部门、信息科和科室自己统计的数据也经常有很大的出入，院长也搞不清楚哪个数据最准确。
好的，让我们再回到病史首页。
你应该知道，三甲大医院的临床医生很忙，而且绝大多数的临床医生是没有受过ICD编码培训的，你能指望他们把诊断和手术操作准确的按照ICD-10和ICD-9-CM-3去填写好吗？你能指望他们去客观、真实、及时、规范、完整、准确地填写好病史首页吗？
还有一个大问题，医生写病史所使用的自然语言与ICD编码是完全两回事情，两种语言体系经常不匹配。例如一个简单的子宫肌瘤手术就会对应着N多个不同的医生自然语言：子宫肌瘤切除术，子宫肌瘤剜除术，子宫肌瘤剔除术，子宫肌瘤挖除术，子宫肌瘤剥除术，子宫肌瘤XX术……。
医生是爱写什么就写什么的，还可能今天这么写明天那么写的，够狠的吧，而且这坏毛病还一时半会改不了。
你也应该知道即使是大的三甲公立医院也没有足够多受过正规培训，有上岗证书的ICD编码员的。

数据最好不要太过于依靠医生或编码员去复习病史进行二次填写，患者数据最好从一开始就是结构化，标准化的，最好来源于真正的结构化电子病史，病史首页最好是能够自动生成。
现在的大数据的特点是Massive and Messy（大而肮脏）。
这届医生不行，这届编码员不行，这届病史首页不行，这届大数据不行，那你说北大版医院排行榜行不行？

PS：本人对北大没有任何偏见，对北大版医院排行榜也没有什么偏见，本人对肮脏的大数据有偏见。

（来源于网络）

日记之肮脏的大数据

妈妈们也在关注的帖子：

妈妈们也在关注的问答：

日记 之 肮脏的大数据

妈妈们也在关注的帖子：

妈妈们也在关注的问答：

日记之肮脏的大数据