#医疗数据质量评估#数据质量评估的维度
医疗数据使用的前提是要评估数据的质量(data quality)。如果数据质量不好,或者充斥了很多错误、遗漏的数据,那么根据这样提取和分析的出来的结果会出现问题,甚至会具有误导性。
因此在使用数据之前,就要了解数据评估的质量。
要评估医疗首先第一个问题就是:评估什么?
也就说评估的维度。Weiskopf 2013年发表的文章《评估EHR数据质量的方法和维度:为临床二次使用》的文章中做了比较详细的总结:
5个评估EHR数据质量的维度:
完整性:EHR中患者的表现是否真实
正确性:在EHR中出现的一个元素是否为真?
一致性:EHR中数据元素之间是否一致,或者EHR和其他数据来源的元素是否保持一致?
合理性:EHR中数据元素是否测量了根据其他知识所了解的数据院所所需要测量的东西?
实时性:EHR中的某元素是否表现了在某一时间点患者的状态?
这是经过了全面的系统综述总结出来的维度,力求维度之间相互独立。Weiskopf同时也说道,在文献中这些维度所使用的术语是非常不规范的,那叫一个乱。怎么说:
图片上可以看到目前总结的五大维度,在其他文献中并没有统一的定义,相互也有很多的交叉。所以在群龙混杂的时候,出来做标准就一件大快人心也是抢山头的事情。O(∩_∩)O
另外Weiskopf这篇文章还总结了7种数据质量的评估方法:
1.金标准:从其他来源或者多个来源的数据汇集为数据集与EHR数据进行比较
2.数据元素的一致性:EHR中两个或多个数据元素来进行比较,查看是否汇报了相同或者相兼容的信息
3.元素展示:是否预期或者希望的数据元素都已经呈现了
4.数据来源一致性:EHR和其他数据比较看是否具有一致性(跟金标准不一样,金标准的数据源更为权威)
5.分布比较:从EHR中提取的数据进行分布或描述性统计,然后看跟预期的数据分布之间进行比较
6.有效性检验:使用多种方法来评估EHR来确定数据是否有意义
7.日志回顾:真实数据录入信息的检验。
并且还贴心地给出了五大维度和这7种方法的对应关系:
最近在做这方面的研究课题,所以看了一些文章,个人认为,这是目前对于医疗数据质量评估的维度和方法比较系统和全面总结的一篇文章了。
---------------------------------------------------现实分割线--------------------------------------------------------------------
看了知乎上的一些文章,对于医疗大数据的挖掘,很多人认为基本上目前国内的进展其实很慢,主要的问题不在于技术的壁垒,而在于数据的孤岛,缺乏互联互通。不仅是医疗机构之间的数据,也包括医疗机构内部的之间的数据。几年前在北京某著名三甲医院做过一次EHR数据提取做分析的研究,发现录入院是一个系统、录实验室检查是另一套系统、录影像学又是一套系统,三个系统不能导出数据,而且之间是不相通的,所以只能自己再建一个数据库,请专人来手工提取,再手工录入到自建的数据库。而且数据质量更是不太理想,唯一ID就是病历号,相互有对应不上的,数据缺失也很严重。
最近这个项目有机会可以深入地跟IT深聊,而且能够去看一个已经打通了的县乡村三级信息系统网络,也是比较幸运啦~\(≧▽≦)/~
参考文献:
1: Weiskopf NG, Weng C. Methods and dimensions of electronic health record data
quality assessment: enabling reuse for clinical research. J Am Med Inform Assoc.
2013 Jan 1;20(1):144-51.
因此在使用数据之前,就要了解数据评估的质量。
要评估医疗首先第一个问题就是:评估什么?
也就说评估的维度。Weiskopf 2013年发表的文章《评估EHR数据质量的方法和维度:为临床二次使用》的文章中做了比较详细的总结:
5个评估EHR数据质量的维度:
完整性:EHR中患者的表现是否真实
正确性:在EHR中出现的一个元素是否为真?
一致性:EHR中数据元素之间是否一致,或者EHR和其他数据来源的元素是否保持一致?
合理性:EHR中数据元素是否测量了根据其他知识所了解的数据院所所需要测量的东西?
实时性:EHR中的某元素是否表现了在某一时间点患者的状态?
这是经过了全面的系统综述总结出来的维度,力求维度之间相互独立。Weiskopf同时也说道,在文献中这些维度所使用的术语是非常不规范的,那叫一个乱。怎么说:
![]() |
图片上可以看到目前总结的五大维度,在其他文献中并没有统一的定义,相互也有很多的交叉。所以在群龙混杂的时候,出来做标准就一件大快人心也是抢山头的事情。O(∩_∩)O
另外Weiskopf这篇文章还总结了7种数据质量的评估方法:
1.金标准:从其他来源或者多个来源的数据汇集为数据集与EHR数据进行比较
2.数据元素的一致性:EHR中两个或多个数据元素来进行比较,查看是否汇报了相同或者相兼容的信息
3.元素展示:是否预期或者希望的数据元素都已经呈现了
4.数据来源一致性:EHR和其他数据比较看是否具有一致性(跟金标准不一样,金标准的数据源更为权威)
5.分布比较:从EHR中提取的数据进行分布或描述性统计,然后看跟预期的数据分布之间进行比较
6.有效性检验:使用多种方法来评估EHR来确定数据是否有意义
7.日志回顾:真实数据录入信息的检验。
并且还贴心地给出了五大维度和这7种方法的对应关系:
![]() |
最近在做这方面的研究课题,所以看了一些文章,个人认为,这是目前对于医疗数据质量评估的维度和方法比较系统和全面总结的一篇文章了。
---------------------------------------------------现实分割线--------------------------------------------------------------------
看了知乎上的一些文章,对于医疗大数据的挖掘,很多人认为基本上目前国内的进展其实很慢,主要的问题不在于技术的壁垒,而在于数据的孤岛,缺乏互联互通。不仅是医疗机构之间的数据,也包括医疗机构内部的之间的数据。几年前在北京某著名三甲医院做过一次EHR数据提取做分析的研究,发现录入院是一个系统、录实验室检查是另一套系统、录影像学又是一套系统,三个系统不能导出数据,而且之间是不相通的,所以只能自己再建一个数据库,请专人来手工提取,再手工录入到自建的数据库。而且数据质量更是不太理想,唯一ID就是病历号,相互有对应不上的,数据缺失也很严重。
最近这个项目有机会可以深入地跟IT深聊,而且能够去看一个已经打通了的县乡村三级信息系统网络,也是比较幸运啦~\(≧▽≦)/~
参考文献:
1: Weiskopf NG, Weng C. Methods and dimensions of electronic health record data
quality assessment: enabling reuse for clinical research. J Am Med Inform Assoc.
2013 Jan 1;20(1):144-51.