学会首页 学会服务 出版动态 探索者言     

世界卫生组织利用信息技术建立全球疫情爆发预警网
作者:缪其浩

编者说明:
  将这篇文章收入本书的想法萌生于2008年5月安徽阜阳发生手足口病的时候。当时有记者报道说在发病初期,尚未引起社会广泛警惕时,有的博客上就出现了“怪病”夺取儿童生命的传言。我马上想到了2003年SARS爆发期间自己写过的这篇文章。世界卫生组织“全球公共健康情报网(GPHIN)”,它正是以科学方法收集相关“疑似”信息,先经过文本挖掘等先进软件工具的筛选,再由专家加以判断,排除大量的“噪声”,及时将警报发出的一种机制。没有想到的是一波未平一波又起,接踵而来的是更加惨烈的汶川大地震。对地震而言,更加重要的可能是快速反应,因为提前一分钟也许就能够救出几条生命。事后人们收集了关于地震最早出现的博客,如果有一套机制收集这些信息,也许能够对应急对策作出一点贡献。
  本文原题《网络爬行者和文本挖掘技术帮助监测疫情:世界卫生组织如何收集、发布疫情爆发预警情报》,发表时改为现名。初稿中还有一句发表时被删除:“据称世卫组织专家们在2月中旬就通过这套系统从香港媒体的报道中判断出中国内地可能发生了问题”。其依据是一篇报道中引用的世卫组织某人的话,其中的时间是我当时推测的。现在看来提前预警是事实,但时间不准确。根据已经公布的官方材料,2003年2月11日中国国家卫生部首次向世界卫生组织(WHO)报告了广东省发现的病例。另据WHO于2003年5月20日在其网络上发布的一份报告,GPHIN 系统“对中国(2002年)11月的爆发提供了一些早期警报”,该事实也得到2004年11月19日新华网消息的证实。我后来的文献调查证实,GPHIN 对于SARS的最早警觉是2002年11月,它查到网上中文消息说因呼吸器官剧痛到医院看急症的病人突然增多,于是在2002年11月27日首次发出预警报告。2002年12月再次查到有关病人增多的中文资料,推测华南可能发生了“不明肺病”的流行。2003年1月查获首份英文相关资料,说抗病毒药物销售剧增,进一步证实有关推测。
  无论如何,今天重新来看这篇文章还不能算太陈旧。我国虽然在卫生部系统建立了一个公共卫生网络预警系统,但与GPHIN 相比还有很大的差别,我国的系统主要是通过网络来汇集各地卫生主管部门的报告,而GPHIN 主要是通过搜索非正规信息试图做出预警。
  在此还可以补充一些GPHIN 的新材料。2004年推出的新版本GPHIN2,已经可以处理简繁体中文和另外5种文字的信息,每天扫描1万多网站,分析2万条信息。
  2006年,在概念上继承了GPHIN、但技术上全新的一种流行疾病网络信息综合跟踪系统InSTEDD已经推出,具体情况可以参阅以下文献:
  Roger Highfield: Internet is pandemic early warning system. http://www.telegraph.co.uk/earth/main.jhtmlxml=/earth/2008/01/30/scibrill130.xml
  缪其浩,江世亮.非官方信息源担当应急预警器.文汇报,20080629(7).
  
  世界卫生组织为了尽早发现全球流行疾病的爆发,建立了一个全球公共健康情报网,利用因特网和文本挖掘等信息技术成果有效地跟踪监测全球各种可能爆发疫情的信息,进行分析判断,及时发出预警信号,对遏制疫病的流行、减少损失作出了贡献。
  虽然世卫组织与各成员国的疾病控制中心保持着密切联系,可以得到关于疫情的官方报告,但是由于种种原因,不少流行疾病的早期爆发没有得到及时的报告。全球公共健康情报网(Global Public Health Intelligence Network,GPHIN)就是世卫组织针对这种情况,开发利用网络上大量非正规来源的信息的预警工具。该系统是世卫组织和加拿大卫生部的合作项目,系统目前设置在加拿大卫生部。GPHIN 是由加拿大RonSt.John 博士于1996 年开发、1998 年投入使用的。GPHIN 的原理如同一个搜索引擎,寻找各个网站上有关主题的新文章。它每天按照加拿大疾病控制中心实验室提供的关键词表自动地从网上邮件列表、公告牌、专题讨论组、新闻组和非政府组织的网站上搜索,采用了文本挖掘技术和人工判读识别相结合的方法进行过滤。过滤后的信息进入一个数据库,供主题专家进行分析和验证。除了世界卫生组织自己使用外,美国疾病防治中心和美国陆军医学情报中心都订购该数据库的服务。
  事实表明,来自非正规渠道的疫情信息非常重要,约有60%疫情(一说75%)的初期爆发是通过非正规信息源得到警示的。据说到目前为止,大约70%的传染性疾病情报都来自GPHIN,所以它已经成为世界卫生组织全球疾病爆发的预警器。
  20位专家组成的全球疫情爆发警示和反应小组对初步的情报进行分析验证,以确定哪些疫情应该引起全球的关注。每个周日的早晨,小组开会审查收到的报告和流言,评估其流行病学的意义并决定采取什么行动。当天结束前,一份关于怀疑或确证疫情爆发的报告就通过电子方式送达全球各地世界卫生组织的工作人员,但该系统的报告不对公众公开。由于采用了标准的软件包,判断标准也是国际普遍接受的。事实证明该系统十分有效,该项目赢得了2002年加拿大政府的技术展览金奖。从1998年7月到2001年8月,世卫组织运用该系统确证了132个国家爆发的578次流行疾病。
  但是该系统也有局限性。因为技术上的原因,它只能监测已经上网的信息;还有文种上的限制,只能处理英、法文等西方文种,而许多发展中国家不用西文,大量信息也不在网上,就难以通过这个系统发现;同时由于信息来源上的问题,大约四分之一的警示无法得到验证。
  利用信息技术进行疾病预警的并不只有全球公共健康情报网,例如另有一种叫做ProMEDmail的面向公众的系统,监测传染疾病和严重毒性物质,范围不但包括人类,还包括家畜和农作物,其使用者主要是为防止生物战。它是一种独立的免费的以因特网为基础的公共系统,该系统雇佣专业的网上搜索人员,查询英文、西班牙文和葡萄牙文等资料。他们利用自己的计算机和时间,平均每天发现7条相关信息,这些信息有专家协调,然后在网上发出去。共有来自150多个国家的2万多个订户利用这些信息。
  
(原载《文汇报》2003年7月1日第一四版)