博客

从国际疫情数据的差异解读数据如何创造价值?

2020-04-18黄培

167阅
    新冠疫情期间,一直非常关心各种疫情数据。从开始关心湖北和武汉的疫情数据,到关心国际的疫情数据,最近开始关心无症状感染者和境外输入病例的数据。从收集数据到从数据看趋势,从数据看问题,洞察数据本身是一件很有意思的事情。2月中旬到3月下旬,我曾经自制EXCEL表,每天将更新的疫情数据录入EXCEL表,然后分析趋势,也写了一些相关的分析文章。本文从各个互联网平台发布的国际疫情数据存在明显差异这个问题谈起,解读数据如何才能创造价值?

    数据要有意义,创造价值,首先必须准确。

    “准确”的意思不仅是数据本身,还包括数据采集的时间、基准、标准和单位等等。就像我们中国人始终不适应华氏度、英里和英镑一样,数据的标准是基础。

    最近一段时间,在观察国际疫情数据时,我发现多个互联网平台发布的数据明显不一致。究其原因,当然是各个平台录入的时间不同,不同国家公布疫情数据的时间不同,而且对新冠疫情本身还有新冠感染和新冠肺炎两种标准,以及世界各地的时差等等。

    以下是国内和国外各两个平台发布的国际疫情数据,可以看出明显不同。比如,今日头条和腾讯新闻对于土耳其新增的确诊病例差一倍以上。而在Worldometers和在Bing搜索引擎搜索的来自WHO(世界卫生组织)的疫情数据中,法国的确诊病例差了将近4万人。在每天的某些时段,腾讯新闻显示的一些国家的新增病例数会是十位数,甚至个位数,而今日头条某些时段会显示未发布。在下图中,Worldometers的新增病例数也明显不准确。此外,约翰.霍普金斯大学发布的疫情数据也与上述来源的数据有所不同。



2020年4月18日北京时间11:07 今日头条(左)和腾讯新闻发布的国际疫情数据



2020年4月18日北京时间11:09 Worldometers和BING发布的国际疫情数据

    当前,新冠病毒仍在全球迅速蔓延,因此,各个国家和地区的确诊病例、新增病例数据是极其重要的,错误的数据就会导致误判,甚至得到错误的结论。在与国外朋友交流时,他们经常会提到一句话,叫做:The single source of truth,意思是要确保正确信息来源唯一,这样才能保证信息的一致性。因此,对于这些主流的互联网媒体平台,建议应当标明各个国家和地区是什么机构、每天什么时间发布数据,确保数据来源的唯一性和准确性。

    其次,数据要创造价值,及时性也很关键。

    昨天,武汉市修正了新冠肺炎确诊病例和死亡病例的数据。累计确诊病例从50,008例修正为50,333例;病亡人数从2579人修正为3869人,增加了50%,涵盖了未住院病亡,以及一些医院迟报漏报的数据,去掉了部分报重的数据,以及非新冠肺炎致死的病例。1月底、2月初,武汉市的确有很多症状明显,但还没能做核酸检测就去世的病人。武汉市能够进行这样的修订,对那些死难者的家属来说,无疑是令人欣慰的。不过,如果能够更加及时地修订和发布这些关键数据,当然效果会更好。同时,也应该反思,在移动互联时代,我国已投入巨额资金建设平安城市和疫情直报系统,而且通过视频监控已经可以进行人脸识别,为什么还会出现这么多迟报漏报的数据?


    第三,数据要产生价值,需要梳理和规划数据结构。

    例如,在很多企业中已经应用了诸多信息系统,但各个系统的数据库结构不一样。这些系统产生了大量静态数据和动态数据,导致需要开发很多数据接口,进行数据导入导出,有些数据不得不重复录入,容易造成错误。在业务系统应用的基础上,企业需要应用数据仓库软件来进行数据挖掘,进而实现BI(业务智能)应用,对数据进行多维度的洞察,并通过对数据的建模和分析,预测数据变化的趋势,从而帮助企业高层进行决策。近年来,企业架构(EA)成为热门的研究领域,通过对企业的业务架构和IT架构进行梳理,使企业能够更好地应用IT系统支撑业务。其中,TOGAF能够清晰地描述企业的业务架构、数据架构、应用架构和技术架构,成为企业IT规划的重要方法。

    同样,要实现智慧城市、智慧医疗,乃至智能社会,更需要对各种基础的人口数据、地理数据、产品数据、企业数据等各种基础数据进行科学的规划。


    第四,数据的可视化至关重要。

    2001年,我在美国进修MBA时,对教授说的“一幅图等于一千个字”这句话印象特别深刻,这句话体现了数据可视化的重要性。几年前,我带企业家考察美国Tableau公司,大家对该公司展示的数据可视化技术佩服不已。他们用软件生成的动态图清晰展示出过去几十年来,各个国家的家庭平均人口和平均寿命的关系及其变化趋势。2019年6月10日,这家成立于2003年的IT公司被全球SAAS软件巨头Salesforce公司以157亿美元的天价并购,充分体现了数据可视化技术的价值。

    数据可视化技术的另一个应用热点是AR(增强现实)技术。AR技术不仅可以用于在产品的物理模型上叠加数字孪生模型,从而通过动画模拟和虚实融合的方式进行培训示教,还可以将各种传感器和仪器仪表的数据实时地展现出来,从而帮助工作人员更快速地做出正确的判断,提高质量检测、设备维修、排除故障等作业的效率和效果。下图是爱立信工厂应用AR技术配合电路板质量检测的案例。


爱立信工厂应用AR进行数据可视化的案例


    第五,数据要真正创造价值,必须深入研究数据科学。

    近年来,业界对数据科学的研究越来越深入,衍生出主数据管理(MDM)等系统,以及数据清洗、数据仓库、数据治理和数据湖等新兴技术。以往,我们关注的更多是结构化数据,而现在则需要有新的技术来处理半结构化和非结构化数据。随着互联网的普及,数据的类型越来越丰富,图像、视频、语音,以及在社交媒体上海量的语义数据,电商平台上复杂的交易数据,使得人类迅速进入了大数据时代,数据科学家成为炙手可热的高薪岗位。数据如何防窃取、防泄露?数据安全成为非常重要的核心技术,数据主权问题也日益受到各界关注。

    而随着物联网技术的广泛应用,及时采集和分析来自泛在的传感网络,各种设备运行的实时数据和历史数据,以及生产质量和能耗等数据,是工业企业实现智能制造和智能服务的必要条件。对这些工业大数据的分析,已成为人工智能技术在制造业的核心应用领域;而云计算和云存储技术的应用,则是对大数据进行处理的标配。



本博客所有内容,若无特殊声明,皆为博主原创作品,未经博主授权,任何人不得复制、转载、摘编等任何方式进行使用和传播。
读者评论 (0)
请您登录/注册后再评论
相关阅读