首页>大数据>大数据中心
大数据时代,研究者如何获取全球视野
2019-07-24来源:全国产业与金融创新平台

伴随着中国走向世界,并且与世界的经济社会往来越来越密切,各种来自全球的风险与挑战层出不穷,仅仅从维护国家利益的角度来看,研究者在研究过程中纳入全球视野是极有必要的。

大数据时代的到来,为研究者观察全球社会的运作提供了极佳机遇,基于大数据的全球社会科学研究逐步有了可能。这将会极大地拓宽社会科学的研究视野,让原本高度依赖本土经验的社会科学研究不再只是“地方性知识”,可是具有整个星球意义上的普适性。

更为重要的是,所有基于大数据的研究,共享同样的数据,研究的可重复性,可检验性得到极大提高,也有助于其研究结论广为接受并得到推广。

实际上,从全球比较的层面进行社会科学研究,在社会社科的奠基人那里就有了这样的基因。

比如说,在马克思对近现代社会的系统性研究中,全球视野是非常强的。马克思在谈分析1500年发现新大陆之后的世界体系时,最经典的名言莫过于说,旧金山、澳大利亚的金矿与远东的茶叶生产、伦敦的股票市场的变化之间的紧密关联,生产与贸易的全球化,让世界整合成为一个有机关联的体系。马克思在《资本论》中分析资本主义、殖民主义的运作时,其全球比较视野,全球关联的视野也一以贯之。因为马克思深刻地认识到,要研究资本主义社会,在全球化进程已经开启的时代,缺乏全球的眼光是完全不行的,只有将世界有机关联起来进行研究,从世界体系的角度展开研究,我们才有可能获得完整的知识。在全球化开启的时代,没有任何一个地方可以安于一隅,而会在政治、经济、文化等诸多方面与全球化进程融为一体。

再比如说,在马克斯.韦伯的体系中,全球比较的视野也体现的淋漓尽致。无论是《经济与社会》,还是《比较宗教学研究》,还是他对理性化进程的分析,都显示出高度的全球比较视野。为了说明新教对于资本主义产生的推动作用,他对西欧的天主教、中东的犹太教和伊斯兰教、以及印度的佛教、远东的儒教与道教进行了系统的观察与比较,试图从这样一种全球比较的视野中获得洞见。

可以说,这些学术大家为了论证其观点的可接受性,拓展其理论的想象力,不遗余力地从全球经验来力推其研究视野的拓展,将其理论的经验边界不断拓宽,从而摆脱理论建构的“地方性知识”的困扰。

马克思,韦伯的努力是值得敬佩的,也是难能可贵的。因为在经验资料高度碎片化,尤其是不同语言之间经验资料的阅读等难题的限制,以及异域的经验资料获取难度较大时,这种努力就更显得弥足珍贵,这不但需要理论家具有极强的社会学想象力,而且也需要有极强的经验信息驾驭能力。故而,如果研究者没有极强的学术献身精神,以及敏锐的理论洞察力,要实现这些都是非常困难的。

而大数据时代的到来,拓展社会科学的新版图,为全球社会学研究带来了光明的前景。具体而言,大数据时代的到来从以下几个方面推动了全球比较社会学研究。

一是互联网作为全球信息的汇聚平台出现,来自于全球的数据信息获取具有了可能性,这为研究人类命运共同体的风险与挑战提供了永无止境的海量信息。一统天下的互联网,为世界各地的信息交融,社会经济文化交流提供了统一的平台,互联网在不断汇聚世界各个角落的信息,将原本老死不相往来的世界整合成为一个统一的平台,来自世界各种语言的信息在此汇聚,层出不穷的数据产生。在当前,每半年产生的互联网数据信息,等于过去一切时代人类所产生的信息的总和。这对于理解世界各个地方提供了数据来源。全球社会的生活世界高度整合进入互联网之后,观察世界各地的社会运作逻辑,以及比较世界不同角落人群的心理、行为倾向就具有了可行性。

笔者借助于GDELT数据库,刻画2015-2018年间世界上2610多个省的反移民指数。该图清晰地反映,反移民浪潮主要发生在北美和西欧,即西方发达国家阵营,而且,在西欧,反移民指数的空间分布在西欧与中欧之间画下了一道清晰的分界线,这条分界线大致是“丘吉尔”说说的从波罗的海到黑海之间的长长的“铁幕”,也就是东西方世界对抗的分界线。

以GDELT数据库为例,该数据库从2015年开始系统运作,汇聚来自世界所有角落、具有实时性的网络媒介信息,这些信息包括门户网站、网络新闻、广告、广播、博客、网络论坛等,大致包含了全球30多万个类似的媒介来源,以每15分钟更新一次数据,并且将世界上65种语言中的信息进行汇聚,既通过将各种语言翻译成英文进行处理的方式开展自然语言处理,也以自然语言处理的方式直接对不同语言的原始信息进行自然语言处理。自然语言处理主要包括概率主题模型、情感计算、实体分析等方面,并将这些自然语言处理的数据结果变成研究者可以直接计算的“半结构化数据”。

那么,研究者可以用这些具有全球性的数据库做什么呢?根据研究者的不同兴趣,可以从事完全不同的研究。笔者主要从全球比较社会学的角度,谈谈利用此数据库的价值。

比如说,从研究人类社会的构成来看,该数据库为对社会生活中最为主要的现象都做了分类,这些分类体系包括;

(1) 有关人的分类的,包括语言、种族、阶层、职业、宗教、所使用的货币等等,仅仅从这个角度看,该数据库已经对于社会科学研究中所需要的最为主要的分类已经做了处理,而且随着技术的进一步拓展,还可以进一步拓展分类体系。

(2) 有关人类行为模式以及社会互动模式的,这些人类行为与互动模式的种类包含了社会生活中最为主要的类型,包括个体性的反社会行为、亲社会行为,而关于互动模式的,既包括合作,冲突,以及群体性行为等。有关人类行为模式和社会互动模式的类型高达300多种。

(3) 有关人类社会认知、社会情绪等社会心态的,在GDELT数据的GCAM数据库下,总计有18种情感词库,用于从不同的角度测量人类的情绪与认知状态。这对于研究原本难以量化的情感计算领域,提供极佳机遇。

如果从全球比较的角度来看,借助于GDELT的数据库对世界各民族、各种语言的信息都有所涵盖,那么该数据对于我们研究人类生态系统,以及人类社会系统如何运行,就具有了可行性。

二是层出不穷的来自于世界各地的数据库被整合,或者原本无法被数字化(data)的信息(information)被数据化。 这些来自于各种语言、各个民族的数据,也为研究者进行全球层面的比较提供了契机。与互联网信息在空间上的超强广度不同的是,这些信息可以在时间上具有极强的跨度。

Google Books就是这样的数据库。谷歌图书最初将欧美一些顶级大学的图书馆的馆藏图书进行扫描,逐步将其书籍来源进行扩充,至今已经扫描了世界上9种语言中的3000多万册图书,这一进程还在继续。人类要了解我们过去的历史以及过去社会的运作逻辑,主要依赖于过去的文字记载。谷歌图书目前的书籍来源在时间上可以扩展到1500年。借助于这些海量的图书信息,及其有助于我们理解过去500年来人类社会运作的方方面面,而且,可以对主要文明和国家的历史进行比较。

当然,该数据库目前还没有完全开发,目前主要用于做词频统计。可以设想,随着该数据库所纳入的书籍信息不断扩充,比如说从现在的3000万册(大致占古登堡印刷术以来人类出版书籍的10%左右),增加到2亿册左右(即占人类出版书籍的2/3),同时在文本信息的自然语言处理方面,也像GDELT数据库那样,从多个维度对数据信息进行提取,可以设想,该数据的威力对于研究全球史的意义与价值。可以毫不夸张地说,这一定会在史学研究领域带来一场扎扎实实的研究方式革命。

借助于Google Books,笔者曾经绘制了1800-1900这100年间世界贸易格局的变迁,以圆圈的大小反映各个城市在贸易格局中的重要性,以城市之间连线的粗细反映贸易互动的频繁程度。左图是1800-1810年(19世纪头10年)的贸易格局,右图是1890-1900年,即19世纪最后10年的贸易格局。19世纪初,最重要的贸易重镇还是在亚欧大陆的中心城市之间,伦敦、罗马、耶路撒冷构成了这个贸易体系的三个最为核心的节点,三者之间的共现频率远超其他城市;而到了19世界末,最重要的贸易节点已经变成了大西洋两岸的城市,城市之间的双边贸易的集中程度降低了,贸易的总量在极大程度的增加的同时,却分散到了更多的城市之间,而不是像19世纪初期那样高度集中在少数几个关键节点城市。

除了GDELT,Google Books等天文量级的文本数据信息之外,来自于Facebook,Twitter,Wikipedia,Reddit等社交媒体数据、网络论坛数据、网络百科数据,无不可以从全球的层面帮助研究者从数据中获取洞见,获得对“人类生态系统”,或者说“人类命运共同体”的认知。

在大数据信息已在全球层面整合、在星球层面覆盖、在各种语言中以指数级增长的背景下,如何从全球的层面提出有意义的问题,从冷冰冰的数据海洋中提取出服务于国家建设的洞见,在当今时代显得尤为关键。

很显然,当前世界意义的数据信息整合主要是由美国主导的,具体而言,是由谷歌、微软等这样的世界级企业主导的,这些大数据信息对于他们认识全球社会如何运作,并服务于其企业的资本运作是“如虎添翼”,同时也服务于其国家利益。而我国学界在这方面的反应目前还颇为迟钝。在“信息就是情报,情报蕴含价值”的时代,我国学术界应该重新“开眼看世界”,这种“开眼看世界”不是像现在所流行的所谓的“国际视野”,而是说,将这种具有全球意义的大数据及其分析技术纳入到我们的研究进程中,提升全球层面的信息驾驭能力,问题发现能力以及理论建构能力,摆脱地方性知识的困扰,提升中国社会科学的学术话语权。

作者:龚为纲

版权归原作者所有,本文仅代表作者观点,不代表本平台立场