文本分析-包弼德谈哈佛中国历代人物数据库

文本分析-包弼德谈哈佛中国历代人物数据库 ,对于想了解历史故事的朋友们来说,文本分析-包弼德谈哈佛中国历代人物数据库是一个非常想了解的问题,下面小编就带领大家看看这个问题。

原文标题:包弼德谈哈佛中国历代人物数据库


历史学研究的量化趋势已经越来越明显。这种量化趋势,不仅体现在经济史、社会史等涉及统计学知识和数据语言的领域中,而且已经渗透进传统的制度史、军事史、政治史研究。在这种渗透中,量化史学一方面以其实证性和数据挖掘的大样本优势,取得了优势地位;另一方面,它在定性问题上的局限性和计算机深度学习的未知,受到了不少质疑指摘。
近日,笔者受澎湃新闻“私家历史”频道所邀,前往美国哈佛大学的量化社会科学学院,参观了由哈佛大学费正清中国研究中心和东亚燕京学社运营维护的中国历代人物传记资料库(China Biographical Database,下文简称CBDB)办公室,向负责CBDB的项目经理、哈佛大学统计系教授王宏甦先生,牛津大学博士、CBDB项目博士后徐力恒先生了解数据库的运营情况,并就相关议题采访了哈佛大学东亚系包弼徳(Peter K.Bol)教授。
可视化技术展示历史人物关系网络
CBDB数据库由哈佛大学费正清研究中心、北京大学中国古代史研究中心、台湾“中研院”史语所合作开发。它以单一人物的生平纪录为核心,并通过字号、亲属关系、生卒年份等项目,展开个人与其他人物的关系网络,形成所谓的“关系型”资料库。虽然CBDB通过个体检索实现,但这种个体不是独立存在的,数据库通过搜索搭建了这些历史人物之间的关系网络。正如数据库负责经理王宏甦先生所言,“我们数据库展现的人,是群体的人,是大数据系统下的人,而不是每一个单一个人的资料。个体的呈现,通过整个关系网络实现,体现的也就是‘群体下的个体’。”
这种网络结构,显然需要通过可视化展示才能呈现。为此CBDB尝试了多平台合作,比如通过和北京大学中国古代史研究中心的合作,借助北大历史系师生扎实的学术训练,进行CBDB的文本分析校对检验工作。这种合作绝无仅有:借助北大师生的历史学功底,对数据库的每一个记录都进行了历史学家的考订,可谓史无前例;另外,CBDB和GIS(地理信息系统)等平台实现了数据对接,对于CBDB得出的数据,可以借助地理信息系统实现真正的可视化。这种可视化带来的冲击,无论是视觉还是范式上,都是相当可观的。
CBDB数据库与万方、中国知网有何不同?
同为历史档案资料库,哈佛大学CBDB数据库专注于历史人物传记的梳理工作。那么,这和大陆的万方、知网等数据库相比,具有什么特殊优势?它为何能比一般全文录入(或全文扫描)数据库更易于维护和更新?换句话说,CBDB数据库最大的特色是什么?
从采访中得知,CBDB的差异化优势大致有以下三点:
(1)能识别相同含义的不同词汇
CBDB最初由哈佛大学教授郝若贝( Robert M. Hartwell)和其夫人在1970年代建立。其性质和当今大多数历史数据资料库相仿,即以全文未分析的形式录入资料,并通过关键词的方式来进行搜索。这种数据库最大的弊端在于无法识别许多同一汉语名词的不同表述。举一个不成熟的例子,比如在搜索王安石之“母”时,便有可能因为史料某些词条记载中用了“娘”、“妈”等等其他词汇而无法显示出来。因此,对于这些不同文本进行编码化,避开汉语言文字的多样化表达,完整呈现史料信息,就是数据库持续发展的必然趋势。
而CBDB,正好处于这一趋势的最前沿。相比于其他数据库,它的最大优势,也是对郝若贝版数据库最大的提升,便在于其实现了文本的编码化:将一个个单独的词条,通过编程的方式,形成了所谓的“关系型”数据库(relation database)。
关于这一点,王宏甦进行了详细的阐释:“别的数据库是一种纯粹的文本展示,我们会对文本进行简化解读,把很多意思相同,但中文表达不一样的词汇编成同一数据代码,尤其是对亲属关系的梳理。比如像‘后母’、‘养母’、‘庶母’、‘嫡母’这几个词,差异很多,包括‘嫡母’,也可以代表不同的人。我们就需要把整理成同一编码结构,才能方便阅读。这些细节,在其他数据库里我基本没发现到这一点。”

文本分析-包弼德谈哈佛中国历代人物数据库
哈佛CBDB数据库负责人王宏甦解读文本的数据编码问题
(2)通过多方争吵、相互攻击实现创新
除了通过编码的方式,实现了历史文本的初步挖掘和分析外,CBDB相比于其他数据库,还特别看重相互间的不断攻击。事实上,在许多软件开发的大企业里,通常会设置开发组和市场组,前者负责软件生产和开发工作,而后者主要从事市场调研和用户体验反馈工作。好的产品最终得以形成,需要企业的这两个组别不断互动和攻击。市场组根据市场经验不断给开发组提意见,开发组也会就自己的开发难度对市场组提出质疑。但只有在这种双方不断相互攻击的前提下,产品才能不断创新,提升其质量和用户体验。
而CBDB显然吸收了这一经验,在日常运营维护中,CBDB强调多方争吵,一方是加州大学尔湾分校的傅君劢(Micheal Fuller)教授带领的历史学家、社会学家团队,第二方是真正在一线做数据的工作人员,第三方就是设计数据架构的设计者。三方会代表各自群体的一个视角进行讨论,以达成数据的最优化呈现。王宏甦举了一个例子:“比如做一个数据表,历史学家会说,我要加20个表,我这边就会说加20个表难度太大,做数据结构的就会说我熟悉这个结构,我们可以通过压缩合并把这20个表缩小到一半不到的规模,满足双方的需求。这种良性的争吵,会使得数据库不断在变。”
(3)对量化和质性研究同等看重
CBDB作为纯历史文本领域的数据化和量化尝试,在政治制度史、军事史等领域带来的范式冲击是前所未有的。这些旧有领域过去强调纯粹的质性研究,并不存在数据分析和挖掘的空间。而CBDB带来的量化的可能,也自然而然出现了非常多以往质性研究中所无法触及的成果。
徐力恒博士重点提到了文欣的学术成果。在研究中,他创新使用《唐折冲府汇考》和地理信息系统来观察府兵制下的籍贯分布。按照徐的说法,“文欣仅仅将数据放在地图上,就已经能直观地看到了卫士产生和地域、地理环境等变量的相关性。他通过可视化,就打破了原有唐史研究中,认为军事分布位于长安、洛阳两个点的说法,发现其实它是在全国呈现三角分布。如果没有可视化和图形分析,我们基本很难发现这一结论。”

文本分析-包弼德谈哈佛中国历代人物数据库
CBDB数据库和复旦大学历史地理信息系统合作,使得文本数据的可视化成为一种可能
需要注意到,这种创新不应被过度解读。它并没有因此得出“量化研究比质性研究更加优越”的结论。事实上,文本挖掘的创新性意义和传统史学研究并没有什么差异。因为在史料学研究中,创新点就是能看到别人看不到的东西。而文本挖掘和可视化看到了新的东西,并不代表比前人更加聪明或者厉害,两者不过各有千秋。
反思:人才缺口和机器思考的局限性
在文本编码转化和多方互动的基础上,CBDB的可持续更新得到了保障,这使得它超过了绝大多数的数据库,获得了不断的生命力。但这是否就真的就预示CBDB在历史学科研究未来的一片坦途?
并不见得。虽然有着种种令人羡慕的先天优势和创新思维,但CBDB的发展还存有很多障碍。有些是暂时性的,随着时间的推移和时代的发展,最终能得到妥善解决;也有一些深层次、更为宏观的障碍,甚至涉及到整个人工智能、机器学习以及量化研究领域的局限性,需要得到重新认识。
最直观的障碍是人才。CBDB学科要求横跨文理,目前进行数据库正常运营工作的王宏甦和徐力恒都有历史学科训练背景且精通编程和数据操作,但像他们这样具备双重背景的人才少之又少。徐力恒直言“人才缺口非常大,国内几乎没有任何学科专门做历史学文本的数据化研究。两种才能兼备的人才太少了”。
但徐力恒认为这不是一个学术范式滞后的问题,“而是超前的问题”。因为历史文本挖掘,在全球范围内都是一个全新的学科,远远没有达到成熟的阶段。如王宏甦所言,“即使大家都知道,这是历史学未来发展的趋势之一;但也正因为其处于史学研究的最前沿,没有先例可循,所以大家都很难预测这一学科未来的走向。”
既然领先,没有经验可考,相关人才出现短暂的缺口也就不难理解。可预计的是,随着这一学科的逐步成熟和学术界对此重视程度的加深,人才的缺口迟早会得到填补。但另一种障碍,似乎在更为宏观的层面上,暗示着机器思考的某种先天不足。
机器思考真的是无所不能的吗?电脑真的就比人脑更好用?
事实上,这一问题早已被广泛讨论。因为它涉及到了人脑和电脑的极限,在大数据时代,人思维固有的局限性在计算机下尤为突出,人们都在思考,人脑在未来,是否会被机器思考所取代?
两位青年学者对此均表示否定。徐力恒认为,“人力的作用在于深度,而电脑的作用在于广度。两者本来就是各有优势并互补的,我们应该去避免两者的冲突,尽力将他们的长处都发挥出来。”而王宏甦则举出一例:“比如有人之前埋怨数据库中关于郑和的数据不足,但我们数据库建立在关系链的基础上,所要展示的是一种广度,而他要求郑和个体的数据丰富度,这不是我们数据库所要提供的,CBDB是一个工具,工具就有局限性,挖掘深度的工作应该交由人力完成,而不应该埋怨一个数据系统。”
虽然机器思考存在固有的弊端,但一定程度上的人工智能是否有可能?未来的CBDB数据库,是否有望实现自主学习、自主分析数据的功能,甚至最终懂得对数据自主发问,继续压缩着质性研究的空间?
王宏甦对此持保留意见,“我不排除这种可能。但,我们需要非常谨慎,计算机在做历史分析上充满未知。况且人工智能是为了解决问题,而不是为了制造问题。”
徐力恒的回答则更直接:“这恐怕还不是可能性,而更多是必要性的问题”。在他看来,大量数据堆砌下形成的计算机分析,虽然可能出现少量创新成果,但效率实在太低,根本无法和具备灵活性(reflexibility)的人脑相比。至少在可以预见的将来,对大量历史数据的计算机自主分析并没有必要。
为了佐证自己的观点,王宏甦提到了一个很有意思的反例:“哈佛商学院之前做了一个很有意思的内部测试,就是想去试着在数据库测试计算机自主提问和自主分析的可能。当然结果是非常荒谬的。你可以看看这个网站的表格,做的是一个无关关系的分析。计算机通过所谓的数据分析,展示两个没有关联的变量间因为变化趋势相似而放在一起分析的图,看上去很有道理,比如这张:鸡肉的消耗和美国石油进口数量的分析,变化都是一样的,数据相关性达到了89.99%,但这说明什么问题呢?如果数据全让计算机来资助提问,就很有可能得鸡肉和美国石油进口有关系这样荒谬的结论了”。

文本分析-包弼德谈哈佛中国历代人物数据库
哈佛商学院的荒谬实验图
面对CBDB的优势和局限性,徐力恒给出了自己的总结,“我们还是要认识到定性和定量各自的限制,谁也不能否定谁,同时谁都应该努力去做到相辅相成。因此,CBDB最让我们自豪的,就是这一点,两者并重,人文和数位,都在其中发挥了重要作用,这是别的数据库做不到的,也是我们相信我们数据库能继续很好发展最重要的一个原因。”
专访包弼徳:将中国每一个有史可载的个人都录入这个系统
对于数据库和量化史学研究的宏观解读,笔者有幸邀请到了哈佛大学东亚系着名的包弼徳教授,为我们在一个更为广阔的层面认识CBDB数据库。

文本分析-包弼德谈哈佛中国历代人物数据库
哈佛大学在网上公开课网站Coursera的课程《ChinaX》邀请两名资深教授包弼徳(Peter. K. Bol)和柯伟林(William C Kirby)讲授,在全球范围内引发极大关注
澎湃新闻:您作为一名研究宋朝思想史的教授,按理说应该更接近传统人文研究的套路。可从您之前在网络公开课平台coursera开设中国历史课《ChinaX》开始,我就发现您对于互联网、技术与内容传播敏感度要超出了绝大多数学者。当然,也是在您的《ChinaX》课上,我第一次知道了CBDB数据库。我的问题是,您为何对于新技术那么感兴趣?这和您的研究有什么关联?
包弼德:很难说。一开始,当郝若贝先生将他自己的数据库捐给哈佛大学时,当时我就承担了维护和升级这一数据库的义务。但后来,当我看到如此数量庞大的数据库时,尤其这些数据可以通过空间的方式展现出来时,比如一些历史上的数据可以通过地理信息系统(GIS)可视化展现,并因此发现很多以往研究无法呈现的要素:比如地质、气候分布等等对于历史的影响。要知道,当我们有机会通过大数据来挖掘大多数民众的历史时,它会呈现一种和过去局限在“极少数掌控权力的精英群体研究”完全不同的视角。统计学的一个常识就是,大量的数据会比少量数据更有利于回归分析。所以,我相信这个数据库会对拓宽我的研究领域有用。
但需要说明的是,这个数据库并非独立服务于我的兴趣。这是一个对很多研究有参考与引用价值的数据库,它能发展起来,也不是源于我个人的学术兴趣,大家都在努力着。你可以把我对数据库的工作看成是“基础设施建设”。(Infrastructure Building)

文本分析-包弼德谈哈佛中国历代人物数据库
哈佛大学东亚系终身教授包弼徳先生
澎湃新闻:回到这个CBDB系统本身,您觉得这个系统和其他数据库相比,最大的优势在什么地方?
包弼德:很简单,这个系统是独一无二的。这个世界上,还没有第二个历史数据库像CBDB一样独特。首先,其他数据库也许会做部分的图表展示和分析,但大多还是最基础的全文录入,比如像Google Scholar, 包括中国的知网,都是全文的基础上,用关键词搜索的方式来展示,没有任何进一步解读和分析,但像CBDB这样的关系型数据库,通过对一些变化词语的编程,使其变得更简化,也因为这种简化,CBDB可以很方便地和其他系统互动,比如地理信息系统,从而很快实现可视化的效果。第二,其他的数据库会有登录权限,很多文件都是付费的,但CBDB完全免费,所有内容,包括整个数据库都可以免费下载。我们不以盈利为目的,完全以推动历史学量化研究这样纯粹的学术目标进行数据库运营,别的数据库基本做不到这一点。

文本分析-包弼德谈哈佛中国历代人物数据库
CBDB数据库对所有人免费开放,所有数据都可以免费下载
澎湃新闻:依托于CBDB数据库,现在有什么最新的成果展示吗?
包弼德:自然有很多,但我无法一一解答出来。因为对于我们而言,重点在于维护这套系统而不是关注这套系统带来多少新的成果。但当然,依托于大数据,我们肯定能发现非常多过去无法得出的成果,这不仅仅是数量差异,更多的是维度差别。
澎湃新闻:如此说来,这种维度差别是否说明历史学研究将要进入一个更加新的维度?或者换句话说,量化研究开始进入政治史、思想史领域,是否说明其将在未来成为历史学研究的主流?
包弼德:这种说法需要警惕。因为历史未来的面向是多元的,量化自然是其中一个,但并不是唯一的趋势。对我而言,量化于历史学研究的最大意义,在于其丰富了历史学的研究方法。它作为一种研究工具出现,大大扩展了旧有历史学研究的领域。但这并不能因此推断出,历史学未来的趋势就是量化研究,至少我希望不会出现量化研究一家独大的情况。
量化为历史学研究提供一个新的角度,但这并不代表需要对旧有研究方式进行取代。每种研究方式都有自己的优势和限制,量化也不例外。因此,我相信传统的大部头历史原着阅读,还是能发挥其展现观点的连续性优势,而数据库则在发掘新观点上提升了速度,两者其实不矛盾,反而能互补和共同促进。
要知道,量化研究的出现从来不是为了去挤压任何其他历史研究的空间,即使客观出现了某种空间的挤压,那也不是有意为之。量化的目的,是开辟新领域,而不是挤压旧有领域。
澎湃新闻:谈谈门槛问题吧。CBDB数据库的出现,似乎在一方面降低了对历史爱好者进入研究领域的门槛,更多人可以在不接受,或者不完全接受严格的学术训练下研究历史;但在另一方面,这对于很多没接受过数据分析或计算机培训的传统的历史人文研究学者来说,这种数据库的出现似乎又增加了不少门槛难度?
包弼德:首先,关于降低门槛,如果这是真的,我会非常乐意见到;虽然至少到现在,这种情况还没有出现,但如果出现了,也会是CBDB的一大贡献;其次,关于提高传统学者的门槛,我觉得这只是短暂的。现在确实很多学者不会用数据库,但我觉得未来会改变的。因为数据库的优势就摆在那里,如果你想发现新的角度,你就会努力去学。当然我也不否认,很多学者其实并不愿意去学数据库,就个人而言,这完全没有问题。我也觉得,当这个问题对于他们研究而言不那么重要时,他们自然不会去挖掘,人之常情。但就整个历史学研究而言,一种开放式的态度还是很重要的。对我来说,历史研究永远不止一种研究方式,用任何你觉得有用的方式来完成研究,只要有助于你理解历史,这就足够了。前提是,你要有发现问题的能力,和清晰知道哪种方式,哪种工具能有助于你解决问题。
澎湃新闻:现在CBDB,包括许多历史数据库均停留在简单的历史数据展示阶段,但根据以往其他领域大数据挖掘的经验来看,这种数据的关系式挖掘和展示的现状,很可能会往更深一步的智能分析甚至机器学习取代。您觉得未来CBDB会有真正的深度挖掘甚至机器自主学习分析吗?
包弼德:就目前而言,CBDB已经可以通过其他分析工具的辅助,比如地理信息系统,来实现数据分析的工作。我觉得在CBDB系统内部建立自主分析可能不是一个好主意,不仅因为它很贵,很困难,更因为我们现在的工作是做到数据库的进一步庞大和精细。现在CBDB数据库内容还不是特别丰富,而可以借助的分析工具已经很多,所以我们的工作更多在于可以导出足够多的数据用来分析。现在就考虑自主分析可能有些过早。
至于CBDB未来会有什么的走向,我觉得最宏大的愿景,就是将中国每一个有史可载的个人都录入进这个系统里。当然我知道这是一个几乎不可能短期完成的任务,但我们至少可以不断接近它。至于最近可以用到的资源,我们会尽量搜集各地的地方志资料,因为它比较详实齐全,对我们扩充数据库意义重大。