吉林省高等教育学会

当前位置: > 教育科学 >
教育及社会科学研究中的数据——兼议当前的大数据热潮
时间:2013-12-25 08:50来源:《北京大学教育评论》2013年第4 作者:阎光才 点击:
“大数据”概念的流行反映了当下技术至上主义的极端自负,它不仅消解了个体对世界的自我理解,而且让社会科学研究的求知成为一种赘余。
摘 要:在经过各种带有“后”标识的思潮洗礼之后,社会科学和教育研究领域以数据为基础的实证研究范式并未被撼动,反而在近年越来越流行的“证据文化”中更扎稳了根基。社会科学研究中数据的确会带来知识,却未必是确定性的知识。数据的获取与分析过程的确需要合乎逻辑,但其价值却取决于人对生活世界的意义诠释。“大数据”概念的流行反映了当下技术至上主义的极端自负,它不仅消解了个体对世界的自我理解,而且让社会科学研究的求知成为一种赘余。
关键词:教育研究;社会科学;数据;大数据
 
近来,大数据的概念风行世界。在“时间就是金钱”、“信息就是财富”、“知识就是生产力”等一波波浪潮过后,“大数据”成为又一个吸引眼球的概念。不知道这个概念的风行是否也会如以往情形,潮头过后,这世界依旧如退潮之后的滩涂,难寻遗踪。不过,对于传统自然科学包括大部分社会科学领域的专业研究者而言,重数据的意识其来有自,其区别仅在于“大”与“小”之分。本文尝试结合社会科学和教育研究中经常面临的困惑,对数据以及所谓的大数据在研究中的意义、价值和问题,提供些许分析与思考。
一、数据与真实的世界
提及“数据”,自然不能回避什么是“数”或“数字”。其实,数字与文字一样,就其文化起源而言,都源于早期人类的记录或记载的需要,甚至两者的功能曾一度混淆。如在尚无文字的我国上古时期,有所谓“结绳记事”一说,结绳者,“事大,大结其绳,事小,小结其绳”。古印加人神秘的奇谱也是“结绳记事”的一种形式,其中的绳结既用来计数又属于一种会意文字。因此,在发生学意义上,最早的数便是文字,也可以说文字就是数,它是我们祖先创造的一种作为记载或标识的符号,因为具有文字表意功能,所以既不抽象也不神秘,而是生动和具象的。数在人类历史上功能被放大的过程与其自身不断的抽象化相伴而行,这个抽象化过程展开的重要初始节点很可能是数字与文字的分离。我们虽然不知道这种分离发生于何时、为何和如何发生,但一个明显的事实是自此之后,数字与人类感官所触及的经验或现实世界逐渐失去了直接关联。正如赫弗德(J·R·Hurford)所言:“一般说来,数词明显是种神秘的、不规则的语言,因为它所表示的那些数目,并不像其他语言表示人、位置、事务、行为、状况和性质这样实际存在的东西。”[1]
然而,数字虽然无其具体的所指,是一种纯粹由人的心灵和精神所建构的抽象符号,却并不意味着它远离我们日常的经验世界。恰恰相反,抽象化不仅赋予数字越来越广泛和普遍的功用价值,如土地丈量、远洋航海、农时划分、货币交易、建筑设计等等,而且数字还越来越成为人类破解外在世界符咒最为可靠的工具。甚而至于,相对于文字所能够描述和呈现的世界影像——一个总处于流变之中且叵测的感官世界,正是数字化的呈现给人以世界的和谐、确定和秩序感,让人类在不确定的世界中寻求到了一丝终极意义上的慰藉与安全感。如常言说的一切皆有“定数”、中国传统的易经八卦、西方早期的占星术、毕达哥拉斯“一切皆数”的本体论主张以及牛顿“整个宇宙就是一口精确时钟”的机械论信念等等,无论你认为它们是荒谬绝伦还是精准可靠,这种以数为依据的阐释或解释一度成为人们在不确定中寻求确定性的心灵皈依。即使在一个所谓反思量化科学的后现代时代,数字的这一价值不仅没有贬损,反而借助高度发达的数据技术进一步增值,时下的大数据热便足可作为佐证。
可以说,没有数与逻辑这种纯粹人类理性的建构物,就不会有后来越发精致化的科学和技术,恐怕也不会有今天人类物质丰裕的社会。如果没有数字与文字的功能分离,一个仅有语言的人类世界或许与其他动物的世界并无二致。正是有了数字才使人类理性之光得以充分展现,把人的理性、智慧发挥到极致。尽管我们不敢妄言,人类是否通过数字识破了自在世界的神秘代码和秩序,但至少可以确认的是:人类已经通过数字精心建构了一个人工世界,我们生活于其间,甚至已经无法辨清它与自在世界之间的区分。更意味深长的是,数字原本作为人类探求和掌控自在世界秩序的工具,它所塑造的是一个人工世界或者是贝克(Ulrich Beck)所谓的“人造自然”[2]、吉登斯所谓的“人化环境”或“社会化自然”。[3]其不确定性或“风险”反而日益剧增,数字反过来又成为应付它自身不确定性的工具。大数据概念的提出,与其说是对当下社会“信息爆炸”和“技术革命”的顺合与适应,不如说是对人类当下所生活的人工世界更具复杂性、风险性和不确定性生态的一种自觉反应。
人类期望以数字来寻求确定性,而由数字所演绎生成的知识、技术和社会系统又进一步增加了世界的不确定性,于是,人们再次对大数据寄予厚望。这一链式循环过程多少有些西西弗斯式的悲壮色彩,而且也有一种左右互搏的荒诞和反讽意味。
二、社会科学研究中的数据与知识
教育学究竟是社会科学还是人学?这恐怕是一个永远也阐释不清楚的问题,因为两者在根本上表现为立场之间的差异,而且两种取向长期以来基本上是各说各话,难得有实质意义上的交流,更遑论融通。教育研究取向和立场的差异,实质上反映了对教育日常世界的理解和预设不同。前者倾向于把教育日常世界理解为一个理性行动者主导、充满客观事实与事件而且不同事实和事件背后都存在一种因果关联或至少存在相关性的场景;后者则更多偏向于把教育世界理解为一个与特定历史、文化、政治存在情境关联且充满群体甚至个体间种种价值纷争和冲突的场域。两种预设又决定各自的研究取向和知识旨趣不同,社会科学取向更偏爱客观理论解释与知识建构,后者则执着于终极价值关怀、意义与文化诠释以及对现实的反思和批判。
相对而言,偏爱数据是社会科学取向之教育研究的基本特征。近年来,在国际社会科学主流研究范式的影响下,与质性研究兴起的情形相仿,实证意义的定量研究在我国教育研究领域开始呈勃兴之势,这种被称为规范化的研究无疑是对我国重逻辑思辨研究传统这一缺陷的弥补。但是,究竟如何理解教育研究中的数据?由数据所演绎和生成的教育知识是否就具有超越特定情境的客观性品质,即反映为所谓教育活动和世界中的秩序或规律(law)?
自20世纪80年代以来,在后结构主义和后实证主义思潮的涤荡下,即使再严格和规范的社会科学实证研究,估计都不再敢于自信满满地视数据分析为洞穿事物本质、反映世界规律以及获得确定性客观知识的利器;更何况在社会科学领域,人们原本就对经验世界中众多事件背后存在的因果关联持怀疑态度,因为社会科学领域立足数据的因果分析所采用的多为统计模型。正如彭玉生所指出的:社会科学的统计模型对经验世界的解释充其量是其中的一部分,如对个人行为解释的线性模型中,R2一般不超过50%,而剩下的则被作为不可解释的部分纳人随机残差项。正因为如此,“现代社会科学,包括宏观历史研究,基本上放弃了决定论,即便是最完美的理论也不能排除偶然因素造成的误差,并且人类认识能力有限,理论本身还有谬误”。[4]严格说来,在此所谓的“偶然”因素,说是偶然,还真未必就是那么“偶然”,它恰恰可能反映了人类社会的不确定性“本质”。这种不确定性既在“数据”之中更在数据之外。
在社会科学研究中,研究数据的来源通常有两类。一类是所谓的“客观数据”,譬如教育研究中的入学率、受教育年限、学业成绩等等。社会科学中许多严格的理论模型往往是以这些客观数据为基础而建构起来的,例如布劳—邓肯地位获得模型。布劳和邓肯通过建立起一个简单的包括先赋性(父亲职业地位与教育程度)和后致性(本人教育程度、初职地位和现职地位)变量的模型,解释了后致性因素在子女社会地位获得中所具有的重要影响。然而,这种基于几个简单客观数据建立起来的模型并不完美,因为代际间的流动涉及太多可能存在潜在影响的变量,譬如个体或群体成长环境、个人其他因素、性别和族裔、所接受教育的质量差异、关系网络和各种其他社会资本等等。故而,该模型随后不断受到各种挑战和修正。[5]然而,即便如此,无论加入多少变量和如何复杂改造后的模型都存在缺陷。首先是数据内涵的复杂性,如受教育年限不等于所接受的教育品质,即使可以设计一个测量品质的量表,还存在个体接受教育学校、等级、类型和专业等等差异。此外,教育年限与品质也未必能够反映个人的智力尤其是非智力性因素。至于环境变量则更为复杂,出生年代不同,整体教育资源稀缺程度存在差异,个人成长的社区(村镇)环境千差万别也是一个复杂的干扰因素,更难以测量的是数据之外的一些偶然性因素,如成长中的贵人和“偶遇”(社会网更多关注的是密度和结构洞),如此等等。
社会科学研究的第二类数据来源为主观数据或者主观信息,多以调查工具的方式获得。譬如,在教育研究中,了解众多关于师生的学习和工作压力、就读体验和职业感受等信息就属于该类型,最典型的例子就是所谓幸福感调查。主观数据的分析和处理以及模型建构的基本预设是:尽管获得的信息带有个体主观评价色彩,但是,当众多个体信息汇集在一起,结果具有统计意义上的显著性,它就反映了一种现实世界的客观存在状态,这一过程被称为主观信息(事实)的客观化。主观数据客观化过程,其实也是研究者对存在统计意义相关(在经验世界中未必存在真实相关)的不同数据之间尝试展开逻辑建构的一个过程。从主观数据到主观的逻辑建构乃至解释模型的形成,整个过程其实都渗透着乃至注满了人的意志。因此,我们不妨这样认为:因为现实的经验世界中,人的行为动机和后果原本就存在难以理解更遑论精确把握的不确定性,主观数据分析的目的无非是试图在看似无序的世界中捕捉和缕出其中的头绪,并提供合乎逻辑而并不必然存在因果联系的解释。相对于所谓客观数据,基于个体主观感受的数据实际上更具有情随境迁的可变性。换言之,即使主观数据确实能够反映当下状态,理论解释模型也成立,但它恐怕仅具有当下的合宜性,即存在特定情境关联。脱离这种情境,主观数据不仅会发生变化,理论解释模型也难以成立。甚至在不同时期主观数据大致相似的前提下,理论解释模型也存在重大缺陷。例如,以高等教育公平主题为例,在高等教育资源相对稀缺的环境中,入学机会的多寡可以构成人们公平感受的一个重要影响变量,入学质量为潜在影响变量,但是在入学率大幅提高的前提下,人们的公平感受未必会提高甚至有可能会降低,原因在于入学质量可能成为更具显著性的影响变量。
 总之,在社会科学研究中,即使在能够保证数据和信息真实性的前提下(而通常这本身就是一个问题),无论基于客观数据、主观数据还是兼顾两者所建立起来的理论模型,或许对经验世界具有一定的解释力,但是因为存在无法穷尽的解释残余以及经验世界本身所存在的流变性,以数据为基础的理论并不是确定性的知识,而且极有可能存在一个悖论——一个即使有强解释力的理论模型一旦为决策者所认同,基于该模型的政策手段介入往往又会带来经验世界的改变(包括微观层面人的行为动机调整和宏观层面社会结构变迁),这也意味着理论模型反过来又可能构成本身解释力的一个干扰变量。上述教育公平以及人力资本理论在现实中就反映了这种尴尬:在教育资源相对稀缺的环境中,无论在宏观还是个体层面,教育年限增加都会带来高回报,这符合传统人力资本理论;但是,一旦人力资本理论成为政策依据,在政策推动下,当高等教育发展到大众化甚至普及化阶段后,教育年限与回报之间就并非简单的正向线性关系,理论模型的适用性就会出现问题。
当然,如果我们再较真下去就会发现,因为社会科学研究的对象本身就是人造自然或人化世界,其基于数据的理论模型建构,恰恰与制度和文化所形构或塑就的秩序存在密切关联。甚或不妨说,正是因为存在道德、法律、金融制度、文化、宗教和意识形态等等,这些作为迪尔凯姆意义上“将自己强加于每个人之上”、“如此普遍”的“社会事实”存在[6],才使得以探究秩序为偏好的社会科学理论模型建构成为可能。然而,在此颇具讽刺意味的是:首先,不同于自然世界,制度和文化所体现的是一个人类共在的意义世界,数据充其量可以具有部分解释功能而无法提供意义诠释;其次,制度和文化会随“时”(历史)“空”(地理或族群)意义上的情境转换而变迁,这也意味着构成事实的数据不仅在“量”上将会是变动不居的,而且“质”的内涵不同;此外,因为数据解释的要么是迪尔凯姆集体意义上(或者技术上统计意义)的秩序,要么是类意义上“理性人”行动的相对一致性,而每一社会具体个体或群体与整体存在偏离或游离部分往往作为残余项被消解掉了。这也是基于数据所建构起来的理论模型频受争议之处,它或许有逻辑简洁之美,却并不能反映意义世界和自在世界的复杂生态。
三、数据分析与意义诠释
毫无疑问,在社会科学研究中数据有其特殊的价值和重要性。相对于人文取向的研究,数据对状态及其变化趋势的呈现更为直观,不同数据间的统计相关为人们合乎逻辑地推断和求证社会现象背后或许存在的关系(未必完全是因果关联)提供了可能。但在此有必要说明的是:社会科学研究中数据分析结论的可靠性端赖于统计分析方法、技术和工具使用的妥当性以及理论逻辑推演的严密性,然而,如果仅止于此,就有可能陷入形式主义、技术主义和工具主义的陷阱。其实,所谓严格规范的社会科学研究,并非仅仅指涉实证研究所要遵循的一系列如确定问题、文献、理论假设、抽样、测量、数据分析和结论等等刻板化程序和形式,即彭玉生所言的“洋八股”。[7]规范固然有其必要的形式化要求,但形式总是要为内容服务。
社会科学研究中的数据作为一种符号表达形式,源于经验世界而且是对经验世界丰富多样内涵的高度抽象和一般化。既然它是对经验世界的抽象,就涉及一个基本的前提:我们是如何把经验世界数据化的?数据的内涵乃至基于数据建立起来的理论模型背后的因果关联机制推断和分析,是否仅仅就是一个理性的逻辑推演过程而与意义诠释无关?事实上,在几乎所有社会科学实证性研究中,研究问题的确定本身就来自人的意向性,即人们对所生活经验世界的困顿或者某种情感、价值偏好,围绕问题的变量关系确定以及变量的测定、数据的生成等本身都灌注着人们对自我生活世界的理解。以学生学业成绩差异的社会背景的关联为例,如何理解和界定“学业成绩”?以分数来界定的成绩究竟反映的是认知能力还是精英权力?什么是学生的社会背景,经济的、文化的还是网络关系的?这些变量如何测定?还有,为何要研究上述两者间的关联?显然,如果没有研究者对生活世界的体验、关切、理解和自我偏好甚至价值“偏见”在先,数据的生成和获取就成为不可思议的事情。社会科学研究中常常使用的各种概念,如信任、文化资本、社会资本、网络资源、地位、权力等等,在其作为可操作性定义并被纳人具体测量过程之前,如果研究者不结合对特定社会情境和日常生活中与他者共在的体验,辅之以经验观察,就根本不可能生成可以纳入实证研究的有价值数据。
因此,社会科学研究中的数据实际上是有意义的而不是单纯的抽象符号。对于一个训练有素的社会科学或教育研究者而言,没有一种对特定历史和文化境遇中“他者”的深度理解,数据之于他就如同一枚古钱币,仅识得其数字意义上的币值而全然不知其历史与考古价值。即使他具备理论的敏感,善于以经验观察者的身份去捕捉和把握不同社会事件间在数据上的关联性,但如果缺乏对社会事件背后及其背景中人的意图、动机、情感和行动意义的深层体验和文化觉悟,无论其数据分析的逻辑如何严谨,理论的建构如何精致,也不过是希尔德布兰德(David K.Hildebrand)等人所提到的那种自信满满的“社会统计学家”——“一无所有的经验主义”和“没有头脑的计数器”。[8]
在现实的教育研究领域中,这种现象并不乏见。譬如为了实现学术的“国际接轨”,符合“洋八股”的形式规范,也为了迎合时下正在显现的一种“证据文化”趣味,各种缺乏意义深度诠释的数据分析文本日益流行。各种国外调查工具和量表的直接转译和应用、为验证基于国外社会情境所生成的有关理论解释而选择和过滤数据等,就是缺乏本土意义深度文化诠释的表现。当然,还存在一种更为普遍的情形:很多所谓实证意义上研究基本就是对数据差异、相关和回归等分析结果的呈现和简单武断的结论,因为缺乏对数据的丰富内涵的理解,对于各种统计模型中各种变量关系间所存在机制的解释往往显得极为苍白。
总之,即使是基于数据的研究,也需要研究者具有一种对自己所生活的周遭世界基于共同历史与文化体验的深度诠释能力,需要具有经验观察的洞察力和理论建构能力。唯有如此,所谓工具的开发、数据的获取及其统计分析和解释才能服务于内容,而不仅仅为徒有形式的“没有头脑的计数”。不止于此。也唯有灌注着意义诠释的数据分析和文本呈现才不会让人对数据有排斥感,对文本有一种洋八股的疏远感和隔膜感,而是结合自我生活体验和体悟与数据、文本之间形成互动,在体味到一种亲近感的同时又感受到逻辑的魅力。有品味(即有历史和文化厚重)、有亲切感(即与他者日常世界经验共通)、有智慧(合乎逻辑的理性推演)、有规范(符合专业研究的规范)原本应该是基于数据的社会科学研究的基本品质,是否具有理论解释力不在于其高度抽象化的形式,也不在于小圈子里的认可,而是对每一生活在特定世界中有着集体生活经验和常识的个体所带来的思想、精神和智慧的震撼。在对洋八股的简单形式模仿中,目前我们的社会科学研究似乎淡忘了这一点,甚至出现以形式的刻板、数据统计分析的复杂化来标榜自己的研究“正统”、“规范”、“科学”、“人流”和“国际范式”的标准。
四、大数据与技术至上主义的自负
无论统计技术取得如何进展,数据之于社会科学与数据之于自然科学,似乎永远不可同日而语。尽管对于后实证主义、后结构主义以及科学知识社会学的学者而言,精确的自然科学也未必那么靠谱,但至少它基于数据演绎而对大多(并非全部)自然现象所做出的预测及其在技术领域所提供的功用价值,能够让人感到基本可信和可靠。然而,在社会科学领域即使最偏好于数理分析的经济和金融等学科,恐怕也不敢妄言它对于现实的理论解释与对未来趋势的预测取得了令人信服的成果。否则,人类就不会不断面对如此之多波云诡谲的风险和危机。而意味深长的是,大凡社会中某一领域越是具有不确定性,人类对这种不确定性越是感到恐惧,就越寄望于以数据来寻找其中可能存在的秩序。这种对数理分析科学的精神与心理需求,其实与早期人类对占星术和卜筮的依赖别无二致。
当然,对于基于数据分析的社会科学理论模型可预测性的低水平,不能作为我们否定其科学性的依据。假设在来源可靠的前提下,因为数据本身就是对经验世界的形式化和抽象化的状描和呈现,所以社会科学中的描述性分析过程及其结论至少具备部分的客观性。然而,如果仅止于此,就如同物理世界中科学家仅仅向你呈现一种特定物质的结构一样,它虽然可能具有“发现”的意义,但是还远未达到探究的理论建构目的。因为揭示一种结构形态生成的原因相对于状态的呈现更为根本,这就是所谓的为什么(why)或者“何以至此”的问题,正是在这一问题上,大多数社会科学研究常常让人感到底气不足。众所周知,数据的描述性分析并不生成理论,唯有通过进一步的推断性分析才可能建立有关的统计模型或理论模型,揭示不同变量间的因果关联。如此,理论模型才有可能在共时性维度具有普遍解释力,在历时性维度具有可预测性。
如前文所述,因为存在不同社会和群体文化历史境遇的独特性,在共时性维度,几乎所有社会科学理论模型都存在外在效度的局限性,即使在同一境遇中不同个体日常生活体验的差异性也常常带来内在效度问题;而在历时性维度,因为理论的政策应用本身就有可能构成一个干扰变量,且随时序变化而引起的境遇变迁、环境变量的复杂性增加,理论模型的可预测水平不仅大打折扣,甚至完全不适用。也许正是因为存在这种似乎永远无法摆脱的困境和尴尬,靠信息技术起家的“大数据时代”提倡者维克托·迈尔一舍恩伯格(Viktor Mayer Schonberger)带着掌控大数据技术的自信,对传统基于数据的社会科学研究干脆予以全面的颠覆。在他看来,因为技术已经为大数据的产生和获得创造了条件,从此“一切皆可量化”,“世间万物皆可数据化”;因为有了大数据,从此不需要假设和理论推断,不需要了解为什么而仅仅了解是什么(what)就够了,社会科学研究始终执着的因果关系再无探究必要,而只要知道相关关系就足够,数据会自己“发声”,它会告诉你“明天会做什么”。他甚至断言专家(即社会科学家)将会消亡,取而代之的是数据科学家。[9]
维克托的自信源于当代网络信息流动日益庞大的规模和计算机数据处理的超强能力,在其大数据技术主导一切的理念中,个体甚至传统社会科学所关注的小样本都可以成为无关紧要的存在。换言之,如果说小数据的社会科学为满足研究的科学化和普遍性理论建构需要而舍弃了对个体和特定群体的关注,那么大数据所倚重的云计算技术甚至对理论建构都毫无兴趣,因为对它而言,一切包括个体和群体的存在意义和行为取向不过都是PB甚至ZB级别数据洪流中的Byte片段,它本身已经毫无价值,既然传统理论模型存在许多局限性甚至被认为“都是错误”的,那么不如将其抛弃。因为“PB级数据使我们可以做到没有模型和假设就可以分析数据。将数据丢进巨大的计算机群中,只要有相互关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。”[10]概言之,在极端的大数据倡导者看来,技术比理论甚至比“人”更可靠、更能预见未来。
“技术主导、数据为王”的大数据时代,是否将在根本上“改变人类社会认知的研究范式,即一种“代表着全新的研究视野和理论基础,依据截然不同的操作方法,它将重组探索世界的学科分布,从而成为人类继定性研究、定量研究和寸算机仿真研究之后的第四种探索世界的研究范式?”[11]目前我们尚不得而知,但是很值得人们疑虑。首先,假设数据和技术真正实现了突破,大数据成为一种有效的预测和掌控人类集体行为取向的工具,这种情形的出现究竟是人类之幸是人类之悲?人类从远古蛮荒一路走到今天,恰恰是因为跌宕起伏的不确定性存在,才有了曲曲折折、千变万化的样态和生态,有效的预测技术往往会转化为一种社会管控技术,这种技术对人的自由和创造力会带来什么效应?其次,反过来看,以物质世界为对象的精致性和精确化的自然科学和技术科学,在为人类社会塑造了一个“人造自然”的同时,不确定性和风险不减反增,而一旦在社会科学领域,大数据的可预测性成真,它是否会为人类社会带来更大的不确定性?第三,当个体生活经验和意义完全为数据洪流所湮没,甚至逻辑推断和理论模型建构被抛弃,大数据时代的社会科学研究很可能不仅让我们再也无法体会个体和特定群体生活经验的生动和鲜活,而且让求知过程的知识旨趣和智慧之美就此消散,如此社会科学研究恐怕仅仅成为满足政策和商业“功用”的工具,研究是否还有其精神意义和价值?更何况,当数据的获取和处理都丢给了计算机,数据和技术自己会“说话”,那么人又在哪里?
有着丰富信息技术领域从业经历的涂子沛在其文采斐然且极有影响的畅销书《大数据》封面上,印上了醒目的宣言:“除了上帝,任何人都必须用数据来说话。”[12]这一宣言与传统实证主义者的“用事实与逻辑说话”的声称不仅何其相似,而且还更为咄咄逼人,难免让人感到一种数据崇拜和数据迷信的意味。数据的确有其价值,但巨量的数据流恐怕不能替代和置换由具体个体所构成的生活世界。反过来说,假如我们的确不可避免地会进人一个大数据时代,那么.与历史曾经出现的资本、技术、能源、信息和知识等一波波社会革命情形相仿,谁最有可能获得和控制大数据,并把大数据作为一种不当操控手段?正如博利埃(David Bollier)指出:“大数据会给政府和公民带来许多可怕的挑战,因为数据技术越来越具有渗透性、侵入性,越来越难以理解,我们的社会如何能够保护自身,抵制有些人对大数据的误用和滥用?我们要通过建立什么样的规制体系、隐私法和采取什么样的社会实践才能够控制由它引起的反社会行为?”[13]大数据面前是否存在分享的民主和平等?谁将从中受益?它是否会让这个世界因为数据鸿沟的扩大而更为不公平?大数据的开发和利用会使人类世界呈现更为多样化的复杂生态还是趋向于归一化?所有这些问题表明,我们在对之抱以热望和翘首以待的同时,恐怕还需要保留一份谨慎。
在保持基本的理性和谨慎的同时,也许还值得我们报以乐观期待的是:大数据只不过是教育或社会科学研究所面临的一个新的境遇和背景,它通过技术处理所直观呈现的结果(趋势或各种相关性)并非结论本身或者研究的终点,而是构成我们进一步探究诸如是什么、为什么和应该是(should be)等问题的经验素材,通过降噪、去冗和分类等处理环节,大数据可以还原为可揭示其因果关联机制的小数据,可以成为人类甚至个体去反思自身行为和意义的信号预警。这也意味着所谓大数据时代的社会科学研究更具有跨学科、跨畛域的特征,需要技术专家、社会科学以及人文学者三方面的有机结合,因而更凸显其研究有品味、合乎专业规范、有亲切感、富于智慧性且有效用的多重特征。
 
参考文献:
[1][英]托马斯·克伦普.数字人类学[M].郑元者,译.北京:中央编译出版社,2007:2.
[2][德]乌尔里希·贝克.风险社会[M].何博闻,译.南京:译林出版社,2004:98-99.
[3][英]安东尼·吉登斯.现代性的后果[M].田禾,译.南京:译林出版社,2000:109.
[4]彭玉生.社会科学中的因果分析[J].社会学研究,2011(3).
[5]周恰.布劳—邓肯模型之后:改造抑或挑战[J].社会学研究,2009(6).
[6][美]派翠克·贝尔特.社会科学哲学:迈向实用主义[M].何昭群,译.台北:群学出版有限公司,2011:22.
[7]彭玉生.“洋八股”与社会科学规范[J].社会学研究,2010(2).
[8][美]戴维·K·希尔德布兰德.社会统计方法与技术[M].北京:社会科学文献出版社,2005:398.
[9][英]维克托·迈尔—舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012.
[10]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].中国科学院院刊,2012(6).
[11]徐磊.大数据基础上的社会认知[J].中国电子科学研究院学报,2013(1).
[12]涂子沛.大数据[M].桂林:广西师范大学出版社,2012.
[13]Bollier,D.(2010).The promise and peril of big data.The Aspen Institute,40.
(责任编辑:admin)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容