吉林省高等教育学会

当前位置: > 高端访谈 >
中国人民大学袁卫:如何拥抱大数据时代
时间:2014-07-01 11:45来源:中国教育新闻网—中国教育报 作者:汪瑞林 点击:
我们该如何应对这场被一些人称为“第四次科技革命”的全球新竞争?又如何培养适应大数据时代要求的高层次人才?日前,记者就此采访了中国人民大学中国调查与数据中心主任、中国人民大学原常务副校长袁卫教授。

如何拥抱大数据时代

——访中国人民大学中国调查与数据中心主任袁卫

  袁卫 中国人民大学中国调查与数据中心主任,曾任中国人民大学常务副校长。现任第六届国务院学位委员会应用经济学学科评议组、统计学学科评议组召集人,教育部社会科学委员会委员、中国统计教育学会副会长兼高校分会会长、全国应用统计专业硕士教育指导委员会常务副主任。

  什么是大数据?也许你不能准确地给它下一个定义,但是,你知道或者不知道,它就在那里,已经渗透到你工作、生活的方方面面。我们该如何应对这场被一些人称为“第四次科技革命”的全球新竞争?又如何培养适应大数据时代要求的高层次人才?日前,记者就此采访了中国人民大学中国调查与数据中心主任、中国人民大学原常务副校长袁卫教授。

  中国拥有数据资源优势

  记者:对于老百姓而言,大数据还是个新词汇,能否介绍一下大数据产生的时代背景以及目前国内外研究、应用的状况?

  袁卫:在上世纪80年代初,就已经有了大数据的概念和相关应用,但是它深入社会和百姓的视野,则是最近几年的事情。2012年,美国政府由白宫牵头,启动了一个“大数据发展计划”,这个计划的推出被视为进入大数据时代的标志性事件,其重要性堪比1992年美国政府推出的“信息高速公路计划”(被视为进入网络时代的标志)。在相似的时间,欧盟各国陆续开放了很多政府数据,日本也启动了一个大数据项目,联合国2012年发布大数据报告,全球掀起了大数据研究和应用的热潮。

  大数据的发展,是以网络和计算机技术的高速发展为依托的。1965年英特尔创始人之一的摩尔先生提出,未来的网络计算机发展,大体上每隔1年到2年,等面积集成电路中的晶体管数量将会增加一倍,即计算速度会提高一倍,同等的计算,成本会降低一半。经过近50年的实践,验证了摩尔先生的预测,也就是人们常说的“摩尔定律”。计算机和网络科技的高速发展,使得大量网络数据,包括音频的、视频的、图片的、文本的各种各样的数据,得以保存,并转化为我们可以深入分析的数据。于是,大数据的研究和应用也就水到渠成了。

  记者:在大数据这个领域,我们和发达国家的差距大吗?

  袁卫:上世纪八九十年代,我们在很多科技领域和国外差距很大,但是进入互联网时代以后,这种状况逐渐改观。进入大数据时代,我们可进一步缩小与美国等科技发达国家的差距,甚至具有后发优势,原因有三个方面:其一,在互联网时代,各种最先进的技术可以快速传播,基本上可以做到全球同步;其二,和微软的操作系统等软件不同,大数据绝大多数软件是开源的,很多网络技术也是公开的,中国的科学技术与教育工作者,只要具有足够的智慧和能力,完全可以追赶甚至在某个领域超过美国;其三,我们在数据资源上具有优势。中国有13.5亿人,13.5亿个活动主体组织了各种社会经济关系,建立起各种社会、网络联系,在各种社会经济活动中产生大量的数据,这些数据是可以充分挖掘的资源。我们起步稍晚,但是具有后发优势,在某些领域甚至可以达到国际先进水平,比如中国推进的智慧城市建设就很不错,还有微信社交平台、阿里小贷等,体现了中国的特色。

  统计学科迎来“最好的时期”

  记者:您是统计学方面的权威专家。在您看来,大数据对于统计学的发展有何影响?

  袁卫:统计学就是数据科学,大数据对统计学的发展影响巨大。我个人认为,大数据对于统计学的发展,既是机遇又是挑战。

  说它是机遇,是因为大数据研究和应用会带来大量人才需求,这对统计学的发展是一个巨大的利好,可以说,目前统计学发展正处于历史上最好的时期。这几年,从全国范围看,统计学专业毕业生就业状况都不错,今后会更好。

  说它是挑战,是因为大数据可能部分颠覆传统的统计方法。比如有人认为,传统的统计方法讲究抽样,但是大数据使得我们可以对接近总量的数据进行分析,这样进行抽样调查的需求就会减少;还有人认为,传统的统计分析注重因果关系,但大数据情况下,只需明确两者之间有关系即可。另外,过去强调分析的准确性,而在大数据情况下,允许存在一定的误差,等等。

  我认为,大数据对统计学带来的上述挑战确实存在,但是不会导致传统抽样调查的需求减少。因为大数据虽然数据量很大,但绝大多数情况下这些大样本都不是随机的,推断总体都有系统偏差,因而抽样调查等统计方法仍然是不可取代的。此外,在很多时候,科研和商业应用、科学决策还是需要进行准确的统计分析的。

  从人才培养的角度看,统计学在教学内容、教学方法、人才培养模式等方面需要进行变革,以适应大数据时代的人才素质要求,这是统计学科发展面临的另一挑战。

    大数据应用是把双刃利剑

  记者:大数据在商业以及城市安全防范等领域已经有很多应用的成功案例,大数据将会给教育领域带来怎样的变革?

  袁卫:大数据将对教育产生非常深远的影响。目前可以预见的,我想主要有两个方面:一是通过大数据,分析学生成长环境、兴趣爱好、能力特长等,有利于教育者对学生加深了解,有利于因材施教,使得根据学生个人兴趣、特长、能力进行个性化教育成为可能;二是带来教学内容、教学方式方法上的改变,立体化教学、案例教学、互动教学等方式的运用使得教学更加生动,MOOCs(慕课)就是大数据时代教学变革的一个例子。大数据可以促进全世界优质教育资源共享,发挥每个教师的优势特长。大数据将对教育产生一系列的深远影响,不可低估。

  记者:但是,大数据的广泛应用,可能会导致侵犯他人隐私的情况发生,对此您怎么看?

  袁卫:在大数据时代,个人的相关数据信息轻易可得,个人隐私越来越不安全。其实不仅仅是个人隐私,包括国家安全和企业的商业机密,也受到很大的威胁。怎么办?我认为对于国家而言,一方面要积极推进数据对外开放,凡是不涉及个人隐私、国家安全和商业机密的数据,都应该公开,这样才能避免形成数据孤岛,充分发掘和利用数据资源;另一方面,在开放数据的同时要加强相关立法,这两个方面是互相补充的,只有这样,才能赶上时代发展的步伐,充分发挥我们这个人口大国、经济大国的数据资源优势。

  从个人的角度讲,要加强个人信息防护意识,在上网发布相关信息时,要了解哪些是可以发的,哪些是不能发的,以免给自己带来困扰。

  两个“交叉”探索人才培养之道

  记者:据了解,中国人民大学、北京大学、中国科学院大学、中央财经大学和首都经贸大学5所高校组建了一个协同创新平台,以“应用统计专业硕士”为载体培养大数据分析方面的人才。为何要采取这种多校合作的培养模式?

  袁卫:之所以采用这种协同创新、5校合作的培养模式,完全是由大数据人才的特点决定的。第一个特点,大数据人才是多学科交叉型人才,不是某一个学科可以单独培养的。大家知道,现在进行数据分析,要有数据库和软件等计算机方面的知识,还要有数学和统计方面的知识和能力。这就涉及到中国学科体系中“统计学”和“计算机科学与技术”两个一级学科。培养出的毕业生到了单位,可能还需要财经、新闻、生物医学和管理等方面的知识。所以,大数据人才的培养,也需要计算机、统计学、数学等多学科共同参与。

  第二个特点,这是一类应用型人才,必须重视实践环节。他们毕业后不是去做研究,而是投身业界,要能很快上手。这样的人才培养,不是仅在学校、在实验室、研究室里就能够培养出来的,而是要到实践中去,解决实际问题。因此,这个协同创新平台,不仅有5所高校参与,还有人民日报、新华社、中央电视台等十余家媒体,中国移动、中国电信、中国联通、百度、阿里巴巴、腾讯等大数据公司和用人单位,包括云计算的一些基地共同参与,是一个“政、企、产、学、研”一体的人才培养平台,也就是说,人才培养环节是交叉的。

  还有一点需要指出,为什么把人才培养的层次定位于硕士?目前全国有200多所本科院校开设统计学专业,75所高校设有统计学博士点,78所高校开办“应用统计硕士”专业学位。在大数据时代,我们改革最急需的人才是硕士层次的,正好我们有“应用统计专业硕士”这样一个新的专业学位,利用这样一个协同创新平台来培养大数据人才,也与专业学位的改革精神相一致。

  记者:这个大数据人才的培养方案,如何体现出“两个交叉”?

  袁卫:5所学校参与培养,就是出于学科交叉的考虑。中国人民大学统计学院的学科、专业设置是综合的、应用的,理论和应用兼而有之,应用领域涉及卫生、健康、经济、社会、管理等,总体实力较强。而北京大学和中国科学院大学,大家都知道,他们在计算机、数学和统计理论研究方面相当强,掌握大数据分析技术的前沿。中央财经大学和首都经贸大学是财经类为主的院校,这两所学校侧重于应用人才的培养,特别是面向经济、管理、社会这样的领域。他们和很多行业企业、金融机构有着密切联系。这5所高校分别属于教育部直属高校、中国科学院的高校和地方高校3种类型,各有特色,优势互补,能够建成一个很好的、学科交叉的人才培养协同体。

  培养环节的交叉,主要体现在企业、用人单位的参与上。上面提到,有这么多的大数据企业、媒体单位参与合作。他们把实际工作中遇到的问题带来,大家一起研究解决;他们把企业运作过程中产生的大数据拿过来,学生直接用这些真实的数据进行训练和研究。

  记者:据了解,对这批大数据人才的培养,将采取团队教学的方式?

  袁卫:我们经过多次研讨,并参考了美国顶尖的20所大学大数据人才培养的方案和课程,确定了“大数据分析计算机基础”、“大数据分析统计基础”、“大数据分布式计算”、“大数据挖掘与机器学习”、“非结构化大数据分析”和“大数据建模案例研究”6门必修核心课程。每门课程不是由一位老师来上,而是一个教学团队,5所学校各选一名最优秀的教师,然后5位老师一起研究一门课程、同上一门课程,而且还有大数据企业的专家参与。初步估计,每门课程的教学团队会在10个人左右。教学方式也有别于传统的课堂讲授,会采取案例教学和讨论班的方式,也可能是一个团队共同完成一个项目。我们还采取双导师制,两位导师一位来自大学,一位来自企业界,50名学生,就有100名导师。在这个协同创新机制里,还有一个特点,就是采取个性化的教学方式,从生源来看,首批学生主要来源于计算机和统计两个学科,计算机专业背景的本科生进来以后,将重点加强统计分析能力的培养,而统计、数学、物理等专业背景的本科生进来后,将重点加强计算机、大数据软件等方面的学习。

 “黄埔一期”的历史使命是探路
 

  记者:目前国内大数据方面的人才供求情况如何?

  袁卫:2012年美国麦肯锡咨询公司提供了一份报告,对美国大数据人才需求进行了分析。他们把大数据人才分为两类,一类叫做“数据经理或数据工程师、数据分析师”;另一类叫做“数据科学家”。数据科学家熟练掌握计算机、统计、经济管理等技能,能够领导团队从海量数据中找出规律,发现知识,做出决策,创造价值。根据麦肯锡的报告,到2018年,美国数据分析师的人才需求将达150万人左右,高层次的数据科学家的需求缺口在14-18万人。中国的情况,目前在百度、阿里巴巴、京东等电子商务企业和腾讯等网络媒体大数据公司中有一些大数据方面的人才,但是能称得上大数据科学家的人才,非常非常少。我国相关部门预计3到5年内,来自政府、媒体、企业等方面的数据工程师和数据分析师的需求将达100万人左右,而目前的人才培养,无论是规模还是质量水平,都远远达不到要求。

  记者:首批50人的培养计划,只是一个试点探索。对于大规模培养大数据人才,您有什么建议?

  袁卫:在大数据时代,数据分析,越来越成为我们工作生活中一个最基本的技能。大数据人才的培养,正是基于这样一个时代的发展背景。大数据人才的适用领域非常广泛,有着巨大的社会需求。他们的就业,遍及生物、医学、经济、社会、媒体、金融、教育、政府各个方面,只要有数据的地方,他们都可以施展才华。这个实验班,其意义在于探索一种新的人才培养模式。如果实践证明比较成功的话,我们“应用统计硕士专业学位教育指导委员会”会推动在全国推广,比如上海的一些学校今年就希望送学生来学习。将来大城市的一些高校,完全可以参考我们这个实验班的模式。现在全国有78所高校开办应用统计专业硕士,他们绝大多数都有条件开展类似的人才培养,都可以进行积极探索,相关企业参加的积极性也非常高。

  记者:对于“黄埔一期”的这50名幸运儿,您有什么期待?

  袁卫:我希望他们毕业后,到用人单位经过几年的锻炼,能够主管大数据研究项目或大数据分析部门,成为数据科学家这个层面的高级人才。这类高层次的大数据人才是国家最紧缺的。探索培养高层次大数据人才的路径、满足国家日益增长的需要,这是中国人民大学等五校组建大数据人才培养协同创新平台的目标和使命。(记者 汪瑞林)

  【大数据应用案例】

PRADA的试衣间

  PRADA(普拉达,一个意大利的奢侈品牌)在纽约的旗舰店中每件衣服上都有RFID(射频识别)码。每当一个顾客拿起一件PRADA衣服进试衣间,RFID会被自动识别。同时,数据会传至PRADA总部。每一件衣服在哪个城市哪个旗舰店什么时间被拿进试衣间,停留多长时间,数据都被存储起来加以分析。如果有一件衣服销量很低,以往的做法是直接干掉。但如果RFID传回的数据显示这件衣服虽然销量低,但进试衣间的次数多,也许这件衣服的下场就会截然不同,也许对某个细节作微小改变就会重新创造出一件非常流行的产品。

  中国的粮食统计

  中国的粮食统计是一个老大难的问题。传统的统计办法,依靠统计人员层层上报,水分很大,数据的真实性令人怀疑。在前两年北京的一次会议上,原国家统计局总经济师姚景源讲述了他们是如何进行粮食统计的。他们采用遥感卫星,通过图像识别,把中国所有的耕地标示、计算出来,然后把中国的耕地网格化,对每个网格的耕地抽样进行跟踪、调查和统计,然后按照统计学的原理,计算(或者说估算)出中国整体的粮食数据。这种做法是典型采用大数据建模的方法,打破传统流程和组织,直接获得最终的结果。

  公安部门的“犯罪地图”

  作为2014年亚太经合组织(APEC)领导人非正式会议的举办地,北京市怀柔区警方通过运用大数据、云计算和科学分析模型,整合历年案件信息,建立了犯罪数据分析和趋势预测系统,能够预测犯罪趋势,指导警力投入。这套系统共收录了怀柔区近9年来1.6万余件犯罪案件数据,通过标准化分类后导入系统数据库,同时采用地图标注,将怀柔分成16个警务辖区,抓取4700余个犯罪空间坐标,实施空间网格编号。

  通过对越来越多数据的挖掘分析,某一区域的犯罪率以及犯罪模式都将清晰可见。大数据可以帮助警方定位最易受到不法分子侵扰的区域,创建一张犯罪高发地区热点图和时间表。

  《中国教育报》2014年6月30日第5版

大数据技术方兴未艾

2014年03月26日  作者:于建坤  来源:中国教育新闻网—中国教育报
  移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。

  大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

  大数据的作用

  第一,对大数据的处理分析正在成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。

  第二,大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。

  第三,大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动”转变为“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等作用。

  第四,大数据时代科学研究的方法手段将发生重大改变。例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。

  大数据的处理

  1.采集。大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。

  在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户进行访问和操作,比如火车票售票网站,并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。如何在这些数据库之间进行负载均衡和分片需要深入的思考和设计。

  2.导入/预处理。虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用Twitter的Storm对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

  3.统计/分析。统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源会有极大的占用。

  4.挖掘。数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。(于建坤)

  《中国教育报》2014年3月26日第12版

 

 

 


(责任编辑:admin)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容