当前位置 > 首页 > 技术热点 > 在国外大数据分析师怎么样的?

在国外大数据分析师怎么样的?

来源:中国数据分析行业网 | 时间:2019-10-30 | 作者:数据委

要挖掘大数据的价值必然要对大数据进行内容上的分析与计算,深度学习和知识计算是大数据分析的基础,而可视化既是数据分析份关键技术也是数据分析结果呈现的关键技术,以下是对它们的简单介绍。

 

深度学习 

利用层次化的架构学习出对象在不同层次上的表达,这种层次化的表达可以帮助解决更加抽象的问题,在层次化中,高层的概念通常是通过低层的概念来定义的,深度学习通常使用人工神经网络,常见的具有多个隐层的多层感知机(MLP)就是典型的深度架构。深度学习的起源要追溯到神经网络,20世纪80年代,向后传播(BP)算法的提出使得人们开始尝试训练深层次的神经网络。然而,BP算法在训练深层网络的时候表现不够好,以至于深层感知机的效果还不如浅层感知机。于是很多人放弃使用神经网络,转而使用凸的更容易得到全局最优解的浅层模型,提出诸如支持向量机、boosting等浅层方法,以致于此前大部分的机器学习技术都使用浅层架构。2006年,Hinton等人使用无监督的逐层贪婪的预训练(greedy layer-wise pre-trian)方法成功减轻了深度模型优化困难的问题,从而掀起深度学习的浪潮。

 

近几年,深度学习在语音、图像以及自然语言理解等应用领域取得一系列重大进展。从2009年开始,巍然研究院的Dahl等人率先在语音处理中使用深度神经网络(DNN),将语音识别的错误率显著降低,从而使得语音处理成为成功应用深度学习的第一领域;在图像领域,Hinton等人使用深层次的卷积神经网络(CNN)在ImageNet评测上取得巨大突破,将错误率从26%降低到15%,重要的是,这个模型中并没有任何手工构造特征的过程,网络的输入就是图像的原始像素值。Google Brain项目中,Le等人尝试使用完全无标注的图像训练得到人脸特征检测器,使用这些学习到的特征可以在图像分类中取得非常好的效果;Google的深度学习系统(DistBelief)在获取数百万YouTube视频数据后,能够精准地识别出这些视频中的关键元素--猫;在自然语言领域,Bengio等人使用神经网络并结合分布式表达式(distributed representation)的思想训练语言模型并取得很好的效果,不过当时还没有使用到更深层次的模型;2008年,Collobert等人训练了包含一个卷积层的深度神经网络,利用学习得到的中间表达式同时解决多个NLP问题;在国内,2011年科大讯飞首次将DNN技术运用到语音云平台,并提供给开发者使用,并在讯飞语音输入法和讯飞口讯等产品中得到应用;百度成立IDL(深度学习研究院),专门研究深度学习算法,目前已有多项深度学习技术在百度产品上线。深度学习对百度影响深远,在语音识别、OCR识别、人脸识别、图像搜索等应用上取得突出效果;此外,国内搜狗、云之声等纷纷开始在产品中使用深度学习技术。

 

知识计算

 基于大数据的知识计算是大数据分析的基础,知识计算是国内外工业界开发和学术界研究的一个热点,要对数据进行高端分析,就需要从大数据中先抽取出有价值的知识,并把它构建成可支持查询、分析和计算知识库。目前,世界各国各个组织建立的知识库多达50余种,相关的应用系统更是达到上百种。其中,代表性的知识库或应用系统有KnowItAll、TextRunner、Nell、Probase、Satori、Prospera、Sofie及一些基于维基百科等在线百科知识构建的知识库,如DBpedia、Yago、Omega和WikiTaxonomy;此外,一些商业网站、公司和政府也发布了类似的知识搜索和计算平台,如Evi公司的TrueKnowledge知识搜索平台、美国官方政府网站Data.gov、Wolfram的知识计算平台wolframalpha、Google的知识图谱Knowledge Graph、Facebook推出的类似的实体搜索服务 Graph Search等;在国内,中文知识图谱的构建与知识计算也有大量的研究和开发工作,代表性的有中国科学院计算技术研究所的OpenKN、上海交大最早构建的中文知识图谱平台zhishi.me,百度推出了中文知识图谱搜索,搜狗推出的知立方平台、复旦大学GDM实验室推出的中文知识图谱展示平台等。

 

支持知识计算的基础是构建知识库,这包括3个部分,即知识库的构建、多源知识的融合与知识库的更新,知识库的构建就是要构建几个基本的构成要素,包括抽取概念、实例、属性和关系。从构建方式上,可以分为:手工构建--依靠专家编写一定的规则,从不同的来源收集相关的知识信息,构建知识的体系结构,典型的例子是知网、同义词词林、概念层次网络和中文概念词典、OpenCyc等;自动构建--基于知识工程、机器学习,人工智能等理论自动从互联网上采集并抽取概念、实例、属性和关系,著名的例子是Probase、Tago等。手工构建知识库,需要构建者对知识的领域有一定的了解,才能编写出合适的规则,开发过程中也需要投入大量的人力物力;相反自动构建的方法依靠自动的学习经过标注的语料来获取规则,如属性抽取规则、关系抽取规则等,在一定程度上可以减少人工构建的工作量。自动构建知识库的方法主要分为有监督的构建方法和半监督的构建方法两种。

 

多源知识的融合是为了解决知识的复用问题,如前文所述,构建一个知识库的代价是非常大的,为了避免从头开始,需要考虑知识复用和共享,这就需要对多个来源的知识进行融合,即需要对概念、实例、属性和关系的冲突、重复冗余、不一致进行数据的清理工作,包括对概念、实例进行映射、消歧,对关系进行合并等,其中概念间关系或分类体系的融合是很关键的一部分,按融合方式分为手工融合和自动融合。对于规模较少的知识库,手动融合是可行的,但这是一种非常耗时且容易出错的融合方式。而建立在机器学习、人工智能和本体工程等算法上的融合方式具有更好的扩展性,相关工作包括Yago、Probase等。

 

大数据时代数据的不断发展与变化带给知识库构建一个巨大的挑战是知识库的更新问题,知识库的更新分为两个层面:新知识加入;已有知识更新。目前专门针对开放网络知识库的更新工作较少,很多都是从数据库的更新角度展开的,如对数据库数据的增加、删除和修改工作的介绍。虽然对开放网络知识库的更新,与数据库的更新有很多相似之处,但是其本身对更新的实时性要求较高。目前这方面的工作,从更新方式来讲分为两类:基于知识库构建人员的更新;基于知识库存储的时空信息的更新。

 

社会计算 

以Faceboo、Twitter、新浪微博、微信等为代表的在线社交网络和社会媒体正深刻改变着人们传播信息和获取信息的方式,人和人之间结成的关系网络承载这网络信息的传播,人的互联成为信息互联的载体和信息传播的媒介,社会媒体的强交互性、时效性等特点使其在信息产生、消费和传播过程中发挥着越来越重要的作用。当前在线社会计算无论是学术圈和工业界都备受重视,大家关注的问题包括对在线社会网络结构、信息传播以及信息内容的分析、建模与挖掘等一系列问题。

 

在线社会网络的结构分析

 

在线社会网络在微观层面上具有随机化无序的现象,在宏观层面上往往呈现出规则化、有序的现象,为了理清网络具有的这种看似矛盾的不同尺度的结构特征,探索和分析连接微观和宏观网络中观结构(也称为社区结构)成为本领域一个重要的研究方向。一般意义上讲,社区结构是指网络节点按照连接关系的紧密程度不同而自然分成若干个内部连接紧密、社区结构发现和社区结构演化性分析等基本问题。社区定义或度量大体上分为4类:基于节点的社区定义、基于节点组(社区)的社区定义、基于网络整体的社区定义、基于层次结构的社区定义。

 

在线社会网络的信息传播模型

 

在信息传播模型的研究中,最广泛深入研究的是传染病模型,除了传染病模型,随机游走模型也是信息传播的基本模型之一,作为最基本的动力学过程之一,随机游走与网络上的许多其他动力学过程(反应-扩散过程、社团挖掘、路由选择、目标搜索)紧密相关。今年,研究人员开始注意到信息传播和传染病传播具有显著不同的特性,包括信息传播的记忆性、社会增强效应、不同传播者的角色不同、消息内容的影响等。Romero等人提出Stickniss和Persistence两个重要概念,分析不同领域内Hashtag在Twitter上的传播过程。Wu等人分析名人、机构、草根等不同群体之间的消息流向,并分析了不同类型的消息被转发的情况及其生命周期。

 

社会媒体中信息检索与数据挖掘  社会媒体的出现对信息检索与数据挖掘的研究提出了新的挑战,不同于传统的Web数据,社会媒体中的数据呈现出一些新的特征:信息碎片化现象明显,文本内容特征越发稀疏;信息互联被人的互联所取代,社会媒体用户形成的社会关系网络的搜索和挖掘过程中的重要组成部分;社会媒体的易参与性使得人人具有媒体的特征,呈现出自媒体现象,个人影响力、情感与倾向性掺杂其中。针对这些特点研究人员在传统信息检索与数据挖掘计算基础上提出了一些列的新模型。

 

鉴于用户所创造的信息往往具有很强的时效性,Yang等人提出一种时间序列聚类的方法,从Twitter数据中挖掘热门话题发展趋势的规律;用户的评价和评论中包含了大众的观点和态度,所以Bollen等人通过对Twitter中用户的信息进行情感分析,将大众情绪的变化表示为7种不同的情绪时间序列,进而发现这些序列能够预测股票市场的走势;社会媒体的检索与挖掘研究在国内也收到越来越多的重视,包括北京大学、清华大学、哈工大等大学和研究机构已经取得了一定的进展,设计的研究内容包括社会化标签系统中的标签学习和排序、信息抽取和分类、社会化多媒体检索、协作搜索和推荐等等。

 

可视化  

对抽象数据使用计算机支持的、交互的、可视化的表示形式以增强认知能力。大数据可视化不同于传统的信息可视化,面临最大的一个挑战就是规模,如何提出新的可视化方法能够帮助人们分析大规模、高维度、多来源、动态演化的信息,并辅助做出实时的决策,成为该领域最大的挑战。为解决这个问题,我们可以依赖的主要手段是两种,数据转换和视觉转换。现有研究工作主要聚焦在4个方面:通过对信息流进行压缩或者删除数据中的冗余信息对数据进行简化;通过设计多尺度、多层次的方法实现信息在不同解析度上的展示,从而使用户可自主控制展示解析度;利用创新的方法把数据存储在外存,并让用户可以通过交互手段方便地获取相关数据,这类算法成为核外算法(out-of-core algorithm);提出新的视觉隐喻方法以全新的方式展示数据。

 

1 - 在国外大数据分析师怎么样的?

 

大数据处理和分析的终极目标是借助对数据的理解辅助人们在各类应用中作出合理的决策。在次过程中,深度学习、知识计算、社会计算和可视化起到了相辅相成的作用。