收藏本站

云中歌

云中歌 科技文献 查看内容

大数据分析技术概述

2016-11-16 11:05| 发布者: zhongli| 查看: 604| 评论: 0|原作者: 程学旗, 靳小龙, 王元卓, 郭嘉丰, 张铁赢, 李国杰|来自: 中国科学院软件研究所

摘要: 要挖掘大数据的大价值必然要对大数据进行内容上的分析与计算。深度学习和知识计算是大数据分析的基础,而可视化既是数据分析的关键技术也是数据分析结果呈现的关键技术。本节主要介绍深度学习、知识计算和可视化等大 ...

  要挖掘大数据的大价值必然要对大数据进行内容上的分析与计算。深度学习和知识计算是大数据分析的基础,而可视化既是数据分析的关键技术也是数据分析结果呈现的关键技术。本节主要介绍深度学习、知识计算和可视化等大数据分析的关键技术,同时也对大数据的典型应用包括社会媒体计算等进行简要综述。

  大数据处理和分析的终极目标是借助对数据的理解辅助人们在各类应用中作出合理的决策在此过程中深度学习、知识计算、社会计算和可视化起到了相辅相成的作用

 

 

(1) 深度学习提高精度如前所述要挖掘大数据的大价值必然要对大数据进行内容上的分析与计算而传统的数据表达模型和方法通常是简单的浅层模型学习效果不尽人意深度学习可以对人类难以理解的底层数据特征进行层层抽象,凝练具有物理意义的特征,从而提高数据学习的精度因此,深度学习是大数据分析的核心技术

 

  大数据分析的一个核心问题是如何对数据进行有效表达、解释和学习,无论是对图像、声音还是文本数据。传统的研究也有很多数据表达的模型和方法,但通常都是较为简单或浅层的模型,模型的能力有限,而且依赖于数据的表达,不能获得很好的学习效果。大数据的出现提供了使用更加复杂的模型来更有效地表征数据、解释数据的机会。深度学习就是利用层次化的架构学习出对象在不同层次上的表达,这种层次化的表达可以帮助解决更加复杂抽象的问题。在层次化中,高层的概念通常是通过低层的概念来定义的。深度学习通常使用人工神经网络,常见的具有多个隐层的多层感知机(MLP)就是典型的深度架构。

 

(2) 知识计算挖掘深度每一种数据来源都有一定的局限性和片面性只有对各种来源的原始数据进行融合才能反映事物的全貌事物的本质和规律往往隐藏在各种原始数据的相互关联之中而借助知识计算可以将碎片化的多源数据整合成反映事物全貌的完整数据从而增加数据挖掘的深度因此基于大数据的知识计算是大数据分析的基础如何基于大数据实现新知识的感知知识的增量式演化和自适应学习是其中的重大挑战

 

多源知识的融合是为了解决知识的复用问题构建一个知识库的代价是非常大的为了避免从头开始需要考虑知识的复用和共享这就需要对多个来源的知识进行融合即需要对概念、实例、属性和关系的冲突重复冗余不一致进行数据的清理工作包括对概念、实例进行映射、消歧对关系进行合并等这其中概念间关系或分类体系的融合是很关键一部分按融合方式可以分为手动融合和自动融合对于规模较小的知识库手动融合是可行的但这是一种非常费时而且容易出错的融合方式相比于手动融合方式建立在机器学习、 人工智能和本体工程等算法上的融合方式具有更好的可扩展性相关工作包括 YAGOProbase YAGO 知识库将维基百科WordNet GeoNames 等数据源的知识整合在知识库中其中将维基百科的分类体系和 WordNet 的分类体系进行融合是 YAGO 的重要的工作之一维基百科的分类是一个有向无环图生成的层次结构这种结构由于仅能反映主题信息所以容易出错Probase 提出了一种基于概率化的实体消解(entity resolution)的知识整合技术将现有结构化数据 FreebaseIMDBAmazon 等整合到 Probase 当中对多源知识的融合除了分类体系的融合外还包括对实体和概念的消解问题实体和概念的消歧问题等面对海量知识库时建立若干个针对不同领域不同需求的有效的知识融合算法快速进行多元知识的融合是亟待进一步解决的问题之一

 

(3) 社会计算促进认知IT 技术的发展使得社会媒体成了一类重要的信息载体承载着对事物的客观或主观描述信息因此通过基于社会媒体数据的社会计算可以促进人们对事物的认知但是社会媒体大数据往往蕴含着一个体量庞大、关系异质、结构多尺度和动态演化的网络对它的分析既要有效地计算方法更需要支持大规模网络结构的图数据存储和管理结构以及高性能的图计算系统结构和算法

 

  在线社会网络在微观层面上具有随机化无序的现象在宏观层面上往往呈现出规则化、有序的现象为了理清网络具有的这种看似矛盾的不同尺度的结构特性探索和分析连接微观和宏观的网络中观结构也称为社区结构成为了本领域一个重要的研究方向一般意义上讲社区结构是指网络节点按照连接关系的紧密程度不同而自然分成若干个内部连接紧密、与外部连接稀疏的节点组每个节点组相应地被称为社区社区分析研究目前主要包括社区的定义和度量、社区结构发现和社区结构演化性分析等基本问题

 

(4) 强可视化辅助决策对大数据查询和分析的实用性和实效性对于人们能否及时获得决策信息非常重要而强大的可视化技术不仅可以对数据分析结果进行更有效的展示而且可以在大数据分析过程中发挥重要作用

 

  对大数据进行探索和可视化仍然还处在初始阶段,特别是对于动态多维度大数据流的可视化技术还非常匮乏,非常需要扩展现有的可视化算法,研究新的数据转换方法以便能够应对复杂的信息流数据。也需要设计创新的交互方式来对大数据进行可视化交互和辅助决策。


鲜花

握手

雷人

路过

鸡蛋

Copyright © 2012-2016 CloudSong Co., Ltd. All replica reserved. 京ICP备1203881
返回顶部