首页
社区
家园
群组
手机版
开启辅助访问
请登录
立即注册
搜索
快捷导航
01
休闲灌水
02
开心乐园
03
贴图专区
04
音乐视听
05
饮食男女
06
摄影天堂
07
健康生活
08
旅游休闲
09
体育健身
10
拉风汽车
11
情感沙龙
12
心情日记
13
女人世界
14
婆媳关系
15
时尚节拍
16
我爱我家
17
亲子乐园
18
房产楼市
19
职场交流
20
投资理财
21
吃喝玩乐
22
休闲娱乐
23
家庭情感
24
都市生活
请
登录
后使用快捷导航
没有账号?
立即注册
当前位置:
»
从化论坛
›
活在从化
›
心灵港湾
›
帖子
返回列表
大数据时代,我诚惶诚恐的拥抱
[复制链接]
zhucanjian
zhucanjian
当前离线
积分
26333
IP卡
狗仔卡
分享到:
发表于 2013-10-31 11:44:16
|
显示全部楼层
|
阅读模式
大数据时代,我诚惶诚恐的拥抱
袁乾
这是最好的时代,也是最坏的时代,让我们拥抱大数据时代。
----
题记
这几天拜读了维克托·迈尔的《大数据时代》,感慨颇多,技术引领我们进入数据时代。数据存储、分析能力的提高大大改变,基于大数据的分析结果已经完完全全改变了我们的生活,如便捷的翻译、便捷的输入、新产品的推荐等。大数据已经成为学术界、业界关心的热切关心的问题,大数据时代的技术模式、管理模式都尚且未知。本文在梳理大数据的学术研究脉络的基础上,分析大数据和云计算的关系,大数据内涵及与信息技术发展的关系,并尝试对大数据在学术界和业界的发展进行预测。
实验室今年申请的自科基金,或多或少与大数据相关,虽然从技术角度刻意削弱了大数据的内涵,但是从评审意见看出大数据作为亮点被指出,说明学术界对大数据的重视。大数据虽然在互联网行业中如火如荼的被讨论着,基于笔者的既有知识,大数据原本是描述生物学领域下对于基因序列检测所获取的大量的、高速数据,《
Nature
》在
08
年发表专刊对大数据进行讨论,而
Lynch
则从高校科研数据管理中提出科学数据是大数据的一种,提出了数据价值的时间耗散现象。由此看书,大数据起于生物科学,而兴于互联网。无论是
Google
,还是亚马逊,都记录了大量广大网民日常行为,构成大量数据。对于大数据应用的文章,
<
哈佛商业评论
>
上的文章
<Strategy & Competition Big Data: The Management Revolution>
为大数据的商业变革进行了深入分析,认为大数据将互联网的个性化商业服务向个人化推送,企业将能更有效的刻画用户偏好,为客户管理管理、产品推荐都提供较好的数据支撑。然而,就目前为止,学术上对大数据的研究更多停留在定性分析角度,尚且缺乏实证和计算科学上的研究,大数据的关键属性尚未可知,笔者认为学术界满意开展对大数据的研究原因有二:首先,满足大数据的特性的数据集难以获取,既有定量研究都是基于样本数据;然而,学术界实验的计算能力不够,面向大数据的算法以及应用更多出于企业摸索阶段。《大数据时代》给出的多个案例都证明了大数据的可用性,但是这些案例也都是利用大数据去解释企业行为及得到的效果,直接基于大数据概念下的应用尚未可见,其根本原因是满意界定何为大数据。笔者较为同意维克多在《大数据时代》的定义,大数据不在于数据之大,而在数据的总体,其本质在于利用数据总体而非数据样本去分析数据。大数据带来三个方面的改变:追求总体数据、追求相关关系而非因果关系、追求混杂行而非精确性。对于大数据特征的分析,笔者非常同意清华大学陈国青教授提出的
4V
,规模巨大
(Volumn)
,形式多样
(vary)
,高速产生
(V??),
以及潜在价值
(Value).
大数据提供了从个人化层次以及宏观层次两个层面的数据描述。
笔者认为大数据是对云计算的延伸,云计算是大数据简单地应用,前几天关于云计算的多见于云存储以及云音乐等简单应用,但云计算为大数据准备好了技术,实现数据统一,数据共享,而大数据是云计算的进一步延伸,更加关注数据分析技术和数据应用思维。笔者同意《大数据时代》中认为大数据是数据、技术和思维三国鼎立的时代,而大数据时代催生出新的商业模式,数据拥有者、数据中间商等成为新的商业宠儿,对商业模式的巨大冲击,利用大数据预测消费者行为都是大数据的商业内涵,企业有机会更为准确的服务消费者。虽然《大数据时代》提出相关关系在大数据的重要性,但将相关关系至于大数据内涵尚需要深入分析,笔者认为因果关系仍然处于数据分析的核心,大数据概莫如是,原因有二:相关关系的本质是因果关系链;二,人类的逻辑推理能力是基于因果关系的积累,而非相关关系的发现。当然,书中对于是什么的观点无可厚非,问题解决只需要知道是什么即可,对于为什么可以因为效率而暂放一边,但是因此放弃因果关系还是不妥当。
由《大数据时代》,大数据的发展的关键在两个方面:首先是数据的获取,如何合理、有效、快捷、有柔性的获取支持现在以及未来大数据分析的数据集仍然是问题,其中包括,数据获取的合法性以及数据设计问题,获取之后的存储相信在存储成本下降,非关系型存储技术的发展将不是问题。然后是大数据的分析问题,有效的分析技术仍然是大数据应用的关键,虽然
google
利用检索词预测流感爆发是大数据的成功应用,但是通用的分析技术,降低分析硬件需求仍然值得讨论,
SaaS
可能是解决这一问题的可能渠道,但是如何实现数据分析仍然是个问题,现有
MapReduce
,
Hadoop
等系统本质上是治标不治本,大数据碎片化的过程中必然数据大量数据关联。笔者认为大数据分析技术的关键在于如何将现有分析技术应用在大数据集,使之能够处理大数据。而《大数据时代》中提出的简单算法在大数据集下显示出比复杂算法较优的效果的现象,笔者更多认为是复杂算法在现有硬件条件下无法有效进行计算,信息技术的发展必然要解决这个问题。
最后,推荐《黑镜》给大家去看,这里有对于大数据道德的深入思考,不再赘述。
关注微信公众号《神采飞扬网》,即可获取最新回复通知!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
显身卡
精彩图片
精彩图片
当前离线
积分
1982
IP卡
狗仔卡
发表于 2013-10-31 12:17:52
|
显示全部楼层
数据有效的分析技术仍然是数据应用的关键
关注微信公众号《神采飞扬网》,即可获取最新回复通知!
回复
支持
反对
使用道具
举报
显身卡
小白
小白
当前离线
积分
10087
IP卡
狗仔卡
发表于 2013-11-1 08:42:51
|
显示全部楼层
黑镜{:176:}
关注微信公众号《神采飞扬网》,即可获取最新回复通知!
回复
支持
反对
使用道具
举报
显身卡
返回列表
使用
高级回帖
(可批量传图、插入视频等)
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
写好了,发布
Ctrl + Enter 快速发布
×
温馨提醒:关注《神采飞扬网》公众号,就可以及时接收到回复通知啦!24小时客服微信/电话:13068892088
1、注册用户在神采飞扬网(含旗下所有平台)发表、转载的任何作品仅代表其个人观点,不代表神采飞扬网认同其观点。
2、如果存在违反国家相关法律、法规、条例的行为,我们有权在不经作者准许的情况下删除其在神采飞扬网的所有内容。
3、所有网友请不要盗用有版权要求的作品,转贴请注明来源,否则文责自负。
4、神采飞扬网保护注册用户个人资料,但是因自身原因导致个人资料泄露、丢失、被盗或篡改,神采飞扬网概不负责,也不承担相应法律责任。
回帖并转播
回帖后跳转到最后一页
发帖时请遵守我国法律,网站会将有关你发帖内容、时间以及发帖IP地址等记录保留,只要接到合法请求,即会将信息提供给有关政府机构。
浏览过的版块
情牵一线
飞扬办公室
从化摄影
从化人身边事
从化钓鱼人
生活服务
从化拼车
从化音乐同盟
从化户外爱好者
Copyright © 2025
从化神采飞扬网
(https://www.52fy.com/) 版权所有 All Rights Reserved.
免责声明: 本网不承担任何由内容提供商提供的信息所引起的争议和法律责任。
Powered by
Discuz!
X3.5 技术支持:
克米设计
粤ICP备12003688号
粤公网安备 44011702000004号
快速回复
返回顶部
返回列表