公需科目资料3 | |
作者:师训部 文章来源:本站原创 点击数6920 更新时间:2018/10/18 16:26:18 文章录入:chenyong 责任编辑:chenyong | |
|
|
公需科目资料3 大数据下的资源整合和知识共享一、热词解释
(一)“互联网+” “互联网+”代表一种全新的经济形态,即充分发挥互联网在生产要素配置中的优化和集成作用,将互联网的创新成果深度融合于经济社会各领域之中,从而提升实体经济的创新力和生产力,形成广泛以互联网为基础的基础设施和实现工具的经济发展新形态。 Ø “互联网+”行动将重点促进以移动互联网、云计算、物联网、大数据等与现代制造业相结合。 Ø 这里的结合,不是简单的结合,而是一种有机结合。 Ø 它的目的是为了实现产业创新。 “互联网+”什么? 互联网+商场 互联网+吃饭 互联网+出行 互联网+支付 互联网+通信 互联网+社交 对传统行业的影响巨大而深远! “邮政行业不努力,顺丰就替他努力;银行不努力,支付宝就替他努力;通讯行业不努力,微信就替他努力;出租车行业不努力,滴滴快的就替他努力。” “互联网+”倒逼这些行业去提高效率,加快创新。 “互联网+”的完全定义:“互联网+”是互联网和传统行业融合的新形式和新业态,是移动互联网、大数据、物联网等与传统行业的结合,是对传统行业的颠覆和改造。 注意:“互联网+”>=“互联网+传统行业” (二)“云计算” ÷ 云计算是一种按使用量付费的模式; ÷ 这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池,这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。 云计算的核心技术 Ø 虚拟化技术 Ø 分布式数据存储技术 Ø 分布式并行编程模式 Ø 大规模数据管理 Ø 分布式资源管理 Ø 信息安全 Ø 云计算平台管理 (三)“物联网” 物联网就是“物物相连的互联网”,利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,实现人与物、物与物相联,形成信息化、远程管理控制和智能化的网络。 物联网在逻辑上的三个层级: Ø 应用层网络层感知层 Ø 智能家居 Ø 家里的所有设备,都通过手机连在一起。 (四)“工业4.0” ÷ 是指利用物联信息系统,将生产中的供应、制造、销售信息数据化、智慧化,最后达到快速、有效、个人化的产品供应。 ÷ 其中,“4”是相对于前3次工业革命而指出的。 (五)“中国制造2025” ÷ 2015年5月19日,经李克强总理签批,中国国务院印发《中国制造2025》,部署全面推进实施制造强国战略,这是中国实施制造强国战略首个十年的行动纲领。 ÷ 报告明确,智能制造是未来制造业发展的重点导向。中国在2015年已启动智能制造试点,2016年会扩大试点,2017年将全面推广。 ÷ 《中国制造2025》的核心目标就是推动产业结构迈向中高端,坚持创新驱劢、智能转型、强化基础、绿色发展,加快从制造大国转向制造强国。 (六)“大数据” ÷ 夫子曰:夫道,覆载万物者也,洋洋乎大哉....不同同之之谓大。 ÷ 维基百科:在可容忍的运行时间内,使用已有的软硬件方法或架构难以捕获、管理和处理的数据。 ÷ 在研究界,对于大数据没有一个完整而严格的定义。 1.大数据的缘起 Ø John Snow,使用大数据的力量,解决了1854年的伦敦霍乱。 Ø 图上红点越大,代表死的人越多。 Ø 他利用了大数据的区略图的方法,最终找到了三个结点。 Ø 用PUI数据进行比对,发现这地方有三口井。 Ø 最后结合水质调查,发现祸乱的根源其实是通过水源传播的。 2.地球上至今总共的数据量: • 2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据; • 2011年,这个数字达到了1.8ZB; • 2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)! • 互联网上: • 每天有5亿个聊天记录产生; • 每天有3000TB数据产生; • 每分钟有5000万笔交易发生; • 每分钟有1100万个状态更新; • 每秒钟有69000个搜索查询。 • … • 数据量增长越来越快,需要处理的速度和响应越来越快。 随着web2.0时代的到来: • 数据将从结构化→半结构化→非结构化; • 传感器数据、音频、视频、日志文件、点击流以及其他任何可用的信息。 3.应用价值 • 治疗疾病、预防犯罪、提高政府管理效率,提升教育系统质量。 4.隐私威胁 • 商业公司、政府部门对公民隐私数据无节制的采集。 • 金融、零售等商业企业和警务部门滥用。 • 新的种族和阶层歧视。 二、国际大数据案例分析及相关技术介绍
(一)国际大数据案例分析 1.大数据与政治 Nate Silver预测对了所有50个州的选举结果,选举人票数和得票率都惊人地准确,完胜多组资深政治学专家和观察者,充分展示了大数据与数学模型的力量。 2.大数据与文化娱乐 Netflix会投用户所好,根据这些内容拍摄用户感兴趣的电影。 3.大数据与公共卫生 Google认为搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。其预测结果与美国疾病预防控制中心的监测报告相比对, 数据的相关性高达97%。 4.大数据与社交网络 2009年美国DARPA,悬赏40万美元,发起组织了一个气球挑战赛。 MIT团队获胜,他们是怎样做到的呢? Ø 召集愿者,构建社交网络 Ø 发明递归激励机制 Ø 发明IP追踪技术 Ø 最终9小时内完成 5.应用到社会事件上 利用行之有效的信息传播机制解决问题。 核心思想是把人作为传感器。 6.基于社交网络的事件探测与追踪技术 如何从社交网络里面,从一个海量、有噪声的数据里提取与事件有关的信息,同时如何定位这些事件的时间、地点。 基于社交网络的事件探测与追踪技术——以地震为例 Ø 微博用户分布统计 Ø 地震灾害分布统计 Ø 提出框架与模型 Ø 时序模型 Ø 空间模型 (二)大数据相关技术 1.数据挖掘与分析 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 大数据的数据挖掘与机器学习,是大数据技术的核心,也是人工智能的核心。 机器学习主要是设计和分析一些让计算机可以自动学习的算法,它是一类从数据中自动分析获得规律,并且利用规律对未知数据进行预测的算法。 2.数据交互与可视化 可视化就是利用计算机图形学以及图像处理技术,将数据转换成图像,显示在电脑的显示器上。 信息可视化 提高人对大规模非结构化数据的理解与感知,降低大数据信息负载。 科学可视化 便于对科学技术数据和模型的实时渲染与处理。 大数据可视化:以易于人理解的方式展示大数据。 技术: 分布式实时渲染(GPU/CPU) 多层次交互可视分析(Level of Details ) 结合数据挖掘/机器学习的智能可视化 三、大数据实际项目解析
(一)智慧城市 1.空气质量监测 北京的空气监测站,离散地分布在城区的,空间分辨率是每100平方公里有一个监测站,每个监测站能够监测一平方公里的空气质量。 存在问题和挑战 空气质量随着时空变迁非线性变化。 受天气、交通、建筑等因素影响。 POI是地图上一些单位的属性。 难题:无法用现有方法建模。 如何做到的? 将城区划分成若干网格,提取每个网格属性。 针对每种污染情况,进行区间的分类。 利用半监督学习模型,构建分类器。 分类器 时间分类器 空间分类器 这两个分类器,互相迭代、互相增强,最终能够推理出未知区域的空气质量。 优势 传统的方法忽略了路网数据和POI数据,跟时间不相关,精度低 我们的方法考虑到了时间和空间两个因素,精度比较高。 2.智能交通 问题一:城市拥堵情况越来越严重,原有的红绿灯控制系统,已表现出明显的缺点。 如何做? 分析十字路口的拥堵模式。 对全城的交通路况进行模拟。 通过车的速度,来计算路网的速度,通过路网的速度,来探测拥堵的事件问题二:全城的汽车油耗与尾气排放实时监控 需要解决: 过去一个小时,全城油耗是多少?排放多少尾气? 汽车尾气排放是不是城市污染的主要原因? 目标: 在任何时间任何路段估计出汽车汽油消耗和尾气排放。 使用数据: 出租汽车GPS轨迹数据 路网数据 POI数据 天气数据 大数据解决方案 通过TSE(Travel Speed Estimation),估计其他路网车的速度。 通过TVI( Traffic Volume Inference ),推断路网上有多少辆车。 利用了车的GPS轨迹数据 |
|
![]() ![]() |