小编导读:
「地图大数据智能团队」依托地图海量数据资源,运用大数据仓库、大数据计算、大数据可视化等技术,提供智能化的大数据产品与服务,我们时刻关注大数据业界前沿动态与最新技术,倾情为大家推出大数据技术半月刊,本期主要精彩内容包含:
1.中国Hadoop大数据峰会2016北京站3月18日开启。
2.100篇大数据论文汇总,进阶必读。
3.Apache Spark 2.0最快4月亮相 预计效能翻九倍。
4.Apache Kylin 1.5版正式发布,支持plugin架构。
5.微软宣布推出SQL Server2016 for Linux开放私测。
6.LinkedIn开源元数据管理工具WhereHows。
大数据业界
中国Hadoop大数据峰会2016北京站议程表
大数据峰会盛宴,大数据方向同学的盛会。
硬啃 :读完这100篇论文,你就能成大数据高手
文献中大多都是一些开创性的研究论文, 包括文件系统层,数据存储层, 资源协调层,数据分析层, 数据集成层及多种常见核心架构, 无论你是一个大数据的布道者,还是一个日臻成熟的技术派,亦或你还在大数据这条路上“小河才露尖尖角”,多花点时间,深入理解一下大数据系统的技术体系演进,对你都会有莫大益处。全方位地理解大数据体系结构中的各个组件,并掌握它们之间的微妙差别,可在处理自己身边的大数据案例时,助你张弛有度,“恢恢乎,其于游刃必有余地矣!”
Apache Spark 2.0最快4月亮相 预计效能翻九倍
1月才刚释出1.6版的大数据技术Spark,下一个2.0版本预计4、5月释出,将提供可运行在SQL/Dataframe上的结构化串流即时引擎,并统一化Dataset及DataFrame。
超过1600人 大数据行业通讯录1.9版本将于下周三发布
由36大数据发起并且运行了一年多的『大数据行业通讯录』目前收录人数已超过1600人,我们将于下周三(3月16日)通过邮件的形式,正式发布到大家手里。
未来的银行架构趋势:去 IOE 而且全面拥抱开源
本文介绍了由于三大外因驱动新一代银行架构的诞生,并预言未来银行架构的趋势一定是去IOE而且全面拥抱开源
Gartner发布2016年数据仓库和数据管理解决方案魔力象限
云计算、虚拟化以及需要分析非关系数据类型的信息,这几大因素都在促使数据仓库市场发生了颠覆。本文介绍了传统厂商和新厂商在Gartner的2016年魔力象限报告中的位置出现了怎样的变化。
Announcing SQL Server on Linux
微软宣布推出SQL Server2016 for Linux 开放私测,并打算在明年年中正式发布这款关系数据库产品。这是微软该旗舰产品首次登陆 Linux。就像此前 Office 产品登陆了越来越多的操作系统一样,此举显示微软不再死守 Windows 生态,这既显示出微软的开放性,也说明 OS 的格局正在悄然变化。
Tableau buys HyPer, to add R&D center in Munich
Tableau将收购德国新兴数据处理公司HyPer, HyPer主要处理来自OLTP和OLAP系统的数据并保持高性能。Tableau将会把HyPer整个到其现有产品中以提升大数据分析性能。
Hortonworks revamps its stack, further embraces Apache Spark
Hortonworks在最新的HDP中集成Spark 1.6, 并会集合用c++重写的Shuffle Engine,提高15x的性能。
大数据工具
中文版: Databricks整合Spark和TensorFlow用于深度学习模型
英文版: Databricks Integrates Spark and TensorFlow for Deep Learning
Databricks 公司的 Tim Hunter 通过 Spark 演示了使用 TensorFlow 生成模型选项和一定规模的神经网络处理。Hunter 在描述人工神经网络的时候,将之形容成一个在人脑的视觉皮层里模拟神经元一样,这样的模拟在经过大量充分训练之后,可以被用于处理复杂的输入数据,如图像或音频等等。
全新设计的新一代Apache Kylin (v1.5.0) 正式发布
全新的Apache Kylin的Plugin架构使得Kylin可以扩展计算框架,数据源以及Cube存储等。在之前的版本中,Kylin与作为计算框架的Hadoop MapReduce,数据源的Hive及作为存储的HBase耦合紧密。常有人问及例如:Spark可否作为Cubing引擎,或者是否可以使用Cassandra作为存储?我们希望借此重新设计和架构的新版本提供各种可能性,以使得Kylin与最新的技术栈一起演进。这是本次重大更新中最大的变化,同时,新的版本经实践测试,Cubing时间及网络传输可以缩减30~50%、查询速度成倍提升、支持TopN、支持Excel及PowerBI等,另外,实验性的Streaming Cubing技术也随之发布。
变不可能为可能,Tachyon帮助Spark变小时级任务到秒
Tachyon作为一种内存分布式文件系统,可以存储任何文本格式或Parquet、Avro和Kryo等高效数据类型。我们还可以将结合进Snappy或LZO等压缩算法来减少对内存的占用。与Spark应用的集成非常简单,只需调用DataFrame和RDD的加载存储API并指定路径URL和Tachyon协议即可。
LinkedIn开源元数据管理工具WhereHows
Github地址: https://github.com/linkedin/WhereHows/wiki/Architecture
职业社交平台LinkedIn最近开源了元数据管理工具WhereHows(GitHub),该工具可以帮企业员工发现和分享企业内部的元数据, LinkedIn部署了很多数据存储和处理系统,包括Teradata的数据仓库、开源的Hadoop分布式文件系统,开源的Hive数据仓库以及自己开发的开源试试分析软件Pinot。而WhereHows则能帮LinkedIn的员工检索和分享LinkedIn的HDFS系统中超过25000个共享数据集。在数据爆炸的今天,随时掌握企业内部有价值信息的情况(元数据)非常重要,这能大大提高企业员工的信息搜索和分享深度
KVM之父的新作ScyllaDB:用C++开发的Cassandra兼容列数据库,性能提升10倍
在ScyllaDB,我们仔细将底层知识用于大数据技术。所用的数据结构都不超过CPU的缓存行(cache line),使用轮询模式的驱动代替中断,磁盘存取针对写入放大做了测试,缓存应该是防扫描(scan-resistant)。我们对自己绕过了任务调度器和TCP/IP内核等工作非常自豪。我们还全力挖掘了C++14和gcc5.1的最新特性,力图将非易失随机访问内存商品化。
Splunk vs ELK:如何选择管理、查询log的工具
开发人员常常要选择工具,是买付费产品还是用免费开源的?本文虽对比付费的Splunk及免费的ElasticSearch(和它的好朋友们),但整个对比思考的过程值得借鉴到其他类别的工具的选择。
Airbnb使用净推荐值(NPS)预测用户再次预定率
开发人员常常要选择工具,是买付费产品还是用免费开源的?本文虽对比付费的Splunk及免费的ElasticSearch(和它的好朋友们),但整个对比思考的过程值得借鉴到其他类别的工具的选择。
文档型数据库CouchBase 4.5开发者预览版发布
日前,CouchBase官网正式对外发布了CouchBase 4.5 GA版本,这是具有重要里程碑式的改进,它具有高效的查询、先进的数据访问、强大的索引和更安全的管理。对于开发人员来说,这是一个改动很大的版本。
大数据案例
Netflix的EVCache缓存分布式复制架构
EVCache 是一个非常棒的数据缓存服务,能够专门为netflix的微服务架构提供低延迟 高可靠性的缓存解决方案。它是基于memcached的内存存储,专门为云计算优化,EVCache典型地适合对强一致性没有必须要求的场合,过去几年,EVCache已经扩展到可处理非常显著的大流量,同时它提供健壮的key-value编程接口,处理每秒三千万个请求,存储数十亿个对象,跨数千台memcached服务器。整个EVCache集群每天处理近2万亿个请求。
在Twitter“玩”数据科学是怎样一种体验
数据科学家的工作确实非常令人兴奋,那种忽然窥到天机的兴奋感堪比肾上腺素爆发。从零开始构建数据管道和机器学习模型会令你成就感满满,做A/B测试时,那种翻手为云覆手为雨的上帝姿态也非常有乐趣。数据科学家这条路有苦又累,沿途九九八十一难,但聪明努力的人会迅速克服的。
2015年度大数据应用经典案例Top100
在当前的互联网领域,企业已经成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各行各业。
数据可视化获奖作品精选 2015 Information is Beautiful Awards
“Information is Beautiful Awards”是为了鼓励和奖励在图表设计、数据、信息可视化方向上做出优秀表现的设计师和设计作品,至今已经举办了四届。今年,“Information is Beautiful Awards”除了团体项目类之外,更是延伸到了个人及学生项目,以此来鼓励更多领域的人参加。上篇的作品以设计为主,而在下篇中,我们则会为大家介绍更多优秀的制作软件。
缓存架构设计细节二三事
主要讨论“缓存与数据库”需求缘起;“淘汰缓存”还是“更新缓存”;缓存和数据库的操作时序;缓存和数据库架构简析
从人算到大数据算 北京开始用阿里云规划城市交通
目前,北京市城市规划设计研究院正在尝试用阿里云大数据平台数加,探索城市物流和交通规划的新模式。联合云康大数据工作室,北京市城市规划设计研究院正在基于数加平台搭建“物流鹰眼”系统,用大数据技术对货运车辆集散点分布进行研究。
EverString产品技术解读
一家卖数据的公司,利用大数据和人工智能技术,让机器去学习潜在落户特征,然后告诉下一个客户是谁,根据预估转化率为客户提供建议,并结合外部、内部数据相辅相成进行结合分析。
Palantir解读
用户知识图谱创建、管理、搜索、发现、挖掘、积累的可扩展的大数据分析平台
nice服务端架构重构与演进
nice 是一款图片社交 App,目标是让人们发现生活的美好。产品的核心体验是基于生活方式的社交。本文主要介绍了从旧系统到新服务端架构重构与演进的完整过程。
美团线上真实流量压测工具构建
本文主要介绍了美团构建线上压测工具的过程和经验。
缓存与数据库一致性保证
本文将讨论数据库和缓存中的数据不一致原因,解决思路和如何保证一致性三个核心的问题,干活满满。
Netflix数据管道的变化历程
去年12月Keystone数据管道正式投入使用,本文将介绍这些年Netflix数据管道的变化历程。
Twitter 首席工程师:如何“打败”CAP 定理
CAP定理是数据系统设计的基本理论,目前几乎所有的数据系统的设计都遵循了这个定理。但 CAP 定理给目前的数据系统带来了许多复杂的、不可控的问题,使得数据系统的设计越来越复杂。Twitter 首席工程师、Storm 的作者 Nathan Marz 在本文中通过避开 CAP 定理带来的诸多复杂问题,展示了一个不同于以往的数据系统设计方案,给我们的数据系统设计带来了全新的思路。
用Apache Spark进行大数据处理——第三部分:Spark流
在本文中,我们将会学习到如何使用Apache Spark中一个被称为Spark流的库进行实时数据分析。我们将会看到一个网络服务器日志分析用例,该用例会向我们展示Spark流是如何帮助我们对持续产生的数据流进行分析的
大数据如何改善我们周围的生存环境
大数据的潜力还没有被完全挖掘出来,这需要时间和不断的尝试才能发挥它最大的价值,更好的改善我们的日常生活环境。
基于Spark的异构分布式深度学习平台
本文介绍百度基于Spark的异构分布式深度学习系统,把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务逻辑间的数据通路问题。
58到家消息系统设计与开发实践
本文主要包括三个部分:消息平台产生的背景,它的整体架构和系统重点,以及遇到并解决了哪些问题。
一张图解AlphaGo原理及弱点
本文作者作为围棋爱好者和人工智能领域工作者阅读大量原文并收集了大量其他资料后,完成的一张图,解释了AlphaGo的原理,看完后大家自然知道其弱点在何处了。
我们如何使用Go打造了Uber QPS最高的服务
本文主要讲解使用GO语言构建Uber地理围栏查找服务,创造QPS超高纪录的过程。
欢迎一起交流大数据: map-di@baidu.com