2016-02-29

BDI-大数据技术半月刊第1期

小编导读：
「地图大数据智能团队」依托地图海量数据资源，运用大数据仓库、大数据计算、大数据可视化等技术，提供智能化的大数据产品与服务，我们时刻关注大数据业界前沿动态与最新技术，倾情为大家推出大数据技术半月刊，本期主要精彩内容包含：
1.Hadoop,HBase,Spark,Flink等2015年度回顾总结及2016年展望。
2.Tachyon更名为 Alluxio,并发布1.0版本。
3.雅虎开源基于Hadoop/Spark分布式深度学习的CaffeOnSpark。
4.Apache Arrow内存列式的数据结构成为事实性标准。
5.谷歌大规模分布式跟踪系统Dapper介绍。

大数据业界

一张图清晰追溯数据库的发展历程

“数据库”起源于20世经90年代，当时美国为了战争的需要，把各种情报收集在一起，存储隐藏在计算机内，叫做Data Base(DB)。随着移动互联网的发展，至今已经形成了比较成熟的Apache hadoop, Apache Spark等完善生态。

The Apache Software Foundation Operations Summary: November 2015 - January 2016 : The Apache Software Foundation Blog

Apache官方对Apache基金会2015/11-2016/01期间的发展介绍。

Hadoop年度回顾与2016发展趋势

主要介绍了HDFS和YARN在2015年相关的发展动态，包括HDFS异构存储介质，Truncate操作的支持，异构数据块的支持及YARN基于标签的调度，对长服务的支持，对Docker的支持等。同时，展望2016年YARN在通用资源管理和调度方向发展。

Apache HBase 2015 年发展回顾与未来展望

在 2015 年，HBase 迎来了一个里程碑——HBase 1.0 release，这也代表着 HBase 走向了稳定。并提供了更加清晰的接口定义，新的接口与传统JDBC的逻辑更加相像；支持多个Region副本，Family粒度的Flush及RPC读写队列分离及堆外内存的使用等。

Spark 2015年回顾：四个大版本更迭、数以百计的改进

过去一年的时间里，发布了4个版本（Spark 1.3到Spark 1.6），各版本都添加了数以百计的改进，本文主要介绍了数据科学API、平台API、流计算等方面的改进和优化。

大数据盘点之Spark篇

介绍了Spark最新的特性以及功能,版本演化,具体介绍了在Hulu的实践经验分享。

Spark 2.0展望

Databricks CTO 马铁（Matei Zaharia）在 Spark Summit East 上做主题演讲,Spark的下一个版本将是2.0，这是该项目的一个较大的里程碑。在演讲中，他介绍了新版本将带来的一些重要特性，以及Spark在2016年的路线图。

大数据工具

一共81个，开源大数据处理工具汇总（上）

一共81个，开源大数据处理工具汇总（下），包括日志收集系统/集群管理/RPC等

本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类，并且附上了官网和部分下载链接，希望能给做大数据的同学做个参考。另外第二部分将整合大数据日志收集系统、消息系统、集群管理、基础设施、监控管理等开源工具。

Tachyon更名为 Alluxio，并发布1.0版本

近日，人气开源分布式内存文件系统Tachyon正式更名为Alluxio，并发布了1.0版本。自从Alluxio的第一个开源版本发布之后，我们社区的人数从1个迅速增加到200多个，这200多人来自50多个公司，这些公司将Alluxio部署到由成百上千机器构成的生产环境中。

Spark的下一代引擎-Project Tungsten启示录

ProjectTungsten是为了大幅提升Spark应用使用CPU和Memory的效率，让Spark的性能接近硬件的极限。

深入理解Apache Flink核心技术

Apache Flink（下简称Flink）项目是大数据处理领域最近冉冉升起的一颗新星，其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性，希望能够帮助读者对Flink有更加深入的了解，对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解，同时熟悉流处理与批处理的基本概念。

中文版：Apache Flink ：回顾2015，展望2016

英文版：Flink 2015: A year in review, and a lookout to 2016

回顾2015，总体而言Flink在功能方面已经从一个引擎发展成为最完整的开源流处理框架之一。与此同时，Flink社区也从一个相对较小，并且地理上集中的团队，成长为一个真正的全球性的大型社区，并在Apache软件基金会成为最大的大数据社区之一。

一些基于Kafka Connect的开源连接器

在Apache Kafka 0.9版本中，Kafka Connect特性被添加让Kafka可以建立可扩展和安全的流数据管道。

Druid：一个用于大数据实时处理的开源分布式系统

Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统，旨在快速处理大规模的数据，并能够实现快速查询和分析。

雅虎开源CaffeOnSpark：基于Hadoop/Spark的分布式深度学习

深度学习同学福音，雅虎认为，深度学习应该与现有的支持特征工程和传统（非深度）机器学习的数据处理管道在同一个集群中，创建CaffeOnSpark意在使得深度学习训练和测试能被嵌入到Spark应用程序。

中文版：Apache Arrow：内存列式的数据结构标准

英文版：Apache Arrow unifies in-memory Big Data systems

大数据领域又一新星，Apache Arrow项目为列式内存存储的处理和交互提供了规范。目前来自Apache Hadoop社区的开发者们致力于将它制定为大数据系统项目的事实性标准。

Apache Kudu 0.7.0 发布，Hadoop 存储系统

Apache Kudu 0.7.0 发布，该项目目前是Apache基金会的孵化项目，这也是加入Apache孵化器后的首个发布的版本。该版本包含众多的新特性和改进。高CPU效率，最大化先进处理器的效能；高IO性能，充分利用永久存储介质；对数据扫描(scan)和随机访问(random access)同时具有高性能。

Dapper：谷歌的大规模分布式跟踪系统

开发Dapper是为了收集更多的复杂分布式系统的行为信息，然后呈现给Google的开发者们。这样的分布式系统有一个特殊的好处，因为那些大规模的低端服务器，作为互联网服务的载体，是一个特殊的经济划算的平台。想要在这个上下文中理解分布式系统的行为，就需要监控那些横跨了不同的应用、不同的服务器之间的关联动作。

55种开源数据可视化工具简介

数据时代数据可视化成为理解和表达数据的有效甚至是唯一的手段。本文对55个流行的数据可视化工具开源协议，主页，文档，案例等资源的进行简单介绍。

百度地图BDI-大数据技术

Hi群号：1502858 --- BDI大数据技术期刊委员会成员：张伟，严孙荣，江畅

BDI-大数据技术半月刊第1期

大数据业界

一张图清晰追溯数据库的发展历程

The Apache Software Foundation Operations Summary: November 2015 - January 2016 : The Apache Software Foundation Blog

Hadoop年度回顾与2016发展趋势

Apache HBase 2015 年发展回顾与未来展望

Spark 2015年回顾：四个大版本更迭、数以百计的改进

大数据盘点之Spark篇

Spark 2.0展望

大数据工具

一共81个，开源大数据处理工具汇总（上）

一共81个，开源大数据处理工具汇总（下），包括日志收集系统/集群管理/RPC等

Tachyon更名为 Alluxio，并发布1.0版本

Spark的下一代引擎-Project Tungsten启示录

深入理解Apache Flink核心技术

中文版：Apache Flink ：回顾2015，展望2016

英文版：Flink 2015: A year in review, and a lookout to 2016

一些基于Kafka Connect的开源连接器

Druid：一个用于大数据实时处理的开源分布式系统

雅虎开源CaffeOnSpark：基于Hadoop/Spark的分布式深度学习

中文版：Apache Arrow：内存列式的数据结构标准

英文版：Apache Arrow unifies in-memory Big Data systems

Apache Kudu 0.7.0 发布，Hadoop 存储系统

Dapper：谷歌的大规模分布式跟踪系统

55种开源数据可视化工具简介

大数据案例

扩展ElasticSearch：实现分片并可用于存储亿万文档的实践

Spark GraphX原理介绍

大型企业如何实现实时计算和流数据处理

大型网站架构系列：消息队列

如何用消息系统避免分布式事务

支付宝红包的高并发挑战及解决思路

腾讯大数据平台纵览

腾讯计费平台部分布式 MySQL 数据库 TDSQL 架构分析

Hadoop YARN在hulu的成功实践

经典大数据架构案例：酷狗音乐的大数据平台重构（长文）

日志系统之基于flume收集docker容器日志

专访阿里王峰：Hadoop生态下一代计算引擎-streaming和batch的统一