BDI-大数据技术半月刊第3期

小编导读:
「地图大数据智能团队」依托地图海量数据资源,运用大数据仓库、大数据计算、大数据可视化等技术,提供智能化的大数据产品与服务,我们时刻关注大数据业界前沿动态与最新技术,倾情为大家推出大数据技术半月刊,本期主要精彩内容包含:
1.QCon北京站2016大会将于4月21~23日北京国际会议中心举办。
2.Google首席科学家及Facebook AI负责人深度学习PPT分享。
3.Apache Flink 1.0.0版本发布。
4.Docker推出Mac、Windows的Beta版。
5.谷歌开放语音识别API 发布机器学习云平台。

大数据业界

QCon北京站2016大会

QCon北京站2016大会特意设置了《大数据应用层层深入》专题,结合一线互联网公司微信,京东,LinkedIn等大数据应用,通过细致的剖析,包括场景,建模,结果应用,扩展等方面,帮助企业掌握找到数据应用切入点。

Google首席科学家韩国大学演讲:大规模深度学习

2016年3月7日,谷歌首席科学家,MapReduce、BigTable等系统的创造者,Jeff Dean受邀韩国大学,演讲主题《大规模深度学习》,这里部分来自highscalability的文字和笔者Youtube上的听录。

Facebook AI 负责人:深度学习技术趋势报告

Yann LeCun 是卷积神经网络的发明人,Facebook 人工智能研究院的负责人。下文的 150 张 PPT,是 LeCun 对深度学习领域的全面而细致的思考。LeCun 非常坚定看好无监督学习,认为无监督学习是能够提供足够信息去训练数以十亿计的神经网络的唯一学习形式

Docker推出Mac、Windows的Beta版

近日,Docker公司宣布启动一项Docker for Mac和Docker for Windows有限Beta测试计划。

全球难度最大的AI竞赛 对冲基金“宽客”夺魁

尽管基金的交易台和医生的手术台完全扯不上关系,但两位对冲基金出身的“宽客”却合力研发出一种通过核磁共振(MRI)图像来诊断心脏疾病的程序,使其在全球最难的人工智能竞赛中力压近千只队伍最终夺魁。

从数据仓库到大数据,数据平台这25年是怎样进化的?

从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识、架构模式的演进与变革。数据平台这25年究竟是怎样进化的?看完本文你讲受益匪浅。

深度 | 资深架构师教你一篇文看懂Hadoop

现在Hadoop俨然已经成为企业数据平台的“新常态”。我们很荣幸能够见证Hadoop十年从无到有,再到称王。在我们感动于技术的日新月异时,希望能通过本文能为Hadoop的昨天、今天和明天做出一点自己的解读,算是为Hadoop庆祝10岁生日献上的礼物。

百度大数据实验室发布人群预测技术

聚合用户对百度地图查询数据,可以预测未来特定的时间和区域内的人数。对百度地图数据仔细分析和深入的调查还证明地图查询的数量和在一个区域定位的用户数之间有很强的相关关系。

微软人工智能聊天机器人Tay曝光:或亮相Build2016

微软在人工智能领域被人们知晓的有微软小娜)、小冰,属于智能语音助理。此前人机围棋大战中,谷歌AlphaGo大胜李世石,AI(人工智能)话题再次被引爆,Build2016即将带来,微软在AI方面会有哪些进展呢?

谷歌开放语音识别的API

谷歌在Next云计算大会上发布了面向开发者的新机器学习平台,并开放语音识别的API(应用程序编程接口),谷歌机器学习负责人杰夫·迪恩随后介绍称,随着近年来机器学习技术的逐渐成熟,谷歌正加快步伐在主要平台部署机器学习技术

大数据工具

Apache Flink 1.0.0版近日发布了。Flink是分布式流和数据批处理的平台。1.0.0发布版本保证了与以后的1.x.x版本的后向兼容性。由64个贡献者提交的450个JIRA问题,都在这个版本中被修复了。除了修复故障,这个版本还有许多面向用户的新特性。

pache Flink是一个高效、分布式、基于Java和Scala实现的通用大数据分析引擎,它具有分布式 MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。从Flink官方文档可以知道,目前Flink支持三大部署模式:Local、Cluster以及Cloud

Apache Spark和Apache Flink,如何选择?

近日,MapR Technologies产品经理Balaji Mohanam在公司内部的白板演示中比较了Apache Spark和Apache Flink的不同之处,用户可以参考这种比较做出选择。

图形数据库 Neo4J 简介

在本文中,我们就将对业界非常流行的图形数据库Neo4J进行简单的介绍。

Apache Storm内部原理分析

本文是对Storm应用和学习的一个总结,由于不太懂Clojure语言,作者参考了官网、很多优秀的文章,以及《Storm Applied: Strategies for real-time event processing》这本书,以及结合自己使用Storm的经历,希望对于想深入一点了解Storm原理的朋友能有所帮助,

Kafka数据流:让流处理更轻松(上)

Kafka数据流:让流处理更轻松(中)

Apache Kafka的一项新功能预览叫Kafka Streams。Kafka Streams是一个使用Apache Kafka用于构建分布流处理应用的Java库。

基于Locust、Tsung的百万并发秒杀压测

此次实验设立的目标是在物理资源最小值的情况下完成 100 万并发处理,通过此次实验,最大化验证了基于 Mesos 和 Docker 技术的数人云 DCOS (数据中心操作系统)承载高压的能力。

Flume-NG源码分析-整体结构及配置载入分析

从源码角度对Flume进行了基础分析。

Spark和HBase上的推荐系统

介绍了Spark和HBase上的推荐系统。

大道至简的数据治理方法论

数据治理是一项基础工作,在很多人眼中是一项苦活儿累活儿,但是越是这样的工作越是不能忽视,基础打扎实了,上层建筑才会更稳固。数据分析师的角色犹如一位大厨,原料有问题,大厨肯定烹饪不出色香味俱佳的大菜,数据有问题,数据分析师得出的结论自然也就不可靠。

大数据案例

如何建立完整可用的安全大数据平台

要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外,没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患

腾讯云分析 一款态度低调功能奢华的移动大数据分析产品

本文为大家介绍腾讯在移动大数据方面的一款专业的移动应用统计分析工具——腾讯云分析。为移动开发者提供多种精准的数据统计分析,帮助开发者优化产品策略,延长生命周期用户行为的工具。

惊艳全球数据行业的16个数据可视化例子

数据可视化可以是静态的或交互的。几个世纪以来,人们一直在使用静态数据可视化,如图表和地图。交互式的数据可视化则相对更为先进:人们能够使用电脑和移动设备深入到这些图表和图形的具体细节,然后用交互的方式改变他们看到的数据及数据的处理方式

阿法狗是如何工作的?卡内基梅隆大学博士用54页PPT给你答案

为了让大家从另外一面了解AlphaGo,Computer Science排名第一的卡内基梅隆大学的博士研究生 Shane Moon做了一次演讲,他就读于卡内基梅隆大学著名的语言技术研究所,纯干货讲稿PPT奉上。

LB 负载均衡的层次结构

对于互联网应用,在你的应用和用户之间还隔着一层低调的或厚或薄的负载均衡层软件,它们不显山不露水默默的发挥着重要的作用,以至于我们经常忽略了它们的存在。因为负载均衡层通常不在一般开发人员的问题域内,而且它们一般都是现成且成熟的解决方案,以至于我们习惯性的忽略和认为乏善可陈。

图像高斯模糊算法的原理及实现

如果经常使用Photoshop等修图软件,那么对高斯模糊滤镜肯定不会陌生,通过调整模糊半径,图像会变得模糊,半径越大越模糊,这篇文章将会讲解高斯模糊算法的原理以及其Java实现。

微博基于Docker的混合云平台设计与实践

2014 年底构建了第一版基于 Docker 的运维平台,并在元旦,春节,红包飞等大型活动中得到了考验。但是要想更好的应对微博的这种业务场景,系统局限性还很多,比如设备申请慢,业务负载饱和度不一,扩缩容流程繁琐且时间长,基于此出发点,2015 年技术团队设计与实现了一套基于 Docker 的混合云平台 DCP。

Redis 时延问题分析及应对

Redis的事件循环在一个线程中处理,作为一个单线程程序,重要的是要保证事件处理的时延短,这样,事件循环中的后续任务才不会阻塞;当redis的数据量达到一定级别后(比如20G),阻塞操作对性能的影响尤为严重;

苏宁易购亿万级商品评价系统的架构演进之路和实现细节

苏宁易购评价系统跟随着易购商城的业务发展,经历了从Commerce系统拆分再到系统全面重构的整个历程。如何满足系统流量的日益增长,在提升系统性能和满足稳定性和可扩展性的要求的同时,向目标系统架构一步步平滑靠近,成为系统面临的最大挑战。

Uber的大数据分析实践,及其惊人的表现

2009年发布时仅覆盖旧金山一地,到了现在,除了南极洲之外,已覆盖所有大陆的许多主要城市。这家公司深深地扎根于大数据,对数据的运用远比传统出租车公司要更高效,而这正是促使它成功的很大一部分原因。

Linux Shell 文本处理工具集锦

大数据较多时候用文本进行存储,因为如何高效的操作文本处理好数据是数据工程师基本技能之一。本文将介绍Linux下使用Shell处理文本时最常用的工具:find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk;提供的例子和参数都是最常用和最为实用的;

达观数据个性化推荐系统实践

面对“信息过载”,个性化推荐根据用户的历史行为数据进行深层兴趣点挖掘,将用户最感兴趣的物品推荐给用户,从而做到千人千面,不仅满足了用户本质的信息诉求,也最大化了企业的自身利益,所以个性化推荐蕴含着无限商机。

Airbnb的大数据平台架构

Airbnb成立于2008年8月,拥有世界一流的客户服务和日益增长的用户社区。随着Airbnb的业务日益复杂,其大数据平台数据量也迎来了爆炸式增长。

有赞搜索引擎实践(工程篇)

本文介绍了有赞搜索引擎的架构, 重点对索引创建机制, 高级搜索模块的功能做了阐述, 最后列举了几个常见的性能优化的场景。本文的主要目的是能够对搭建商用电商搜索引擎给读者一个一般性的建议.

mmTrix大数据分析平台构建实录

本文详细介绍了mmTrix大数据分析平台的基本架构构建过程,基于Hadoop的大数据分析平台逐步实现mmTrix APM后端数据的存储、分析、挖掘,同时随着业务的更迭也加速驱动数据的平台化。

欢迎一起交流大数据: map-di@baidu.com

BDI-大数据技术半月刊第2期

小编导读:
「地图大数据智能团队」依托地图海量数据资源,运用大数据仓库、大数据计算、大数据可视化等技术,提供智能化的大数据产品与服务,我们时刻关注大数据业界前沿动态与最新技术,倾情为大家推出大数据技术半月刊,本期主要精彩内容包含:
1.中国Hadoop大数据峰会2016北京站3月18日开启。
2.100篇大数据论文汇总,进阶必读。
3.Apache Spark 2.0最快4月亮相 预计效能翻九倍。
4.Apache Kylin 1.5版正式发布,支持plugin架构。
5.微软宣布推出SQL Server2016 for Linux开放私测。
6.LinkedIn开源元数据管理工具WhereHows。

大数据业界

中国Hadoop大数据峰会2016北京站议程表

大数据峰会盛宴,大数据方向同学的盛会。

硬啃 :读完这100篇论文,你就能成大数据高手

文献中大多都是一些开创性的研究论文, 包括文件系统层,数据存储层, 资源协调层,数据分析层, 数据集成层及多种常见核心架构, 无论你是一个大数据的布道者,还是一个日臻成熟的技术派,亦或你还在大数据这条路上“小河才露尖尖角”,多花点时间,深入理解一下大数据系统的技术体系演进,对你都会有莫大益处。全方位地理解大数据体系结构中的各个组件,并掌握它们之间的微妙差别,可在处理自己身边的大数据案例时,助你张弛有度,“恢恢乎,其于游刃必有余地矣!”

Apache Spark 2.0最快4月亮相 预计效能翻九倍

1月才刚释出1.6版的大数据技术Spark,下一个2.0版本预计4、5月释出,将提供可运行在SQL/Dataframe上的结构化串流即时引擎,并统一化Dataset及DataFrame。

超过1600人 大数据行业通讯录1.9版本将于下周三发布

由36大数据发起并且运行了一年多的『大数据行业通讯录』目前收录人数已超过1600人,我们将于下周三(3月16日)通过邮件的形式,正式发布到大家手里。

未来的银行架构趋势:去 IOE 而且全面拥抱开源

本文介绍了由于三大外因驱动新一代银行架构的诞生,并预言未来银行架构的趋势一定是去IOE而且全面拥抱开源

Gartner发布2016年数据仓库和数据管理解决方案魔力象限

云计算、虚拟化以及需要分析非关系数据类型的信息,这几大因素都在促使数据仓库市场发生了颠覆。本文介绍了传统厂商和新厂商在Gartner的2016年魔力象限报告中的位置出现了怎样的变化。

Announcing SQL Server on Linux

微软宣布推出SQL Server2016 for Linux 开放私测,并打算在明年年中正式发布这款关系数据库产品。这是微软该旗舰产品首次登陆 Linux。就像此前 Office 产品登陆了越来越多的操作系统一样,此举显示微软不再死守 Windows 生态,这既显示出微软的开放性,也说明 OS 的格局正在悄然变化。

Tableau buys HyPer, to add R&D center in Munich

Tableau将收购德国新兴数据处理公司HyPer, HyPer主要处理来自OLTP和OLAP系统的数据并保持高性能。Tableau将会把HyPer整个到其现有产品中以提升大数据分析性能。

Hortonworks revamps its stack, further embraces Apache Spark

Hortonworks在最新的HDP中集成Spark 1.6, 并会集合用c++重写的Shuffle Engine,提高15x的性能。

大数据工具

中文版: Databricks整合Spark和TensorFlow用于深度学习模型

英文版: Databricks Integrates Spark and TensorFlow for Deep Learning

Databricks 公司的 Tim Hunter 通过 Spark 演示了使用 TensorFlow 生成模型选项和一定规模的神经网络处理。Hunter 在描述人工神经网络的时候,将之形容成一个在人脑的视觉皮层里模拟神经元一样,这样的模拟在经过大量充分训练之后,可以被用于处理复杂的输入数据,如图像或音频等等。

全新设计的新一代Apache Kylin (v1.5.0) 正式发布

全新的Apache Kylin的Plugin架构使得Kylin可以扩展计算框架,数据源以及Cube存储等。在之前的版本中,Kylin与作为计算框架的Hadoop MapReduce,数据源的Hive及作为存储的HBase耦合紧密。常有人问及例如:Spark可否作为Cubing引擎,或者是否可以使用Cassandra作为存储?我们希望借此重新设计和架构的新版本提供各种可能性,以使得Kylin与最新的技术栈一起演进。这是本次重大更新中最大的变化,同时,新的版本经实践测试,Cubing时间及网络传输可以缩减30~50%、查询速度成倍提升、支持TopN、支持Excel及PowerBI等,另外,实验性的Streaming Cubing技术也随之发布。

变不可能为可能,Tachyon帮助Spark变小时级任务到秒

Tachyon作为一种内存分布式文件系统,可以存储任何文本格式或Parquet、Avro和Kryo等高效数据类型。我们还可以将结合进Snappy或LZO等压缩算法来减少对内存的占用。与Spark应用的集成非常简单,只需调用DataFrame和RDD的加载存储API并指定路径URL和Tachyon协议即可。

LinkedIn开源元数据管理工具WhereHows

Github地址: https://github.com/linkedin/WhereHows/wiki/Architecture

职业社交平台LinkedIn最近开源了元数据管理工具WhereHows(GitHub),该工具可以帮企业员工发现和分享企业内部的元数据, LinkedIn部署了很多数据存储和处理系统,包括Teradata的数据仓库、开源的Hadoop分布式文件系统,开源的Hive数据仓库以及自己开发的开源试试分析软件Pinot。而WhereHows则能帮LinkedIn的员工检索和分享LinkedIn的HDFS系统中超过25000个共享数据集。在数据爆炸的今天,随时掌握企业内部有价值信息的情况(元数据)非常重要,这能大大提高企业员工的信息搜索和分享深度

KVM之父的新作ScyllaDB:用C++开发的Cassandra兼容列数据库,性能提升10倍

在ScyllaDB,我们仔细将底层知识用于大数据技术。所用的数据结构都不超过CPU的缓存行(cache line),使用轮询模式的驱动代替中断,磁盘存取针对写入放大做了测试,缓存应该是防扫描(scan-resistant)。我们对自己绕过了任务调度器和TCP/IP内核等工作非常自豪。我们还全力挖掘了C++14和gcc5.1的最新特性,力图将非易失随机访问内存商品化。

Splunk vs ELK:如何选择管理、查询log的工具

开发人员常常要选择工具,是买付费产品还是用免费开源的?本文虽对比付费的Splunk及免费的ElasticSearch(和它的好朋友们),但整个对比思考的过程值得借鉴到其他类别的工具的选择。

Airbnb使用净推荐值(NPS)预测用户再次预定率

开发人员常常要选择工具,是买付费产品还是用免费开源的?本文虽对比付费的Splunk及免费的ElasticSearch(和它的好朋友们),但整个对比思考的过程值得借鉴到其他类别的工具的选择。

文档型数据库CouchBase 4.5开发者预览版发布

日前,CouchBase官网正式对外发布了CouchBase 4.5 GA版本,这是具有重要里程碑式的改进,它具有高效的查询、先进的数据访问、强大的索引和更安全的管理。对于开发人员来说,这是一个改动很大的版本。

大数据案例

Netflix的EVCache缓存分布式复制架构

EVCache 是一个非常棒的数据缓存服务,能够专门为netflix的微服务架构提供低延迟 高可靠性的缓存解决方案。它是基于memcached的内存存储,专门为云计算优化,EVCache典型地适合对强一致性没有必须要求的场合,过去几年,EVCache已经扩展到可处理非常显著的大流量,同时它提供健壮的key-value编程接口,处理每秒三千万个请求,存储数十亿个对象,跨数千台memcached服务器。整个EVCache集群每天处理近2万亿个请求。

在Twitter“玩”数据科学是怎样一种体验

数据科学家的工作确实非常令人兴奋,那种忽然窥到天机的兴奋感堪比肾上腺素爆发。从零开始构建数据管道和机器学习模型会令你成就感满满,做A/B测试时,那种翻手为云覆手为雨的上帝姿态也非常有乐趣。数据科学家这条路有苦又累,沿途九九八十一难,但聪明努力的人会迅速克服的。

2015年度大数据应用经典案例Top100

在当前的互联网领域,企业已经成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各行各业。

数据可视化获奖作品精选 2015 Information is Beautiful Awards

“Information is Beautiful Awards”是为了鼓励和奖励在图表设计、数据、信息可视化方向上做出优秀表现的设计师和设计作品,至今已经举办了四届。今年,“Information is Beautiful Awards”除了团体项目类之外,更是延伸到了个人及学生项目,以此来鼓励更多领域的人参加。上篇的作品以设计为主,而在下篇中,我们则会为大家介绍更多优秀的制作软件。

缓存架构设计细节二三事

主要讨论“缓存与数据库”需求缘起;“淘汰缓存”还是“更新缓存”;缓存和数据库的操作时序;缓存和数据库架构简析

从人算到大数据算 北京开始用阿里云规划城市交通

目前,北京市城市规划设计研究院正在尝试用阿里云大数据平台数加,探索城市物流和交通规划的新模式。联合云康大数据工作室,北京市城市规划设计研究院正在基于数加平台搭建“物流鹰眼”系统,用大数据技术对货运车辆集散点分布进行研究。

EverString产品技术解读

一家卖数据的公司,利用大数据和人工智能技术,让机器去学习潜在落户特征,然后告诉下一个客户是谁,根据预估转化率为客户提供建议,并结合外部、内部数据相辅相成进行结合分析。

Palantir解读

用户知识图谱创建、管理、搜索、发现、挖掘、积累的可扩展的大数据分析平台

nice服务端架构重构与演进

nice 是一款图片社交 App,目标是让人们发现生活的美好。产品的核心体验是基于生活方式的社交。本文主要介绍了从旧系统到新服务端架构重构与演进的完整过程。

美团线上真实流量压测工具构建

本文主要介绍了美团构建线上压测工具的过程和经验。

缓存与数据库一致性保证

本文将讨论数据库和缓存中的数据不一致原因,解决思路和如何保证一致性三个核心的问题,干活满满。

Netflix数据管道的变化历程

去年12月Keystone数据管道正式投入使用,本文将介绍这些年Netflix数据管道的变化历程。

Twitter 首席工程师:如何“打败”CAP 定理

CAP定理是数据系统设计的基本理论,目前几乎所有的数据系统的设计都遵循了这个定理。但 CAP 定理给目前的数据系统带来了许多复杂的、不可控的问题,使得数据系统的设计越来越复杂。Twitter 首席工程师、Storm 的作者 Nathan Marz 在本文中通过避开 CAP 定理带来的诸多复杂问题,展示了一个不同于以往的数据系统设计方案,给我们的数据系统设计带来了全新的思路。

用Apache Spark进行大数据处理——第三部分:Spark流

在本文中,我们将会学习到如何使用Apache Spark中一个被称为Spark流的库进行实时数据分析。我们将会看到一个网络服务器日志分析用例,该用例会向我们展示Spark流是如何帮助我们对持续产生的数据流进行分析的

大数据如何改善我们周围的生存环境

大数据的潜力还没有被完全挖掘出来,这需要时间和不断的尝试才能发挥它最大的价值,更好的改善我们的日常生活环境。

基于Spark的异构分布式深度学习平台

本文介绍百度基于Spark的异构分布式深度学习系统,把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务逻辑间的数据通路问题。

58到家消息系统设计与开发实践

本文主要包括三个部分:消息平台产生的背景,它的整体架构和系统重点,以及遇到并解决了哪些问题。

一张图解AlphaGo原理及弱点

本文作者作为围棋爱好者和人工智能领域工作者阅读大量原文并收集了大量其他资料后,完成的一张图,解释了AlphaGo的原理,看完后大家自然知道其弱点在何处了。

我们如何使用Go打造了Uber QPS最高的服务

本文主要讲解使用GO语言构建Uber地理围栏查找服务,创造QPS超高纪录的过程。

欢迎一起交流大数据: map-di@baidu.com

BDI-大数据技术半月刊第1期

小编导读:
「地图大数据智能团队」依托地图海量数据资源,运用大数据仓库、大数据计算、大数据可视化等技术,提供智能化的大数据产品与服务,我们时刻关注大数据业界前沿动态与最新技术,倾情为大家推出大数据技术半月刊,本期主要精彩内容包含:
1.Hadoop,HBase,Spark,Flink等2015年度回顾总结及2016年展望。
2.Tachyon更名为 Alluxio,并发布1.0版本。
3.雅虎开源基于Hadoop/Spark分布式深度学习的CaffeOnSpark。
4.Apache Arrow内存列式的数据结构成为事实性标准。
5.谷歌大规模分布式跟踪系统Dapper介绍。

大数据业界

一张图清晰追溯数据库的发展历程

“数据库”起源于20世经90年代,当时美国为了战争的需要,把各种情报收集在一起,存储隐藏在计算机内,叫做Data Base(DB)。随着移动互联网的发展,至今已经形成了比较成熟的Apache hadoop, Apache Spark等完善生态。

The Apache Software Foundation Operations Summary: November 2015 - January 2016 : The Apache Software Foundation Blog

Apache官方对Apache基金会2015/11-2016/01期间的发展介绍。

Hadoop年度回顾与2016发展趋势

主要介绍了HDFS和YARN在2015年相关的发展动态,包括HDFS异构存储介质,Truncate操作的支持,异构数据块的支持及YARN基于标签的调度,对长服务的支持,对Docker的支持等。同时,展望2016年YARN在通用资源管理和调度方向发展。

Apache HBase 2015 年发展回顾与未来展望

在 2015 年,HBase 迎来了一个里程碑——HBase 1.0 release,这也代表着 HBase 走向了稳定。并提供了更加清晰的接口定义,新的接口与传统JDBC的逻辑更加相像;支持多个Region副本,Family粒度的Flush及RPC读写队列分离及堆外内存的使用等。

Spark 2015年回顾:四个大版本更迭、数以百计的改进

过去一年的时间里,发布了4个版本(Spark 1.3到Spark 1.6),各版本都添加了数以百计的改进,本文主要介绍了数据科学API、平台API、流计算等方面的改进和优化。

大数据盘点之Spark篇

介绍了Spark最新的特性以及功能,版本演化,具体介绍了在Hulu的实践经验分享。

Spark 2.0展望

Databricks CTO 马铁(Matei Zaharia)在 Spark Summit East 上做主题演讲,Spark的下一个版本将是2.0,这是该项目的一个较大的里程碑。在演讲中,他介绍了新版本将带来的一些重要特性,以及Spark在2016年的路线图。

大数据工具

一共81个,开源大数据处理工具汇总(上)

一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等

本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的同学做个参考。另外第二部分将整合大数据日志收集系统、消息系统、集群管理、基础设施、监控管理等开源工具。

Tachyon更名为 Alluxio,并发布1.0版本

近日,人气开源分布式内存文件系统Tachyon正式更名为Alluxio,并发布了1.0版本。自从Alluxio的第一个开源版本发布之后,我们社区的人数从1个迅速增加到200多个,这200多人来自50多个公司,这些公司将Alluxio部署到由成百上千机器构成的生产环境中。

Spark的下一代引擎-Project Tungsten启示录

ProjectTungsten是为了大幅提升Spark应用使用CPU和Memory的效率,让Spark的性能接近硬件的极限。

深入理解Apache Flink核心技术

Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解,同时熟悉流处理与批处理的基本概念。

回顾2015,总体而言Flink在功能方面已经从一个引擎发展成为最完整的开源流处理框架之一。与此同时,Flink社区也从一个相对较小,并且地理上集中的团队,成长为一个真正的全球性的大型社区,并在Apache软件基金会成为最大的大数据社区之一。

一些基于Kafka Connect的开源连接器

在Apache Kafka 0.9版本中,Kafka Connect特性被添加让Kafka可以建立可扩展和安全的流数据管道。

Druid:一个用于大数据实时处理的开源分布式系统

Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。

雅虎开源CaffeOnSpark:基于Hadoop/Spark的分布式深度学习

深度学习同学福音,雅虎认为,深度学习应该与现有的支持特征工程和传统(非深度)机器学习的数据处理管道在同一个集群中,创建CaffeOnSpark意在使得深度学习训练和测试能被嵌入到Spark应用程序。

中文版:Apache Arrow:内存列式的数据结构标准

英文版:Apache Arrow unifies in-memory Big Data systems

大数据领域又一新星,Apache Arrow项目为列式内存存储的处理和交互提供了规范。目前来自Apache Hadoop社区的开发者们致力于将它制定为大数据系统项目的事实性标准。

Apache Kudu 0.7.0 发布,Hadoop 存储系统

Apache Kudu 0.7.0 发布,该项目目前是Apache基金会的孵化项目,这也是加入Apache孵化器后的首个发布的版本。该版本包含众多的新特性和改进。高CPU效率,最大化先进处理器的效能;高IO性能,充分利用永久存储介质;对数据扫描(scan)和随机访问(random access)同时具有高性能。

Dapper:谷歌的大规模分布式跟踪系统

开发Dapper是为了收集更多的复杂分布式系统的行为信息,然后呈现给Google的开发者们。这样的分布式系统有一个特殊的好处,因为那些大规模的低端服务器,作为互联网服务的载体,是一个特殊的经济划算的平台。想要在这个上下文中理解分布式系统的行为,就需要监控那些横跨了不同的应用、不同的服务器之间的关联动作。

55种开源数据可视化工具简介

数据时代数据可视化成为理解和表达数据的有效甚至是唯一的手段。本文对55个流行的数据可视化工具开源协议,主页,文档,案例等资源的进行简单介绍。

大数据案例

扩展ElasticSearch:实现分片并可用于存储亿万文档的实践

在本文中,将会介绍ElasticSearch相关心得:如何在扩展ElasticSearch同时,保持为公司内部与外部的商业用户提供服务,让他们可以在SignalFx中继续搜索。

Spark GraphX原理介绍

GraphX是构建在Spark之上的图计算框架,它使用RDD来存储图数据,并提供了实用的图操作方法。

大型企业如何实现实时计算和流数据处理

对于大型企业来说,拥有着海量的数据,并且每秒中会产生大量的新数据,面对这种情况,利用大数据的实时计算来处理数据,就显得尤为重要了。对于金融行业,大量的交易账单数据,可以考虑使用实时计算。本文从头梳理一下实时计算、流式处理以及实时平台的架构和实现方案。

大型网站架构系列:消息队列

主要介绍JMS消息服务及一些常用消息中间件,主要分享JMS消息服务,常用消息中间件(Active MQ,Rabbit MQ,Zero MQ,Kafka)

如何用消息系统避免分布式事务

前阵子从支付宝转账1万块钱到余额宝,这是日常生活的一件普通小事,但作为互联网研发人员的职业病,我就思考支付宝扣除1万之后,如果系统挂掉怎么办,这时余额宝账户并没有增加1万,数据就会出现不一致状况了。

支付宝红包的高并发挑战及解决思路

本次分享系统地介绍红包对于2015年双11的准备工作,从容量评估、性能优化、稳定性保证方面解答上述问题的应对。 容量评估:基于全链路的压测手段、数据分布的模拟方法、关键场景调用量预估方法; 性能:拆分vs合并、读写分离、异步化、DB操作优化; 稳定性:削峰、降级和体验的权衡。

腾讯大数据平台纵览

腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户。特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,对于大数据分析和挖掘的重视程度高于以往任何时候,如何从大数据中获取高价值,已经成为大家关心的焦点问题。本文主要对腾讯各个业务线数据服务基于的底层大数据平台进行了详细介绍。

腾讯计费平台部分布式 MySQL 数据库 TDSQL 架构分析

腾讯计费平台部托管着公司90%以上的虚拟账户,如QB、Q点、包月服务、游戏的二级账户等,为了保证能顺畅支撑公司各大业务的实时在线交易,并且在各种灾难场景下数据是一致并且可用的,对系统的可用性、一致性切换要求非常高,因此计费团队历来都非常重视高一致性存储系统的建设。本文将分享最新的基于MySQL的分布式解决方案。

Hadoop YARN在hulu的成功实践

为了能够对集群中的资源进行统一管理和调度,Hadoop 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理成本。本文主要分享了Hadoop YARN在hulu的成功实践。

经典大数据架构案例:酷狗音乐的大数据平台重构(长文)

本文是酷狗音乐的架构师王劲对酷狗大数据架构重构的总结。酷狗音乐的大数据架构本身很经典,而这篇讲解了对原来的架构上进行重构的工作内容,总共分为重构的原因、新一代的大数据技术架构、踩过的坑、后续持续改进四个部分来给大家谈酷狗音乐大数据平台重构的过程。

日志系统之基于flume收集docker容器日志

日志收集的功能中加入了对docker容器日志的支持。这篇文章介绍了策略选择和处理方式。

专访阿里王峰:Hadoop生态下一代计算引擎-streaming和batch的统一

Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。本文讲解了hadoop生态在阿里的应用与个人的经验见解。

欢迎一起交流大数据: map-di@baidu.com