小编导读:
「地图大数据智能团队」依托地图海量数据资源,运用大数据仓库、大数据计算、大数据可视化等技术,提供智能化的大数据产品与服务,我们时刻关注大数据业界前沿动态与最新技术,倾情为大家推出大数据技术半月刊,本期主要精彩内容包含:
1.QCon北京站2016大会将于4月21~23日北京国际会议中心举办。
2.Google首席科学家及Facebook AI负责人深度学习PPT分享。
3.Apache Flink 1.0.0版本发布。
4.Docker推出Mac、Windows的Beta版。
5.谷歌开放语音识别API 发布机器学习云平台。
大数据业界
QCon北京站2016大会
QCon北京站2016大会特意设置了《大数据应用层层深入》专题,结合一线互联网公司微信,京东,LinkedIn等大数据应用,通过细致的剖析,包括场景,建模,结果应用,扩展等方面,帮助企业掌握找到数据应用切入点。
Google首席科学家韩国大学演讲:大规模深度学习
2016年3月7日,谷歌首席科学家,MapReduce、BigTable等系统的创造者,Jeff Dean受邀韩国大学,演讲主题《大规模深度学习》,这里部分来自highscalability的文字和笔者Youtube上的听录。
Facebook AI 负责人:深度学习技术趋势报告
Yann LeCun 是卷积神经网络的发明人,Facebook 人工智能研究院的负责人。下文的 150 张 PPT,是 LeCun 对深度学习领域的全面而细致的思考。LeCun 非常坚定看好无监督学习,认为无监督学习是能够提供足够信息去训练数以十亿计的神经网络的唯一学习形式
Docker推出Mac、Windows的Beta版
近日,Docker公司宣布启动一项Docker for Mac和Docker for Windows有限Beta测试计划。
全球难度最大的AI竞赛 对冲基金“宽客”夺魁
尽管基金的交易台和医生的手术台完全扯不上关系,但两位对冲基金出身的“宽客”却合力研发出一种通过核磁共振(MRI)图像来诊断心脏疾病的程序,使其在全球最难的人工智能竞赛中力压近千只队伍最终夺魁。
从数据仓库到大数据,数据平台这25年是怎样进化的?
从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识、架构模式的演进与变革。数据平台这25年究竟是怎样进化的?看完本文你讲受益匪浅。
深度 | 资深架构师教你一篇文看懂Hadoop
现在Hadoop俨然已经成为企业数据平台的“新常态”。我们很荣幸能够见证Hadoop十年从无到有,再到称王。在我们感动于技术的日新月异时,希望能通过本文能为Hadoop的昨天、今天和明天做出一点自己的解读,算是为Hadoop庆祝10岁生日献上的礼物。
百度大数据实验室发布人群预测技术
聚合用户对百度地图查询数据,可以预测未来特定的时间和区域内的人数。对百度地图数据仔细分析和深入的调查还证明地图查询的数量和在一个区域定位的用户数之间有很强的相关关系。
微软人工智能聊天机器人Tay曝光:或亮相Build2016
微软在人工智能领域被人们知晓的有微软小娜)、小冰,属于智能语音助理。此前人机围棋大战中,谷歌AlphaGo大胜李世石,AI(人工智能)话题再次被引爆,Build2016即将带来,微软在AI方面会有哪些进展呢?
谷歌开放语音识别的API
谷歌在Next云计算大会上发布了面向开发者的新机器学习平台,并开放语音识别的API(应用程序编程接口),谷歌机器学习负责人杰夫·迪恩随后介绍称,随着近年来机器学习技术的逐渐成熟,谷歌正加快步伐在主要平台部署机器学习技术
大数据工具
Apache Flink 1.0.0版本发布
Apache Flink 1.0.0版近日发布了。Flink是分布式流和数据批处理的平台。1.0.0发布版本保证了与以后的1.x.x版本的后向兼容性。由64个贡献者提交的450个JIRA问题,都在这个版本中被修复了。除了修复故障,这个版本还有许多面向用户的新特性。
Flink on YARN部署快速入门指南
pache Flink是一个高效、分布式、基于Java和Scala实现的通用大数据分析引擎,它具有分布式 MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。从Flink官方文档可以知道,目前Flink支持三大部署模式:Local、Cluster以及Cloud
Apache Spark和Apache Flink,如何选择?
近日,MapR Technologies产品经理Balaji Mohanam在公司内部的白板演示中比较了Apache Spark和Apache Flink的不同之处,用户可以参考这种比较做出选择。
图形数据库 Neo4J 简介
在本文中,我们就将对业界非常流行的图形数据库Neo4J进行简单的介绍。
Apache Storm内部原理分析
本文是对Storm应用和学习的一个总结,由于不太懂Clojure语言,作者参考了官网、很多优秀的文章,以及《Storm Applied: Strategies for real-time event processing》这本书,以及结合自己使用Storm的经历,希望对于想深入一点了解Storm原理的朋友能有所帮助,
Kafka数据流:让流处理更轻松(上)
Kafka数据流:让流处理更轻松(中)
Apache Kafka的一项新功能预览叫Kafka Streams。Kafka Streams是一个使用Apache Kafka用于构建分布流处理应用的Java库。
基于Locust、Tsung的百万并发秒杀压测
此次实验设立的目标是在物理资源最小值的情况下完成 100 万并发处理,通过此次实验,最大化验证了基于 Mesos 和 Docker 技术的数人云 DCOS (数据中心操作系统)承载高压的能力。
Flume-NG源码分析-整体结构及配置载入分析
从源码角度对Flume进行了基础分析。
Spark和HBase上的推荐系统
介绍了Spark和HBase上的推荐系统。
大道至简的数据治理方法论
数据治理是一项基础工作,在很多人眼中是一项苦活儿累活儿,但是越是这样的工作越是不能忽视,基础打扎实了,上层建筑才会更稳固。数据分析师的角色犹如一位大厨,原料有问题,大厨肯定烹饪不出色香味俱佳的大菜,数据有问题,数据分析师得出的结论自然也就不可靠。
大数据案例
如何建立完整可用的安全大数据平台
要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外,没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患
腾讯云分析 一款态度低调功能奢华的移动大数据分析产品
本文为大家介绍腾讯在移动大数据方面的一款专业的移动应用统计分析工具——腾讯云分析。为移动开发者提供多种精准的数据统计分析,帮助开发者优化产品策略,延长生命周期用户行为的工具。
惊艳全球数据行业的16个数据可视化例子
数据可视化可以是静态的或交互的。几个世纪以来,人们一直在使用静态数据可视化,如图表和地图。交互式的数据可视化则相对更为先进:人们能够使用电脑和移动设备深入到这些图表和图形的具体细节,然后用交互的方式改变他们看到的数据及数据的处理方式
阿法狗是如何工作的?卡内基梅隆大学博士用54页PPT给你答案
为了让大家从另外一面了解AlphaGo,Computer Science排名第一的卡内基梅隆大学的博士研究生 Shane Moon做了一次演讲,他就读于卡内基梅隆大学著名的语言技术研究所,纯干货讲稿PPT奉上。
LB 负载均衡的层次结构
对于互联网应用,在你的应用和用户之间还隔着一层低调的或厚或薄的负载均衡层软件,它们不显山不露水默默的发挥着重要的作用,以至于我们经常忽略了它们的存在。因为负载均衡层通常不在一般开发人员的问题域内,而且它们一般都是现成且成熟的解决方案,以至于我们习惯性的忽略和认为乏善可陈。
图像高斯模糊算法的原理及实现
如果经常使用Photoshop等修图软件,那么对高斯模糊滤镜肯定不会陌生,通过调整模糊半径,图像会变得模糊,半径越大越模糊,这篇文章将会讲解高斯模糊算法的原理以及其Java实现。
微博基于Docker的混合云平台设计与实践
2014 年底构建了第一版基于 Docker 的运维平台,并在元旦,春节,红包飞等大型活动中得到了考验。但是要想更好的应对微博的这种业务场景,系统局限性还很多,比如设备申请慢,业务负载饱和度不一,扩缩容流程繁琐且时间长,基于此出发点,2015 年技术团队设计与实现了一套基于 Docker 的混合云平台 DCP。
Redis 时延问题分析及应对
Redis的事件循环在一个线程中处理,作为一个单线程程序,重要的是要保证事件处理的时延短,这样,事件循环中的后续任务才不会阻塞;当redis的数据量达到一定级别后(比如20G),阻塞操作对性能的影响尤为严重;
苏宁易购亿万级商品评价系统的架构演进之路和实现细节
苏宁易购评价系统跟随着易购商城的业务发展,经历了从Commerce系统拆分再到系统全面重构的整个历程。如何满足系统流量的日益增长,在提升系统性能和满足稳定性和可扩展性的要求的同时,向目标系统架构一步步平滑靠近,成为系统面临的最大挑战。
Uber的大数据分析实践,及其惊人的表现
2009年发布时仅覆盖旧金山一地,到了现在,除了南极洲之外,已覆盖所有大陆的许多主要城市。这家公司深深地扎根于大数据,对数据的运用远比传统出租车公司要更高效,而这正是促使它成功的很大一部分原因。
Linux Shell 文本处理工具集锦
大数据较多时候用文本进行存储,因为如何高效的操作文本处理好数据是数据工程师基本技能之一。本文将介绍Linux下使用Shell处理文本时最常用的工具:find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk;提供的例子和参数都是最常用和最为实用的;
达观数据个性化推荐系统实践
面对“信息过载”,个性化推荐根据用户的历史行为数据进行深层兴趣点挖掘,将用户最感兴趣的物品推荐给用户,从而做到千人千面,不仅满足了用户本质的信息诉求,也最大化了企业的自身利益,所以个性化推荐蕴含着无限商机。
Airbnb的大数据平台架构
Airbnb成立于2008年8月,拥有世界一流的客户服务和日益增长的用户社区。随着Airbnb的业务日益复杂,其大数据平台数据量也迎来了爆炸式增长。
有赞搜索引擎实践(工程篇)
本文介绍了有赞搜索引擎的架构, 重点对索引创建机制, 高级搜索模块的功能做了阐述, 最后列举了几个常见的性能优化的场景。本文的主要目的是能够对搭建商用电商搜索引擎给读者一个一般性的建议.
mmTrix大数据分析平台构建实录
本文详细介绍了mmTrix大数据分析平台的基本架构构建过程,基于Hadoop的大数据分析平台逐步实现mmTrix APM后端数据的存储、分析、挖掘,同时随着业务的更迭也加速驱动数据的平台化。
欢迎一起交流大数据: map-di@baidu.com