- 博客(43)
- 资源 (294)
- 论坛 (42)
- 收藏
- 关注
原创 Twitter 如何将 Kafka 当做一个存储系统
前言当开发人员通过我们提供的 API 使用公开的 Twitter 数据时,他们需要可靠性、高效的性能以及稳定性。因此,在前一段时间,我们为 Account Activity API 启动...
2020-12-31 08:52:52
38
1
转载 PrestoSQL 项目更名为 Trino,彻底和 PrestoDB 分家
2020年12月27日,Martin Traverso、 Dain Sundstrom 以及 David Phillips 大佬们宣布将 PrestoSQL 项目的名字更名为 Trino...
2020-12-30 09:00:00
337
转载 ClickHouse在京东流量分析的应用实践
前言ClickHouse 是一款开源列式存储的分析型数据库,相较业界OLAP数据库系统,其最核心优势就是极致的查询性能。它实现了向量化执行和SIMD指令,对内存中的列式数据,一个batc...
2020-12-29 09:40:18
302
转载 还有多久 Flink 会取代 Spark?先看看 Flink 流批一体有多牛吧!
身为大数据工程师,你还在苦学Spark、Hadoop、Storm,却还没搞过Flink?醒醒吧!刚过去的2020双11,阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑”,基于...
2020-12-28 09:00:00
124
转载 携程 Redis 治理演进之路
作者简介本文为联合撰稿,作者团队包括:布莱德,携程技术专家;向晨,携程数据库专家;骋成,携程技术专家;小峰,携程高级软件工程师。一、背景携程Redis集群规模和数据规模在过去几年里快速...
2020-12-28 09:00:00
28
原创 Apache Kafka 2.7.0 稳定版发布,有哪些值得关心的变化?
Apache Kafka 2.7.0 于2020年12月21日正式发布,这个版本是目前 Kafka 最新稳定版本,大家可以根据需要自行决定是否需要升级到次版本,关于各个版本升级到 Apa...
2020-12-27 20:35:07
5481
3
转载 Flink Forward Asia 2020 -- Keynote 总结
作者:王峰(莫问)、梅源剩喜漫天飞玉蝶,不嫌幽谷阻黄莺。2020 年是不寻常的一年,Flink 也在这一年迎来了新纪元。12 月13 – 15 号,2020 Flink Forward...
2020-12-26 08:59:00
55
转载 详解分布式协调服务 ZooKeeper,再也不怕面试问这个了
ZooKeeper 是一个分布式协调服务,由 Apache 进行维护。ZooKeeper 可以视为一个高可用的文件系统。ZooKeeper 可以用于发布/订阅、负载均衡、命令服务、分布...
2020-12-25 09:04:37
57
转载 eBay 广告数据平台的 OLAP 系统演进实战
01背景eBay广告数据平台为eBay第一方广告主(使用Promoted Listing服务的卖家)提供了广告流量、用户行为和效果数据分析功能。广告卖家通过卖家中心(Seller Hu...
2020-12-24 08:52:00
47
转载 滴滴在HBase性能与可用性上的探索与实践
导读:HBase作为Hadoop生态中表现较为突出的分布式在线数据存储产品,在滴滴有着非常广泛的应用,但同样存在比较突出的短板问题——例如可用性较弱、毛刺严重等,一定程度上限制了它的业务...
2020-12-23 09:00:00
36
转载 想入行大数据领域,学习路线怎么规划?
自从“大数据”成为国民热词以来,想入行的人越来越多,不管是为了提高收入还是兴趣使然,只要是想学习新的知识,就必须有套系统的学习路线。本文整理了大数据领域入门必学的一些知识点,以及每个知识...
2020-12-23 09:00:00
78
1
转载 10小时,就能吃透Kafka源码?
在大数据时代飞速发展的当下,Kafka凭借着其高吞吐低延迟、高压缩性、持久性、可靠性、容错性以及高并发的优势,解决了“在巨大数据下进行准确收集并分析”的难题,也受到了不少大厂以及工程师的...
2020-12-22 09:00:00
63
转载 Presto 在有赞的实践之路
本文主要介绍了 Presto 的简单原理,以及 Presto 在有赞的实践之路。一、Presto 介绍Presto 是由 Facebook 开发的开源大数据分布式高性能 SQL 查询引擎...
2020-12-22 09:00:00
174
转载 Flink 还是 Spark?阿里技术专家一语道破真相!
身为大数据工程师,你还在苦学Spark、Hadoop、Storm,却还没搞过Flink?醒醒吧!刚过去的2020双11,阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑”,基于...
2020-12-21 09:00:00
114
转载 贝壳找房 OLAP 平台实践
Kylin 在贝壳的使用情况介绍Kylin从2017年开始作为贝壳公司级OLAP引擎对外提供服务,目前有100多台Kylin实例;有800多个Cube;有300多T的单副本存储;在贝壳 ...
2020-12-21 09:00:00
120
转载 Apache Flink 1.12.0 正式发布,真正的流批一体
Apache Flink 社区很荣幸地宣布 Flink 1.12.0 版本正式发布!近 300 位贡献者参与了 Flink 1.12.0 的开发,提交了超过 1000 多个修复或优化...
2020-12-20 21:07:00
784
转载 万亿级数据应该怎么迁移?
背景在星爷的《大话西游》中有一句非常出名的台词:“曾经有一份真挚的感情摆在我的面前我没有珍惜,等我失去的时候才追悔莫及,人间最痛苦的事莫过于此,如果上天能给我一次再来一次的机会,我会对哪...
2020-12-19 09:30:00
62
1
原创 Presto在车好多的实践
本文作者:车好多大数据OLAP团队-王培Presto 简介1.简介Presto 最初是由 Facebook 开发的一个分布式 SQL 执行引擎, 它被设计为用来专门进行高速、实时的数据分...
2020-12-18 08:22:00
4108
7
转载 推荐一个不发广告的大数据公众号
公众号无疑是最方便、最直接的获取内容的方式,奈何很多公众号为了生存,不得不接一些广告,虽说不发广告的时候,技术文章质量很高,但到底是影响阅读体验。现如今,还有没有一个纯净的、只发干货文章...
2020-12-18 08:22:00
42
1
转载 Clickhouse的实践之路
导读在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性...
2020-12-17 09:00:00
1170
1
转载 如何转行大数据方向?
经常有同学在后台留言问我,自己觉得大数据行业薪资很高,想往大数据方向发展,但不知道该学哪些知识,应该具备的技能树是啥样的。迷茫和焦虑都要溢出屏幕了……如果觉得薪资高就业好,想往大数据方向...
2020-12-16 09:00:00
76
转载 Spark SQL 查询 Parquet 文件的性能提升 30%,字节是如何做到的?
本文来自11月举办的Data + AI Summit 2020(原 Spark+AI Summit),主题为《Improving Spark SQL Performance by 3...
2020-12-16 09:00:00
128
转载 AI论文选得好,工资老婆都会好!
搞AI,在不断精进自己代码的同时,更应该提升自己的阅读能力。需要不断地阅读大量的最新、最前沿的论文,也要深扎经典论文根基。因为阅读论文可以帮助你深入原理,理解AI更前沿的发展状态,掌握更...
2020-12-15 09:00:00
19
转载 漫话docker的衰落与kubernetes的兴起
伴随着kubernetes 1.20中对于docker的弃用,关于docker的灭亡与kubernetes的兴起的话题再度热了起来。讨论中关于docker灭亡的观点我不敢苟同。docke...
2020-12-15 09:00:00
29
转载 58同城用户行为数仓建设及实践
背景随着58业务体系的不断建设与发展,数据分析与应用需求越来越丰富,给数据仓库的建设工作带来了很大的挑战。全站行为数据仓库建设过程中,我们总结的问题包括如下几点:(1) 数据体系架构已经...
2020-12-14 09:00:00
52
原创 物化列:字节为解决 Spark 嵌套列查询性能低下的优化
本文来自11月举办的Data + AI Summit 2020(原 Spark+AI Summit),主题为《Materialized Column- An Efficient Wa...
2020-12-13 21:18:30
67
转载 IntelliJ IDEA 2020.3 正式版发布,多项超酷新功能
2020年12月01日,IntelliJ IDEA 2020.3 正式发布,这是2020年的第三个里程碑版本本文主要介绍 IntelliJ IDEA 2020.3 的新功能。用户体验重新...
2020-12-12 21:04:00
1630
1
转载 Redis有啥可牛的?
如果你是一位后端工程师,面试时八成会被问到 Redis,特别是那些大型互联网公司,不仅要求面试者能简单使用 Redis,还要深入理解其底层实现原理,具备解决常见问题的能力。可以说,熟练使...
2020-12-11 09:17:28
59
转载 Spark-Redis入门到解决执行海量数据插入、查询作业时碰到的问题
Spark 是专为大规模数据处理而设计的快速通用的计算引擎,起源于UC Berkeley AMP lab的一个研究项目。相比传统的Hadoop(MapReduce) ,Spark的性能快...
2020-12-11 09:17:28
98
转载 恭喜!新一代分布式对象存储 Ozone 成为顶级项目
刚刚获悉,Apache基金董事会通过一致表决,正式批准分布式文件对象存储Ozone从Hadoop社区孵化成功,成为独立的Apache顶级开源项目。这意味着,作为腾讯大数据团队首个参与和主...
2020-12-10 09:07:00
157
转载 HDFS 下一代对象存储 Ozone 在腾讯的使用
背景介绍腾讯目前在HDFS上存储了海量的数据,但HDFS在可扩展性上的缺陷,以及对小文件的不友好,限制了HDFS在许多场景下的应用。为了寻找能解决这些问题的存储系统,Ozone走入了我们...
2020-12-09 09:01:22
167
转载 10PB 规模的 HDFS 数据在 eBay 的迁移实战
导读INTRODUCTIONHadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件上的分布式文件系统(Distributed File System)。本文将介绍eBay ...
2020-12-08 09:00:00
54
转载 你为什么总学不会设计模式?
设计模式对你来说,应该不陌生。在面试中,经常会被问到,在工作中也会用到。一些设计模式书籍,比如大名鼎鼎的GoF的《设计模式》、通俗易懂的《Head First设计模式》,估计你也都研读过...
2020-12-08 09:00:00
36
转载 京东EB级全域大数据平台的演进与治理历程
讲师介绍包勇军,目前在京东任职数据基础平台部、广告质量部、推荐研发部负责人,同时担任京东集团技术委员会委员、京东零售数据算法委员会会长。负责大数据平台基础架构的建设和产品开发、AI算法平...
2020-12-07 09:00:00
95
原创 Data + AI Summit 欧洲2020全部超清 PPT 下载
Data + AI Summit Europe 2020 原 Spark + AI Summit Europe 于2020年11月17日至19日举行。由于新冠疫情影响,本次会议和六月份举...
2020-12-06 21:11:57
114
转载 为什么全网都劝你不要学C++?
学C++能干什么?往细了说,后端、客户端、游戏引擎开发以及人工智能领域都需要它。往大了说,构成一个工程师核心能力的东西,都在C++里。跟面向对象型的语言相比,C++是一门非常考验技术想...
2020-12-06 21:11:57
85
转载 年底看机会,欢迎加入Java大数据招聘群!
欢迎加入群【Java-大数据招聘求职信息群】【已发布职位】加群请确认已关注公众号:Java与大数据架构在上面的公众号后台回复:666 获取进群方式(如群满,请加个人微信拉你进群:del...
2020-12-05 22:08:53
42
转载 基于 Flink+Iceberg 构建企业级实时数据湖
Apache Flink 是大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时,会碰撞出什么样的火花呢?本次...
2020-12-04 08:26:00
107
转载 分布式搜索引擎Elasticsearch的架构分析
一、写在前面ES(Elasticsearch下文统一称为ES)越来越多的企业在业务场景是使用ES存储自己的非结构化数据,例如电商业务实现商品站内搜索,数据指标分析,日志分析等,ES作为...
2020-12-03 09:00:00
59
Delta Lake: HighPerformance ACID Table Storage over Cloud Object Stores
2020-08-24
QCon北京2018-《JVM问题定位典型案例分析》-李嘉鹏.pdf
2018-05-16
Windows GUI高级编程(C#编程篇) 英文版
2011-08-16
Learning Spark SQL
2018-04-23
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
CSDN博客提取器
2012-07-19
百度文库免积分下载器(绿色版)
2012-12-25
Lucene实战(第2版)中文版(免积分)
2013-08-05
SQL-DFS:一种基于HDFS 的海量小文件存储系统
2018-04-23
spark Streaming和structed streaming分析
2018-04-23
QCon北京2018-《Dubbo开源现状与未来规划》-罗毅.pdf
2018-05-15
HBase Procedure V2介绍
2018-08-13
Spark AI Summit Europe 2018 全部PPT
2018-10-13
Spark AI Summit Europe 2018 全部PPT - part1
2018-10-13
Apache Spark Shuffle I/O 在 Facebook 的优化
2018-12-10
从MPP数仓迁移至Spark:案例与最佳实践分享
2019-03-31
Flink社区专刊S2-重新定义计算
2019-04-11
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
Advanced Python for Biologists
2018-04-21
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
Hadoop in 24 Hours, Sams Teach Yourself
2017-04-12
Apache iceberg:Netflix 数据仓库的基石
2020-02-23
Qcon北京2018--《Apache+Pulsar--实时数据处理中消息+计算和存储的统一
2018-05-15
过往记忆的留言板
发表于 2020-01-02 最后回复 2020-01-02
java读取网页保存之后都是乱码
发表于 2012-07-28 最后回复 2019-09-26
有谁和我一样一直找不到CSDN的用户空间页面?
发表于 2014-10-09 最后回复 2017-07-02
C结构体、C++结构体 和 C++类的区别
发表于 2012-06-29 最后回复 2017-04-05
PD4ML处理中文的页面怎么处理乱码的问题?
发表于 2012-07-16 最后回复 2016-10-19
java中JTextField怎么设置只能输入一个数字?
发表于 2012-04-08 最后回复 2016-08-14
linux 里面编写c语言用什么软件好用啊?
发表于 2010-04-28 最后回复 2015-06-10
hibernate怎么查询具体一行数据
发表于 2010-05-31 最后回复 2013-07-18
访问自己配置的juddi出现异常
发表于 2013-03-01 最后回复 2013-03-01
安装Joomla!配置mysql数据库时候出错?
发表于 2013-01-06 最后回复 2013-01-06
【【已答复】【腾讯2013校招笔试试题】资源怎么莫名被删掉?求解释!
发表于 2012-12-16 最后回复 2012-12-18
linux里面运行最简单的c程序居然出现这种情况
发表于 2010-04-29 最后回复 2012-11-23
Java中两个模板类对象怎么共享一个容器?
发表于 2012-09-25 最后回复 2012-09-25
java程序访问一个网站次多了就被限制IP了怎么处理?
发表于 2012-08-10 最后回复 2012-08-13
两个很大的数据相加如何实现?
发表于 2012-08-07 最后回复 2012-08-08
下面的两段代码为什么输出不一样??
发表于 2012-08-05 最后回复 2012-08-07
URL相对地址以及绝对地址怎么区分?
发表于 2012-07-28 最后回复 2012-07-28
下面的程序哪有出错了?
发表于 2012-07-25 最后回复 2012-07-25
【已处理】资源不存在为什么还要扣除我们的积分?
发表于 2012-07-14 最后回复 2012-07-16
java创建文件失败
发表于 2012-07-09 最后回复 2012-07-09
怎么求一个给定数组连续区间数之和绝对值最大
发表于 2012-05-12 最后回复 2012-05-13
这个程序哪里有问题??
发表于 2012-05-12 最后回复 2012-05-12
哪里可以下载ANSI C标准库里面函数实现的代码?
发表于 2012-05-11 最后回复 2012-05-11
下面程序哪里有问题
发表于 2012-04-09 最后回复 2012-04-09
C++内存泄漏问题
发表于 2012-03-23 最后回复 2012-03-23
谁有jsp的视屏教程下载网站啊
发表于 2009-12-28 最后回复 2012-02-18
如何得到canvas面板上图片的坐标?
发表于 2011-02-21 最后回复 2011-02-21
Ubuntu中网页各种插件安装命令
发表于 2010-05-01 最后回复 2010-10-10
制作一个24点游戏的算法…………
发表于 2010-07-13 最后回复 2010-07-13
哪里有像javaeye里面的UBB下载啊?
发表于 2010-05-01 最后回复 2010-07-13
懂制作网站的请进
发表于 2010-07-09 最后回复 2010-07-13
是学java有前途还是学c++或者c有前途??
发表于 2010-06-13 最后回复 2010-06-17
考研到底需要报辅导班不?
发表于 2010-06-11 最后回复 2010-06-12
用java制作一个词法分析器?
发表于 2010-06-11 最后回复 2010-06-11
懂hibernate请进【外键出错】…
发表于 2010-05-04 最后回复 2010-05-10
求助下拉式列表框(Select)
发表于 2010-05-08 最后回复 2010-05-08
Hibernate 怎么在查询语句里面进行排序
发表于 2010-05-07 最后回复 2010-05-08
Tomcat常见错误代号
发表于 2009-12-25 最后回复 2010-04-28
java里面的mouseDown时间的用法
发表于 2010-03-15 最后回复 2010-03-15
知道scwcd考试的请进
发表于 2009-12-25 最后回复 2009-12-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝