过往记忆大数据

私信 关注
过往记忆
码龄12年
  • 2,336,052
    被访问量
  • 217
    原创文章
  • 1,143
    作者排名
  • 3,554
    粉丝数量
  • 毕业院校 北京打酱油大学
  • 目前就职 北京打酱油有限公司
  • 于 2009-03-10 加入CSDN
获得成就
  • 博客专家认证
  • 获得1,099次点赞
  • 内容获得627次评论
  • 获得1,159次收藏
荣誉勋章
TA的专栏
  • 大数据
    2篇
  • Delta
    2篇
  • Hive的那些事
    11篇
  • Guava学习入门
    15篇
  • C Program
    43篇
  • Cplusplus Program
    32篇
  • Algorithms
    21篇
  • Data structs
    7篇
  • Linux Program
    15篇
  • Java Language
    35篇
  • SCJP Exam Notes
    3篇
  • Software Engineering
    4篇
  • Voronoi
    4篇
  • PostgreSQL
    2篇
  • Assembly Program
    1篇
  • J2ME
    1篇
  • LaTex
    2篇
  • Note
    5篇
  • gUAVA
    8篇
  • Hadoop
    17篇
  • Mapreduce
    4篇
  • hI
  • Hive
    15篇
  • 海量数据处理
    12篇
  • Flume
    3篇
  • Hbase
    1篇
  • Spark
    5篇
  • kafka
    2篇
  • zookeeper
    1篇
  • Cassandra
    2篇
欢迎关注过往记忆大数据公众号
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

查询时间降低60%!Apache Hudi 数据布局黑科技了解下

1. 背景Apache Hudi将流处理带到大数据,相比传统批处理效率高一个数量级,提供了更新鲜的数据。在数据湖/仓库中,需要在摄取速度和查询性能之间进行权衡,数据摄取通常更喜欢小文件以改...
转载
1阅读
0评论
0点赞
发布博客于 4 天前

甩 Spark 一条街!Flink State 架构设计深度剖析与项目实践

身为大数据工程师,你还在苦学Spark、Hadoop、Storm,却还没搞过Flink?醒醒吧!刚过去的2020双11,阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑”,基于F...
转载
43阅读
0评论
0点赞
发布博客于 3 天前

Impala 在网易有数 BI 应用场景的优化经验

本文总结了Impala在网易有数BI应用场景下的最新查询优化经验,并探讨后续进一步优化的思路。文章首先简述有数BI + Impala在网易云音乐等业务使用时遇到的挑战,再介绍进行有数查询优...
转载
68阅读
0评论
0点赞
发布博客于 5 天前

蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿

在使用Hadoop过程中,小文件是一种比较常见的挑战,如果不小心处理,可能会带来一系列的问题。HDFS是为了存储和处理大数据集(M以上)而开发的,大量小文件会导致Namenode内存利用率...
转载
76阅读
1评论
0点赞
发布博客于 5 天前

Redis 面试?这些知识点你应该要知道。

一、前言在互联网应用中,缓存成为高并发架构的关键组件。这篇博客主要介绍缓存使用的典型场景、实操案例分析、Redis使用规范及常规 Redis 监控。二、常见缓存对比常见的缓存方案,有本地缓...
转载
106阅读
0评论
0点赞
发布博客于 7 天前

为啥都劝 Java 程序员转行?

IT 行业的人可能听过“Java 大数据开发”这个名词,其实这并不是一个新岗位,而是因为大数据开发的编程语言以 Java 为主,掌握 Java 是进行大数据开发的基础,这才形成了“ Ja...
转载
133阅读
0评论
0点赞
发布博客于 7 天前

Apache Flink 背后公司 Ververica 的核心成员离职

2021年2月15日,Apache Flink 创建者、Ververica 公司(前身 DataArtisans)的联合创始人 Fabian Hueske 在 Twitter 宣布其已经从...
原创
75阅读
0评论
0点赞
发布博客于 10 天前

Spark 2.3 无缝升级到 3.0 在唯品会的实践

导读唯品会离线平台SPARK2.3.2无缝升级到SPARK3.0.1版本,完全做到了对用户透明,目前正按着既定方案进行升级,新的版本SPARK CORE/SQL/PySpark进行了优化和...
转载
79阅读
0评论
0点赞
发布博客于 11 天前

为什么 OLAP 引擎需要列式存储

新年的第一个工作日明天就开始了,祝大家开工大吉,前程似锦!ClickHouse 是最近比较热门的用于在线分析处理的(OLAP)[^1]数据存储,与我们常见的 MySQL、PostgreSQ...
转载
66阅读
0评论
1点赞
发布博客于 11 天前

自己设计的红包封面,送给你!

今晚赶时间做了一个专属红包封面,效果看下面的视频如果你觉得不错的话,可扫描下方视频号二维码,点击关注,并私信【过往记忆大数据红包封面】,我将随机抽取15位幸运关注者如果自己爱好设计,也可以...
原创
170阅读
0评论
0点赞
发布博客于 20 天前

Apache Flink 在快手的发展历程

摘要:本文由快手大数据架构团队负责人赵健博分享,主要介绍 Apache Flink 在快手的过去、现在和未来。内容包括:为什么选 FlinkFlink在快手的发展业务数据流技术创新未来计...
转载
209阅读
0评论
0点赞
发布博客于 20 天前

我用 MySQL 干掉了一摞简历

临近过年,疫情又趋于平稳,最近出来面试的人也多了起来,我们公司也在招人。我发现,不少候选人,对数据库的认知还处在比较基础的阶段,以为会写“增删改查”、做表关联就足够了,那些工作中经常出现的...
转载
124阅读
0评论
0点赞
发布博客于 22 天前

Apache Kylin 在 58 集团的实践与优化

查询响应时间P90 0.5s,700 个 Cube,122 个 Project,16000 多个 Segment,单副本的存储500T,日查询量20w,日输入量200 亿。从 16...
转载
214阅读
0评论
0点赞
发布博客于 22 天前

Docker 公司宣布把 Docker Distribution 捐献给 CNCF

2021年2月4日,负责维护 Docker 引擎的 JustinCormack 在 Docker 官方博客宣布把Docker 发行版(Docker Distribution)贡献给 C...
转载
87阅读
0评论
0点赞
发布博客于 22 天前

有赞 BI 平台设计及实现

作者:蒋羽中& 张俊英部门:数据中台一、概述1.1 背景有赞是一家SaaS公司,更是一家大数据公司。如何从海量数据中高效地挖掘数据的价值,并对数据进行可视化分析与展示,是我们亟待...
转载
218阅读
0评论
0点赞
发布博客于 22 天前

快手市值排互联网前五!推荐一个Java大数据公众号

以下为部分文章列表:(点击文字可访问文章)JavaJava日常开发的21个坑,你踩过几个?Java云服务开发知识学习Q&AJava AQS 核心数据结构-CLH 锁大数据2020大...
转载
121阅读
0评论
0点赞
发布博客于 23 天前

Apache Iceberg 0.11.0 正式版发布,与 Flink 深度集成

‍在 2021 年 1 月 27 日,Apache Iceberg 发布了0.11.0 版本[1]。在这个版本中,实现了以下核心功能:1、Apache Iceberg 在 Core AP...
转载
147阅读
0评论
0点赞
发布博客于 25 天前

10个月年终奖,网友表示想跳槽!

关于年终奖数额,50.24% 的职场人年终奖在 1 个月工资以内,而超过 13% 职场人年终奖超5个月工资,6.35% 职场人年终奖超 10 个月工资。(数据来源于陆金所、脉脉)此外,还...
转载
245阅读
0评论
0点赞
发布博客于 25 天前

Apache Spark 背后公司 Databricks 完成G轮融资,估值高达280亿美元,一年多翻了快五倍...

2021年2月1日, Databricks 在其博客宣布将投资10亿美元,以应对其统一数据平台(unified data platform)在全球的快速普及。本次融资由富兰克林·邓普顿(F...
原创
196阅读
0评论
0点赞
发布博客于 26 天前

Spark Skew Join 的原理及在 eBay 的优化

供稿 |eBayCarmelTeam作者 | 王刚编辑 | 顾欣怡本文5499字,预计阅读时间17分钟更多干货请关注“eBay技术荟”公众号导读Carmel是eBay内部基于Ap...
转载
81阅读
0评论
0点赞
发布博客于 27 天前

ClickHouse 在有赞的实践之路

作者:陈琦部门:数据中台一、ClickHouse 介绍ClickHouse 是一款由俄罗斯 Yandex 公司开发的 C++ 开源高性能 OLAP 组件。在 Yandex 内部, Cli...
转载
432阅读
1评论
2点赞
发布博客于 28 天前

终于有人把如何精通C++讲明白了!

编程初学者究竟应该怎么选择语言?仅仅因为“Java就业前景好?”、“Python实用性高?”一位在北京工作7年的程序员亲戚跟我聊起过:“并不是所有的程序员都吃青春饭,我身边有很多牛逼的资...
转载
100阅读
0评论
0点赞
发布博客于 28 天前

Flink SQL 在字节跳动的优化与实践

整理 |Aven (Flink 社区志愿者)摘要:本文由 Apache Flink Committer,字节跳动架构研发工程师李本超分享,以四个章节来介绍 Flink 在字节的应用实战...
转载
477阅读
0评论
0点赞
发布博客于 28 天前

滴滴使用 HDFS EC 节约大量存储的实践

桔妹导读:HDFS中默认的3副本方案在存储空间和其他资源(例如网络带宽)上有200%的开销。对于冷数据,使用纠删码(ErasureCoding,EC)存储代替副本存储是一种非常不错的替代...
转载
134阅读
0评论
0点赞
发布博客于 2 月前

终于有人把 Elasticsearch 原理讲透了!

搜索是软件工程师的一项必备技能。而 Elasticsearch 就是一款功能强大的开源分布式搜索与分析引擎,在同领域几乎没有竞争对手——近三年 DB-Engines 数据库评测中,ES ...
转载
101阅读
1评论
0点赞
发布博客于 2 月前

京东Spark自研Remote Shuffle Service在大促中的应用实践

前言本文讨论了京东Spark计算引擎研发团队关于自主研发并落地Remote Shuffle Service,助力京东大促场景的探索和实践。近年来,大数据技术在各行各业的应用越来越广泛,S...
转载
149阅读
0评论
0点赞
发布博客于 2 月前

Flink 助力美团数仓增量生产

摘要:本文由美团研究员、实时计算负责人鞠大升分享,主要介绍 Flink 助力美团数仓增量生产的应用实践。内容包括:数仓增量生产流式数据集成流式数据处理流式OLAP应用未来规划Tips...
转载
52阅读
0评论
0点赞
发布博客于 2 月前

霸榜 Github:又一款 OCR 神器面世!

导读OCR 方向的工程师,一定需要知道这个 OCR 开源项目:PaddleOCR短短几个月,累计 Star 数量已超过8.5K;频频登上Github Trending 日榜月榜;称...
转载
471阅读
0评论
0点赞
发布博客于 2 月前

Hive SQL 迁移到 Spark SQL 在滴滴的实践

桔妹导读:在滴滴SQL任务从Hive迁移到Spark后,Spark SQL任务占比提升至85%,任务运行时间节省40%,运行任务需要的计算资源节省21%,内存资源节省49%。在迁移过程中...
转载
200阅读
0评论
0点赞
发布博客于 2 月前

美团把 Kafka 作为应用层缓存的实践

Kafka在美团数据平台承担着统一的数据缓存和分发的角色,针对因PageCache互相污染,进而引发PageCache竞争导致实时作业被延迟作业影响的痛点,美团基于SSD自研了Kafka...
转载
94阅读
0评论
0点赞
发布博客于 2 月前

为什么说本地文件系统不适合作为分布式存储后端

本文要介绍的是 2019 年 SOSP 期刊中的论文 —— File Systems Unfit as Distributed Storage Backends: Lesson ...
转载
81阅读
0评论
1点赞
发布博客于 2 月前

AWS 开始反击 Elastic 公司:将要创建维护 Apache 2.0 协议的 ElasticSearch 分支

1月15日,ElasticSearch 创始人、Elastic 公司 CEO Shay Banon 宣布,将把 Elasticsearch 和 Kibana 的 Apache 2.0-l...
原创
128阅读
0评论
0点赞
发布博客于 2 月前

又一个大数据相关项目成为顶级项目

2021年01月21日,Apache 官方博客宣布 项目 Apache® Superset™ 成为顶级项目。Apache® Superset™ 是一个现代化的大数据探索和可视化平台,它允...
原创
118阅读
0评论
0点赞
发布博客于 2 月前

eBay 大数据平台的 HDFS 性能优化实践

导读HDFS作为大数据的底层存储系统,其性能处理效率关乎着大量与集群数据相关的计算任务的运行。HDFS的性能效率主要由其内部的核心服务NameNode所决定。此次eBay Hadoop ...
转载
46阅读
0评论
0点赞
发布博客于 2 月前

Apache Flink 在实时金融数据湖的应用

摘要:本文由中原银行大数据平台研发工程师白学余分享,主要介绍实时金融数据湖在中原银行的应用。主要内容包括:背景概况实时金融数据湖体系架构场景实践Tips:点击文末「阅读原文」即可下载作者...
转载
43阅读
0评论
0点赞
发布博客于 2 月前

知乎获赞5K+,大数据工程师进阶学习笔记!

最近有幸在一位字节跳动大数据高级工程师手里扒到了这份学习笔记,将部分知识章节发布到了在知乎上竟然获得了5000+点赞!今天就拿出来分享给大家,不管你是学生,还是已经步入职场的同行,希望你...
转载
52阅读
0评论
0点赞
发布博客于 2 月前

新一代数据仓库:Snowflake 弹性数仓介绍

本文来自大佬的投稿,作者:张剑。摘要我们生活在分布式计算的黄金时代。公有云平台几乎能够按需提供无限的计算和存储资源。同时,SaaS模型将企业级系统带给了无法负担成本和相关系统复杂性的用户...
原创
343阅读
0评论
0点赞
发布博客于 2 月前

大数据中台架构之道:揭秘 PaaS + DaaS +DA 全域中台架构设计!

你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策、技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难...
转载
81阅读
0评论
0点赞
发布博客于 2 月前

滴滴开源一站式 Kafka 监控和管控平台

桔妹导读: LogI-KafkaManager脱胎于滴滴内部多年的Kafka运营实践经验,是面向Kafka用户、Kafka运维人员打造的共享多租户Kafka云平台。专注于Kafka运维管...
转载
89阅读
0评论
1点赞
发布博客于 2 月前

重磅消息:Elastic 公司即将修改 ElasticSearch 的开源许可证,限制云服务商的使用...

1月15日,ElasticSearch 创始人、Elastic 公司 CEO Shay Banon 宣布,将把 Elasticsearch 和 Kibana 的 Apache 2.0-l...
原创
297阅读
0评论
0点赞
发布博客于 2 月前

KVell:新一代快速键值存储系统设计及实现

本文要介绍的是 2019 年 SOSP 期刊中的论文 —— KVell: the Design and Implementation of a Fast Persistent Key-V...
转载
37阅读
0评论
0点赞
发布博客于 2 月前

滴滴Flink-1.10升级之路

1.背景在本次升级之前,我们使用的主要版本为Flink-1.4.2,并且在社区版本上进行了一些增强,提供了StreamSQL和低阶API两种服务形式。现有集群规模达到了1500台物理...
转载
65阅读
0评论
0点赞
发布博客于 2 月前

连续三年蝉联第一,Flink 荣膺全球最活跃的 Apache 开源项目

2020年,一个注定会被历史铭记的一年。在全球化合作受到挑战的大环境下,作为全球最大的开源软件基金会,Apache 软件基金所引领的开源社区,依然汇聚了全球的顶尖开发人员,交出了一份鼓舞...
转载
31阅读
0评论
0点赞
发布博客于 2 月前

Apache Kylin 在汽车之家的实时多维分析演进与实践

近期,Apache Kylin 5 周年在线庆典顺利结束,来自汽车之家的实时计算平台负责人 邸星星 老师为大家介绍了 Apache Kylin 在汽车之家的升级历程,以及在实时多维分析方...
转载
35阅读
0评论
0点赞
发布博客于 2 月前

致ClickHouse用户的一封信

亲爱的ClickHouse用户:您好!感谢您在百忙之中抽出时间来阅读此信。虽然未曾谋面,但我们关注您已经有很长一段时间了。您的企业非常重视数据分析工作,想通过数据分析来提升运营效率,发现...
转载
79阅读
0评论
0点赞
发布博客于 2 月前

Apache Kylin 在 eBay 的实践

作者简介 Lisa Li,在 eBay 中国研发中心大数据平台部门担任研发主管。带领的团队主要负责 SQL on Hadoop 的方案,给使用 SQL 查询语言的数据分析师在开源的 Ha...
转载
35阅读
0评论
0点赞
发布博客于 2 月前

360 一站式大数据资源管理与开发平台

360系统部成立于2010年,负责整个集团的大数据底层基础平台建设(包括分布式存储、分布式计算、大数据搜索、图计算等各类大数据服务),目前服务于整个集团30+部门,1000+用户,服务器...
转载
77阅读
0评论
0点赞
发布博客于 2 月前

关于大数据中台被问最多的问题,今天一次性说清!

你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策、技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难...
转载
29阅读
0评论
0点赞
发布博客于 2 月前

快手大数据平台服务化实践

本文是围绕着快手的数据服务化中台进行介绍。第一部分是背景介绍,包括数据开发的痛点,第二部分是介绍大数据服务化平台,包括平台架构以及关键细节详解,第三部分是经验总结和未来思考。背景快手是一...
转载
93阅读
0评论
0点赞
发布博客于 2 月前

为什么 Linux 默认页大小是 4KB

我们都知道 Linux 会以页为单位管理内存,无论是将磁盘中的数据加载到内存中,还是将内存中的数据写回磁盘,操作系统都会以页面为单位进行操作,哪怕我们只向磁盘中写入一个字节的数据,我们也...
转载
47阅读
0评论
0点赞
发布博客于 2 月前

推荐一个Java大数据公众号

以下为部分文章列表:(点击文字可访问文章)JavaJava日常开发的21个坑,你踩过几个?Java云服务开发知识学习Q&A大数据2020大数据面试题真题总结(附答案)大数据快速入...
转载
39阅读
0评论
0点赞
发布博客于 2 月前

携程商旅用户画像系统设计实现

一、用户画像用户画像这一概念最早源于交互设计领域,由交互设计之父Alan Cooper提出。其指出用户画像是真实用户的虚拟代表,是建立在真实数据之上的目标用户模型。具体而言,在互联网用户...
转载
174阅读
0评论
0点赞
发布博客于 2 月前

图文理解 Spark 3.0 的动态分区裁剪优化

Spark 3.0 为我们带来了许多令人期待的特性。动态分区裁剪(dynamic partition pruning)就是其中之一。本文将通过图文的形式来带大家理解什么是动态分区裁剪。S...
原创
6852阅读
4评论
1点赞
发布博客于 2 月前

Delta Lake 提供纯 Scala\Java\Python 操作 API,和 Flink 整合更加容易

最近,Delta Lake 发布了一项新功能,也就是支持直接使用 Scala、Java 或者 Python 来查询 Delta Lake 里面的数据,这个是不需要通过 Spark 引擎来...
原创
66阅读
0评论
0点赞
发布博客于 2 月前

基于Flink构建实时数仓实践

导读随着公司用户增长业务快速发展,陆续孵化出 部落、同镇、C 端会员、游戏等非常多的业务板块。与此同时产品及运营对实时数据需求逐渐增多,帮助他们更快的做出决策,更好的进行产品迭代,实时数...
转载
286阅读
0评论
0点赞
发布博客于 2 月前

揭秘PB级大数据中台架构设计方案!OLTP、OLAP架构场景剖析

你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策、技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难...
转载
123阅读
0评论
0点赞
发布博客于 2 月前

大数据权限安全在滴滴的实践

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍在滴滴,数据是非常重要的资产,基于数据的数仓建设,数据分析、数据挖掘、数据科学等构建了滴滴的数据体系,支撑着滴滴的业务快速发展。在这个背景下,如何保障用户获...
转载
44阅读
0评论
0点赞
发布博客于 2 月前

盘点2020年晋升为Apache TLP的大数据相关项目

在过去一年有很多 Apache 孵化项目顺利毕业成顶级项目(Top-Level Project ,简称 TLP ),在这里我将给大家盘点 2020 年晋升为 Apache TLP 的大数...
原创
101阅读
0评论
0点赞
发布博客于 2 月前

Docker 被禁,K8S 救火!

作为一个Java架构师,做了多年的分布式系统,其实,真正关心的并不是服务器、交换机、负载均衡器、监控与部署这些事物,而是“服务”本身。直到Kubernetes的出现,很大程度上提升了软件...
转载
38阅读
0评论
0点赞
发布博客于 2 月前

Java 16 即将发布,你还能追上 Java 的更新速度吗?

当开发者深陷 Java 8 版本之际,这边下一版本 Java 16 有了最新的消息,与 Java 15 一样,作为短期版本,Oracle 仅提供 6 个月的支持。根据发布计划,JDK 1...
转载
734阅读
1评论
0点赞
发布博客于 2 月前

2020年度阅读数TOP 20文章汇总

在过去的2020年,过往记忆大数据公众号发布了300+技术文章,此处列举全年阅读数 TOP 20 的文章,再次分享给大家。•Apache Spark 3.0.0 正式版终于发布了,重要特...
转载
63阅读
0评论
0点赞
发布博客于 2 月前

Twitter 如何将 Kafka 当做一个存储系统

前言当开发人员通过我们提供的 API 使用公开的 Twitter 数据时,他们需要可靠性、高效的性能以及稳定性。因此,在前一段时间,我们为 Account Activity API 启动...
原创
38阅读
1评论
0点赞
发布博客于 2 月前

PrestoSQL 项目更名为 Trino,彻底和 PrestoDB 分家

2020年12月27日,Martin Traverso、 Dain Sundstrom 以及 David Phillips 大佬们宣布将 PrestoSQL 项目的名字更名为 Trino...
转载
337阅读
0评论
1点赞
发布博客于 2 月前

ClickHouse在京东流量分析的应用实践

前言ClickHouse 是一款开源列式存储的分析型数据库,相较业界OLAP数据库系统,其最核心优势就是极致的查询性能。它实现了向量化执行和SIMD指令,对内存中的列式数据,一个batc...
转载
302阅读
0评论
1点赞
发布博客于 2 月前

还有多久 Flink 会取代 Spark?先看看 Flink 流批一体有多牛吧!

身为大数据工程师,你还在苦学Spark、Hadoop、Storm,却还没搞过Flink?醒醒吧!刚过去的2020双11,阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑”,基于...
转载
124阅读
0评论
0点赞
发布博客于 2 月前

携程 Redis 治理演进之路

作者简介本文为联合撰稿,作者团队包括:布莱德,携程技术专家;向晨,携程数据库专家;骋成,携程技术专家;小峰,携程高级软件工程师。一、背景携程Redis集群规模和数据规模在过去几年里快速...
转载
28阅读
0评论
0点赞
发布博客于 2 月前

Apache Kafka 2.7.0 稳定版发布,有哪些值得关心的变化?

Apache Kafka 2.7.0 于2020年12月21日正式发布,这个版本是目前 Kafka 最新稳定版本,大家可以根据需要自行决定是否需要升级到次版本,关于各个版本升级到 Apa...
原创
5481阅读
3评论
1点赞
发布博客于 2 月前

Flink Forward Asia 2020 -- Keynote 总结

作者:王峰(莫问)、梅源剩喜漫天飞玉蝶,不嫌幽谷阻黄莺。2020 年是不寻常的一年,Flink 也在这一年迎来了新纪元。12 月13 – 15 号,2020 Flink Forward...
转载
55阅读
0评论
0点赞
发布博客于 2 月前

详解分布式协调服务 ZooKeeper,再也不怕面试问这个了

ZooKeeper 是一个分布式协调服务,由 Apache 进行维护。ZooKeeper 可以视为一个高可用的文件系统。ZooKeeper 可以用于发布/订阅、负载均衡、命令服务、分布...
转载
57阅读
0评论
0点赞
发布博客于 2 月前

eBay 广告数据平台的 OLAP 系统演进实战

01背景eBay广告数据平台为eBay第一方广告主(使用Promoted Listing服务的卖家)提供了广告流量、用户行为和效果数据分析功能。广告卖家通过卖家中心(Seller Hu...
转载
47阅读
0评论
0点赞
发布博客于 2 月前

最新大数据资料合集.pdf

下载方式:关注下方公众号,回复888
转载
71阅读
0评论
0点赞
发布博客于 2 月前

滴滴在HBase性能与可用性上的探索与实践

导读:HBase作为Hadoop生态中表现较为突出的分布式在线数据存储产品,在滴滴有着非常广泛的应用,但同样存在比较突出的短板问题——例如可用性较弱、毛刺严重等,一定程度上限制了它的业务...
转载
36阅读
0评论
0点赞
发布博客于 2 月前

想入行大数据领域,学习路线怎么规划?

自从“大数据”成为国民热词以来,想入行的人越来越多,不管是为了提高收入还是兴趣使然,只要是想学习新的知识,就必须有套系统的学习路线。本文整理了大数据领域入门必学的一些知识点,以及每个知识...
转载
78阅读
1评论
0点赞
发布博客于 2 月前

10小时,就能吃透Kafka源码?

在大数据时代飞速发展的当下,Kafka凭借着其高吞吐低延迟、高压缩性、持久性、可靠性、容错性以及高并发的优势,解决了“在巨大数据下进行准确收集并分析”的难题,也受到了不少大厂以及工程师的...
转载
63阅读
0评论
0点赞
发布博客于 2 月前

Presto 在有赞的实践之路

本文主要介绍了 Presto 的简单原理,以及 Presto 在有赞的实践之路。一、Presto 介绍Presto 是由 Facebook 开发的开源大数据分布式高性能 SQL 查询引擎...
转载
174阅读
0评论
0点赞
发布博客于 2 月前

Flink 还是 Spark?阿里技术专家一语道破真相!

身为大数据工程师,你还在苦学Spark、Hadoop、Storm,却还没搞过Flink?醒醒吧!刚过去的2020双11,阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑”,基于...
转载
114阅读
0评论
0点赞
发布博客于 2 月前

贝壳找房 OLAP 平台实践

Kylin 在贝壳的使用情况介绍Kylin从2017年开始作为贝壳公司级OLAP引擎对外提供服务,目前有100多台Kylin实例;有800多个Cube;有300多T的单副本存储;在贝壳 ...
转载
118阅读
0评论
0点赞
发布博客于 2 月前

Apache Flink 1.12.0 正式发布,真正的流批一体

‍‍Apache Flink 社区很荣幸地宣布 Flink 1.12.0 版本正式发布!近 300 位贡献者参与了 Flink 1.12.0 的开发,提交了超过 1000 多个修复或优化...
转载
784阅读
0评论
1点赞
发布博客于 2 月前

万亿级数据应该怎么迁移?

背景在星爷的《大话西游》中有一句非常出名的台词:“曾经有一份真挚的感情摆在我的面前我没有珍惜,等我失去的时候才追悔莫及,人间最痛苦的事莫过于此,如果上天能给我一次再来一次的机会,我会对哪...
转载
62阅读
1评论
0点赞
发布博客于 2 月前

Presto在车好多的实践

本文作者:车好多大数据OLAP团队-王培Presto 简介1.简介Presto 最初是由 Facebook 开发的一个分布式 SQL 执行引擎, 它被设计为用来专门进行高速、实时的数据分...
原创
4108阅读
7评论
1点赞
发布博客于 2 月前

推荐一个不发广告的大数据公众号

公众号无疑是最方便、最直接的获取内容的方式,奈何很多公众号为了生存,不得不接一些广告,虽说不发广告的时候,技术文章质量很高,但到底是影响阅读体验。现如今,还有没有一个纯净的、只发干货文章...
转载
42阅读
1评论
0点赞
发布博客于 2 月前

Clickhouse的实践之路

导读在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性...
转载
1169阅读
1评论
1点赞
发布博客于 2 月前

如何转行大数据方向?

经常有同学在后台留言问我,自己觉得大数据行业薪资很高,想往大数据方向发展,但不知道该学哪些知识,应该具备的技能树是啥样的。迷茫和焦虑都要溢出屏幕了……如果觉得薪资高就业好,想往大数据方向...
转载
76阅读
0评论
0点赞
发布博客于 2 月前

Spark SQL 查询 Parquet 文件的性能提升 30%,字节是如何做到的?

本文来自11月举办的Data + AI Summit 2020(原 Spark+AI Summit),主题为《Improving Spark SQL Performance by 3...
转载
123阅读
0评论
0点赞
发布博客于 2 月前

AI论文选得好,工资老婆都会好!

搞AI,在不断精进自己代码的同时,更应该提升自己的阅读能力。需要不断地阅读大量的最新、最前沿的论文,也要深扎经典论文根基。因为阅读论文可以帮助你深入原理,理解AI更前沿的发展状态,掌握更...
转载
19阅读
0评论
0点赞
发布博客于 2 月前

漫话docker的衰落与kubernetes的兴起

伴随着kubernetes 1.20中对于docker的弃用,关于docker的灭亡与kubernetes的兴起的话题再度热了起来。讨论中关于docker灭亡的观点我不敢苟同。docke...
转载
29阅读
0评论
0点赞
发布博客于 2 月前

58同城用户行为数仓建设及实践

背景随着58业务体系的不断建设与发展,数据分析与应用需求越来越丰富,给数据仓库的建设工作带来了很大的挑战。全站行为数据仓库建设过程中,我们总结的问题包括如下几点:(1) 数据体系架构已经...
转载
51阅读
0评论
0点赞
发布博客于 2 月前

物化列:字节为解决 Spark 嵌套列查询性能低下的优化

本文来自11月举办的Data + AI Summit 2020(原 Spark+AI Summit),主题为《Materialized Column- An Efficient Wa...
原创
67阅读
0评论
0点赞
发布博客于 2 月前

IntelliJ IDEA 2020.3 正式版发布,多项超酷新功能

2020年12月01日,IntelliJ IDEA 2020.3 正式发布,这是2020年的第三个里程碑版本本文主要介绍 IntelliJ IDEA 2020.3 的新功能。用户体验重新...
转载
1628阅读
1评论
0点赞
发布博客于 2 月前

Redis有啥可牛的?

如果你是一位后端工程师,面试时八成会被问到 Redis,特别是那些大型互联网公司,不仅要求面试者能简单使用 Redis,还要深入理解其底层实现原理,具备解决常见问题的能力。可以说,熟练使...
转载
59阅读
0评论
0点赞
发布博客于 2 月前

Spark-Redis入门到解决执行海量数据插入、查询作业时碰到的问题

Spark 是专为大规模数据处理而设计的快速通用的计算引擎,起源于UC Berkeley AMP lab的一个研究项目。相比传统的Hadoop(MapReduce) ,Spark的性能快...
转载
97阅读
0评论
0点赞
发布博客于 2 月前

恭喜!新一代分布式对象存储 Ozone 成为顶级项目

刚刚获悉,Apache基金董事会通过一致表决,正式批准分布式文件对象存储Ozone从Hadoop社区孵化成功,成为独立的Apache顶级开源项目。这意味着,作为腾讯大数据团队首个参与和主...
转载
157阅读
0评论
0点赞
发布博客于 2 月前

HDFS 下一代对象存储 Ozone 在腾讯的使用

背景介绍腾讯目前在HDFS上存储了海量的数据,但HDFS在可扩展性上的缺陷,以及对小文件的不友好,限制了HDFS在许多场景下的应用。为了寻找能解决这些问题的存储系统,Ozone走入了我们...
转载
167阅读
0评论
0点赞
发布博客于 2 月前

10PB 规模的 HDFS 数据在 eBay 的迁移实战

导读INTRODUCTIONHadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件上的分布式文件系统(Distributed File System)。本文将介绍eBay ...
转载
54阅读
0评论
0点赞
发布博客于 2 月前

你为什么总学不会设计模式?

设计模式对你来说,应该不陌生。在面试中,经常会被问到,在工作中也会用到。一些设计模式书籍,比如大名鼎鼎的GoF的《设计模式》、通俗易懂的《Head First设计模式》,估计你也都研读过...
转载
36阅读
0评论
0点赞
发布博客于 2 月前

京东EB级全域大数据平台的演进与治理历程

讲师介绍包勇军,目前在京东任职数据基础平台部、广告质量部、推荐研发部负责人,同时担任京东集团技术委员会委员、京东零售数据算法委员会会长。负责大数据平台基础架构的建设和产品开发、AI算法平...
转载
95阅读
0评论
1点赞
发布博客于 2 月前

Data + AI Summit 欧洲2020全部超清 PPT 下载

Data + AI Summit Europe 2020 原 Spark + AI Summit Europe 于2020年11月17日至19日举行。由于新冠疫情影响,本次会议和六月份举...
原创
114阅读
0评论
0点赞
发布博客于 2 月前

为什么全网都劝你不要学C++?

学C++能干什么?往细了说,后端、客户端、游戏引擎开发以及人工智能领域都需要它。往大了说,构成一个工程师核心能力的东西,都在C++里。跟面向对象型的语言相比,C++是一门非常考验技术想...
转载
85阅读
0评论
0点赞
发布博客于 2 月前

年底看机会,欢迎加入Java大数据招聘群!

欢迎加入群【Java-大数据招聘求职信息群】【已发布职位】加群请确认已关注公众号:Java与大数据架构在上面的公众号后台回复:666 获取进群方式(如群满,请加个人微信拉你进群:del...
转载
42阅读
0评论
0点赞
发布博客于 2 月前

基于 Flink+Iceberg 构建企业级实时数据湖

Apache Flink 是大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时,会碰撞出什么样的火花呢?本次...
转载
107阅读
0评论
0点赞
发布博客于 2 月前