- 博客(40)
- 资源 (294)
- 论坛 (42)
- 收藏
- 关注
原创 盘点2019年晋升为Apache TLP以及进去Apache孵化器的大数据相关项目
今天是 2019年的最后一天了,明天就是新的一年,在这里预祝大家元旦快乐!也感谢大家过去一年对小编的支持!在过去两年,本博客盘点了当年晋升为 Apache TLP(Apache Top-...
2019-12-31 08:17:07
758
转载 基于 MySQL Binlog 的 Elasticsearch 数据同步实践
一、为什么要做随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。使用 Elasticsearch ...
2019-12-30 21:48:00
750
转载 为什么使用 MD5 存储密码非常危险
很多软件工程师都认为 MD5 是一种加密算法,然而这种观点其实是大错特错并且十分危险的,作为一个 1992 年第一次被公开的算法,到今天为止已经被发现了一些致命的漏洞,我们在生产环境的任...
2019-12-29 21:47:00
1212
3
转载 八种解决 Spark 数据倾斜的方法
一、什么是数据倾斜对 Spark/Hadoop 这样的分布式大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。对于分布式系统而言,理想情况下,随着系统规模(节点数量)的增加,应用整体耗...
2019-12-29 21:47:00
717
转载 我用九天时间,深挖一条闲鱼诈骗黑色产业链。
大家好,我是凌云。因为平常干的事比较特殊,所以我微信上加了挺多的警察,有时间会跟他们一块聊聊技术,分析一些案件。2019年12月15号,有个警察老哥跟我聊了聊二手平台诈骗的事,两天后...
2019-12-27 21:58:14
3382
4
原创 Apache Kafka 2.4 正式发布,重要功能详细介绍
2019年12月18日 Apache Kafka 2.4 正式发布了,这个版本有很多新功能,本文将介绍这个版本比较重要的功能,完整的更新可以参见 release notes。Kafka ...
2019-12-26 21:58:00
532
转载 抢票软件哪家强?实测告诉你答案
地球上最大的人口迁移:中国一年一度的春运高峰,马上就要开始了。2020 年春运将从 1 月 10 日开始,2 月 18 日结束,共计 40 天。春运回家时,最让人头疼的事情的就是抢火车票...
2019-12-26 21:58:00
492
1
原创 Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比
Delta Lake 是数砖公司在2017年10月推出来的一个项目,并于2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上开源的一个存储层。它是 Da...
2019-12-24 18:04:46
2489
转载 Spark ML的特征处理实战
一 、特征处理的意义通常情况下,我们得到的数据中包含脏数据或者噪声。在模型训练前,需要对这些数据进行预处理,否则再好的模型也只能“garbage in,garbage out”。数据预处...
2019-12-23 22:31:11
294
转载 计算机百科丨存储介质发展史
我们生活在一个信息爆炸的时代,据 IDC 预测 2020 年全球产生数据量将超过 40ZB,相当于地球上每个人每年将产生 5200GB 的数据。数据科普:存储单位换算表1 B(Byte ...
2019-12-22 21:21:10
1159
转载 一文读懂云计算:发展历程、概念技术与现状分析
掐指一算,云计算已经有了十年的历史,发展到今天几乎可以算是近十年最伟大的技术进步之一。「云计算」这个术语,也早已从一个新鲜词汇,成为了妇孺皆知的流行语。任何事物的诞生和发展一定有其前...
2019-12-21 22:35:59
2776
转载 那些所谓的“年初计划”,慢慢都变成了“年终笑话”!
很多人都制定年初计划,说明很多人都有想变好的期望!很多人的计划都泡汤了,说明懒惰是很多人共同的属性!时间过得好快,2019年接近尾声了。年初鸡血满满,准备新年大展宏图!年尾微微一笑,...
2019-12-21 22:35:59
142
转载 Kylin 迁移到 HBase 实践在小米的实践
背景 小米Kylin生产环境部署的是基于社区2.5.2修改的内部版本,所依赖HBase集群是一个公共集群,小米内部很多离线计算服务共享使用该HBase集群。由于Kylin已经...
2019-12-20 21:50:00
190
转载 面试突然问Java多线程原理,我哭了!
图片来自 Pexels谈到 Java 的多线程编程,一定绕不开线程的安全性,线程安全又包括原子性,可见性和有序性等特性。今天,我们就来看看他们之间的关联和实现原理。线程与竞态开发的应用程...
2019-12-20 21:50:00
128
转载 百度为什么要投资开源中国?
12月6日,开源中国最新获得百度战略投资。百度为什么投资开源中国?意义何在?其实不只是百度,科技巨头都在加紧建设开源生态。去年10月,GitHub收购案尘埃落定,微软以75亿美元价格将G...
2019-12-19 21:58:00
251
原创 60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践
Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里,用户和产品都得到了增长,使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台...
2019-12-19 21:58:00
233
转载 全面AI时代颠覆的第一个领域,必将是金融
“15年内,人工智能和自动化将具备取代40%-50%岗位的技术能力”,这是李开复在其新书《AI未来》发布会上的一句预测。你的工作会被人工智能取代吗?当我们第一次接触Siri的时候,这份焦...
2019-12-18 21:54:21
680
转载 360 千亿级数据量的 Kafka 深度实践
讲师介绍严锁鹏,奇虎360大数据架构运维专家,具有10年基础架构与大数据开发经验。2013年加入360商业化团队,负责消息中间件开发与运维,同时涉及大数据架构、微服务架构、实时计算平台、...
2019-12-18 21:54:21
276
转载 2019年字节跳动招聘算法岗,他们最看重哪些新技术能力?
【导读】合格的算法工程师真正应该具备什么技能?在面试时,面试官又会如何验证你具备这些新技能?毕业仅一年,相继拿下头条、阿里、腾讯等offer的本文作者,为你绘制了一幅面试技能雷达图。1◆...
2019-12-17 19:58:00
1441
转载 Apache Doris:基于 MPP 的交互式SQL数据仓库,可用于 OLAP
奇技指南近日,我们邀请到百度高级研发工程师李超勇前来360,分享百度开源数据库Apache Doris 的原理与实践。Apache Doris简介Doris(原百度 Palo)是一款基于...
2019-12-17 19:58:00
493
转载 Docker 核心技术与实现原理
提到虚拟化技术,我们首先想到的一定是 Docker,经过四年的快速发展 Docker 已经成为了很多公司的生产环境中大规模使用,也不再是一个只能在开发阶段使用的玩具了。作为在生产环境中广...
2019-12-16 21:58:00
152
原创 Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎
Delta Lake 0.5.0 于2019年12月13日正式发布,正式版本可以到 https://github.com/delta-io/delta/releases/tag/v0.5...
2019-12-15 21:55:00
732
转载 当小内存遇上大量数据,你该怎么解决这个问题?
作者丨Itamar Turner-Trauring译者丨夏夜策划丨万佳当你写了一个处理数据的软件,它可能在小样本文件上运行地很好,但一旦加载大量真实数据后,这个软件就会崩溃。问题在于你没...
2019-12-14 21:43:21
338
转载 互联网公司的裁员,能玩出多少种花样?
裁员,也是一门学问,可谓博大精深!以下,是互联网公司的裁员的多种方法:-正文开始-135岁+不予续签的理由:千禧一代网感更强。95后不予通过试用期的理由:已婚已育员工更有责任心。2通知...
2019-12-13 21:46:00
239
转载 从 Hive 大规模迁移作业到 Spark 在有赞的实践
作者:胡加华团队:大数据团队一、前言在 2019 年 1 月份的时候,我们发表过一篇博客 SparkSQL在有赞大数据的实践,里面讲述我们在 Spark 里所做的一些优化和任务迁移相关的...
2019-12-12 21:30:00
266
转载 百万级高并发MongoDB集群性能数十倍提升优化实践
1. 背景线上某集群峰值TPS超过100万/秒左右(主要为写流量,读流量很低),峰值tps几乎已经到达集群上限,同时平均时延也超过100ms,随着读写流量的进一步增加,时延抖动严重影响业...
2019-12-11 21:58:00
492
转载 我花了10个小时,写出了这篇K8S架构解析
图片来自 Pexels每个微服务通过 Docker 进行发布,随着业务的发展,系统中遍布着各种各样的容器。于是,容器的资源调度,部署运行,扩容缩容就是我们要面临的问题。基于 Kubern...
2019-12-09 21:32:10
253
转载 GitHub 长期被中国人“霸榜”?看完榜单我呆了...
你平常逛 GitHub 都会看什么?作为「技术行业观察者」的我,平时经常会逛 GitHub 找选题,最近我又在上面发现了很多宝藏...或者叫大宝箱...以下正文:随着 GItHub 在国...
2019-12-08 21:30:00
190
转载 Kylin 在 58 集团的实践和应用
△ Meetup 现场视频01平台优化目前在 58,用户可以通过两种方式来接入 Kylin 平台。一种是通过我们数据产品部开发的“魔方”接入,“魔方”是一个多维分析的 BI 平台。另一种...
2019-12-08 21:30:00
152
转载 “失败”的北漂十年,我真的尽力了。。。
献给所有飘在异乡的“我们”!在我离开北京的时候,我还依稀记得,十年前我对朋友说过的那句话:我一定要留在北京,因为那里有梦想。有时候我甚至想对着北京喊一句:去 TM 的北京,去 TM 的奋...
2019-12-07 21:58:00
208
转载 Spark SQL在携程的实践经验分享
本文根据张翼老师在2018年5月13日【第九届中国数据库技术大会】现场演讲内容整理而成。讲师简介:张翼,10年互联网老兵;2015年3月加入携程,携程的大数据平台技术总监,带领团队构建稳...
2019-12-06 21:57:00
122
转载 DataSphere Studio,打造一站式数据应用开发管理门户
“DataSphere Studio(简称DSS)是微众银行自研的一站式数据应用开发管理门户。基于插拔式的集成框架设计,及计算中间件Linkis,可轻松接入上层各种Web系统,让数据开...
2019-12-06 21:57:00
1517
转载 直男们是如何通过送礼物气死自己女朋友的?
我看过这么一句话,“80%的男生都找不出女朋友生气的原因,剩下的20%连生不生气都看不出来!”,夸张与否,暂且不说。至少表明,男女的思维的确存在着明显的差异。男女搭配,干活不累,那是工...
2019-12-05 21:48:00
356
原创 Apache Spark 中编写可伸缩代码的4个技巧
在本文中,我将分享一些关于如何编写可伸缩的 Apache Spark 代码的技巧。本文提供的示例代码实际上是基于我在现实世界中遇到的。因此,通过分享这些技巧,我希望能够帮助新手在不增加集...
2019-12-04 21:44:48
94
转载 谷歌创始人退位!印度籍 CEO 这是要“接管”美国科技圈?
Alphabet 和谷歌一直有两位 CEO 和一位总裁。直到今天(北京时间 12 月 4 日),其中的两位 ——46 岁的拉里·佩奇和谢尔盖·布林,正式向 47 岁的皮查伊交接大权。从...
2019-12-04 21:44:48
413
转载 ElasticSearch 亿级数据检索案例实战
一、前言数据平台已迭代三个版本,刚开始遇到很多常见的难题,终于有时间整理一些已完善的文档了,在此分享一下。希望能帮助大家少走些弯路,在此篇幅中偏重于ES的优化。关于HBase,Hadoo...
2019-12-03 21:17:29
624
转载 Flink Forward Asia 2019 总结和展望 - 附PPT下载
11 月 28 - 30 日,北京迎来了入冬以来的第一场雪,2019 Flink Forward Asia(FFA)也在初雪的召唤下顺利拉开帷幕。尽管天气寒冷,FFA 实际到会人次超过 ...
2019-12-03 21:17:29
508
转载 有赞数据中台建设实践
点击关注“有赞coder”获取更多技术干货哦~作者:贺飞团队:大数据团队概述究竟什么是中台, 业界并没有一个标准答案, 各个厂商都有自己的定义. 笔者比较认可的一个定义是 Thought...
2019-12-02 21:58:00
926
转载 这可能是介绍 ZooKeeper 最好的文章了
在 2006 年,Google 发表了一篇名为 The Chubby lock service for loosely-coupled distributed systems 的论文,其...
2019-12-01 21:57:38
158
转载 高以翔死因曝光!猝死前最后4分钟,他本还有一次活的机会...
“ 11 月 27 日,因电视剧《遇见王沥川》中“王沥川”一角而为人熟知的台湾演员高以翔,在宁波录制浙江卫视节目《追我吧》时发生意外,不幸“心源性猝死”,时年 35 岁。事发后,不少声音...
2019-12-01 21:57:38
3144
Delta Lake: HighPerformance ACID Table Storage over Cloud Object Stores
2020-08-24
QCon北京2018-《JVM问题定位典型案例分析》-李嘉鹏.pdf
2018-05-16
Windows GUI高级编程(C#编程篇) 英文版
2011-08-16
Learning Spark SQL
2018-04-23
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
CSDN博客提取器
2012-07-19
百度文库免积分下载器(绿色版)
2012-12-25
Lucene实战(第2版)中文版(免积分)
2013-08-05
SQL-DFS:一种基于HDFS 的海量小文件存储系统
2018-04-23
spark Streaming和structed streaming分析
2018-04-23
QCon北京2018-《Dubbo开源现状与未来规划》-罗毅.pdf
2018-05-15
HBase Procedure V2介绍
2018-08-13
Spark AI Summit Europe 2018 全部PPT
2018-10-13
Spark AI Summit Europe 2018 全部PPT - part1
2018-10-13
Apache Spark Shuffle I/O 在 Facebook 的优化
2018-12-10
从MPP数仓迁移至Spark:案例与最佳实践分享
2019-03-31
Flink社区专刊S2-重新定义计算
2019-04-11
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
Advanced Python for Biologists
2018-04-21
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
Hadoop in 24 Hours, Sams Teach Yourself
2017-04-12
Apache iceberg:Netflix 数据仓库的基石
2020-02-23
Qcon北京2018--《Apache+Pulsar--实时数据处理中消息+计算和存储的统一
2018-05-15
过往记忆的留言板
发表于 2020-01-02 最后回复 2020-01-02
java读取网页保存之后都是乱码
发表于 2012-07-28 最后回复 2019-09-26
有谁和我一样一直找不到CSDN的用户空间页面?
发表于 2014-10-09 最后回复 2017-07-02
C结构体、C++结构体 和 C++类的区别
发表于 2012-06-29 最后回复 2017-04-05
PD4ML处理中文的页面怎么处理乱码的问题?
发表于 2012-07-16 最后回复 2016-10-19
java中JTextField怎么设置只能输入一个数字?
发表于 2012-04-08 最后回复 2016-08-14
linux 里面编写c语言用什么软件好用啊?
发表于 2010-04-28 最后回复 2015-06-10
hibernate怎么查询具体一行数据
发表于 2010-05-31 最后回复 2013-07-18
访问自己配置的juddi出现异常
发表于 2013-03-01 最后回复 2013-03-01
安装Joomla!配置mysql数据库时候出错?
发表于 2013-01-06 最后回复 2013-01-06
【【已答复】【腾讯2013校招笔试试题】资源怎么莫名被删掉?求解释!
发表于 2012-12-16 最后回复 2012-12-18
linux里面运行最简单的c程序居然出现这种情况
发表于 2010-04-29 最后回复 2012-11-23
Java中两个模板类对象怎么共享一个容器?
发表于 2012-09-25 最后回复 2012-09-25
java程序访问一个网站次多了就被限制IP了怎么处理?
发表于 2012-08-10 最后回复 2012-08-13
两个很大的数据相加如何实现?
发表于 2012-08-07 最后回复 2012-08-08
下面的两段代码为什么输出不一样??
发表于 2012-08-05 最后回复 2012-08-07
URL相对地址以及绝对地址怎么区分?
发表于 2012-07-28 最后回复 2012-07-28
下面的程序哪有出错了?
发表于 2012-07-25 最后回复 2012-07-25
【已处理】资源不存在为什么还要扣除我们的积分?
发表于 2012-07-14 最后回复 2012-07-16
java创建文件失败
发表于 2012-07-09 最后回复 2012-07-09
怎么求一个给定数组连续区间数之和绝对值最大
发表于 2012-05-12 最后回复 2012-05-13
这个程序哪里有问题??
发表于 2012-05-12 最后回复 2012-05-12
哪里可以下载ANSI C标准库里面函数实现的代码?
发表于 2012-05-11 最后回复 2012-05-11
下面程序哪里有问题
发表于 2012-04-09 最后回复 2012-04-09
C++内存泄漏问题
发表于 2012-03-23 最后回复 2012-03-23
谁有jsp的视屏教程下载网站啊
发表于 2009-12-28 最后回复 2012-02-18
如何得到canvas面板上图片的坐标?
发表于 2011-02-21 最后回复 2011-02-21
Ubuntu中网页各种插件安装命令
发表于 2010-05-01 最后回复 2010-10-10
制作一个24点游戏的算法…………
发表于 2010-07-13 最后回复 2010-07-13
哪里有像javaeye里面的UBB下载啊?
发表于 2010-05-01 最后回复 2010-07-13
懂制作网站的请进
发表于 2010-07-09 最后回复 2010-07-13
是学java有前途还是学c++或者c有前途??
发表于 2010-06-13 最后回复 2010-06-17
考研到底需要报辅导班不?
发表于 2010-06-11 最后回复 2010-06-12
用java制作一个词法分析器?
发表于 2010-06-11 最后回复 2010-06-11
懂hibernate请进【外键出错】…
发表于 2010-05-04 最后回复 2010-05-10
求助下拉式列表框(Select)
发表于 2010-05-08 最后回复 2010-05-08
Hibernate 怎么在查询语句里面进行排序
发表于 2010-05-07 最后回复 2010-05-08
Tomcat常见错误代号
发表于 2009-12-25 最后回复 2010-04-28
java里面的mouseDown时间的用法
发表于 2010-03-15 最后回复 2010-03-15
知道scwcd考试的请进
发表于 2009-12-25 最后回复 2009-12-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝