自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 资源 (294)
  • 论坛 (42)
  • 收藏
  • 关注

原创 盘点2019年晋升为Apache TLP以及进去Apache孵化器的大数据相关项目

今天是 2019年的最后一天了,明天就是新的一年,在这里预祝大家元旦快乐!也感谢大家过去一年对小编的支持!在过去两年,本博客盘点了当年晋升为 Apache TLP(Apache Top-...

2019-12-31 08:17:07 758

转载 基于 MySQL Binlog 的 Elasticsearch 数据同步实践

一、为什么要做随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。使用 Elasticsearch ...

2019-12-30 21:48:00 750

转载 为什么使用 MD5 存储密码非常危险

很多软件工程师都认为 MD5 是一种加密算法,然而这种观点其实是大错特错并且十分危险的,作为一个 1992 年第一次被公开的算法,到今天为止已经被发现了一些致命的漏洞,我们在生产环境的任...

2019-12-29 21:47:00 1212 3

转载 八种解决 Spark 数据倾斜的方法

一、什么是数据倾斜对 Spark/Hadoop 这样的分布式大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。对于分布式系统而言,理想情况下,随着系统规模(节点数量)的增加,应用整体耗...

2019-12-29 21:47:00 717

转载 我用九天时间,深挖一条闲鱼诈骗黑色产业链。

大家好,我是凌云。因为平常干的事比较特殊,所以我微信上加了挺多的警察,有时间会跟他们一块聊聊技术,分析一些案件。2019年12月15号,有个警察老哥跟我聊了聊二手平台诈骗的事,两天后...

2019-12-27 21:58:14 3382 4

原创 Apache Kafka 2.4 正式发布,重要功能详细介绍

2019年12月18日 Apache Kafka 2.4 正式发布了,这个版本有很多新功能,本文将介绍这个版本比较重要的功能,完整的更新可以参见 release notes。Kafka ...

2019-12-26 21:58:00 532

转载 抢票软件哪家强?实测告诉你答案

地球上最大的人口迁移:中国一年一度的春运高峰,马上就要开始了。2020 年春运将从 1 月 10 日开始,2 月 18 日结束,共计 40 天。春运回家时,最让人头疼的事情的就是抢火车票...

2019-12-26 21:58:00 492 1

原创 Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 是数砖公司在2017年10月推出来的一个项目,并于2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上开源的一个存储层。它是 Da...

2019-12-24 18:04:46 2489

转载 Spark ML的特征处理实战

一 、特征处理的意义通常情况下,我们得到的数据中包含脏数据或者噪声。在模型训练前,需要对这些数据进行预处理,否则再好的模型也只能“garbage in,garbage out”。数据预处...

2019-12-23 22:31:11 294

转载 计算机百科丨存储介质发展史

我们生活在一个信息爆炸的时代,据 IDC 预测 2020 年全球产生数据量将超过 40ZB,相当于地球上每个人每年将产生 5200GB 的数据。数据科普:存储单位换算表1 B(Byte ...

2019-12-22 21:21:10 1159

转载 一文读懂云计算:发展历程、概念技术与现状分析

掐指一算,云计算已经有了十年的历史,发展到今天几乎可以算是近十年最伟大的技术进步之一。「云计算」这个术语,也早已从一个新鲜词汇,成为了妇孺皆知的流行语。任何事物的诞生和发展一定有其前...

2019-12-21 22:35:59 2776

转载 那些所谓的“年初计划”,慢慢都变成了“年终笑话”!

很多人都制定年初计划,说明很多人都有想变好的期望!很多人的计划都泡汤了,说明懒惰是很多人共同的属性!时间过得好快,2019年接近尾声了。年初鸡血满满,准备新年大展宏图!年尾微微一笑,...

2019-12-21 22:35:59 142

转载 Kylin 迁移到 HBase 实践在小米的实践

背景 小米Kylin生产环境部署的是基于社区2.5.2修改的内部版本,所依赖HBase集群是一个公共集群,小米内部很多离线计算服务共享使用该HBase集群。由于Kylin已经...

2019-12-20 21:50:00 190

转载 面试突然问Java多线程原理,我哭了!

图片来自 Pexels谈到 Java 的多线程编程,一定绕不开线程的安全性,线程安全又包括原子性,可见性和有序性等特性。今天,我们就来看看他们之间的关联和实现原理。线程与竞态开发的应用程...

2019-12-20 21:50:00 128

转载 百度为什么要投资开源中国?

12月6日,开源中国最新获得百度战略投资。百度为什么投资开源中国?意义何在?其实不只是百度,科技巨头都在加紧建设开源生态。去年10月,GitHub收购案尘埃落定,微软以75亿美元价格将G...

2019-12-19 21:58:00 251

原创 60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里,用户和产品都得到了增长,使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台...

2019-12-19 21:58:00 233

转载 全面AI时代颠覆的第一个领域,必将是金融

“15年内,人工智能和自动化将具备取代40%-50%岗位的技术能力”,这是李开复在其新书《AI未来》发布会上的一句预测。你的工作会被人工智能取代吗?当我们第一次接触Siri的时候,这份焦...

2019-12-18 21:54:21 680

转载 360 千亿级数据量的 Kafka 深度实践

讲师介绍严锁鹏,奇虎360大数据架构运维专家,具有10年基础架构与大数据开发经验。2013年加入360商业化团队,负责消息中间件开发与运维,同时涉及大数据架构、微服务架构、实时计算平台、...

2019-12-18 21:54:21 276

转载 2019年字节跳动招聘算法岗,他们最看重哪些新技术能力?

【导读】合格的算法工程师真正应该具备什么技能?在面试时,面试官又会如何验证你具备这些新技能?毕业仅一年,相继拿下头条、阿里、腾讯等offer的本文作者,为你绘制了一幅面试技能雷达图。1◆...

2019-12-17 19:58:00 1441

转载 Apache Doris:基于 MPP 的交互式SQL数据仓库,可用于 OLAP

奇技指南近日,我们邀请到百度高级研发工程师李超勇前来360,分享百度开源数据库Apache Doris 的原理与实践。Apache Doris简介Doris(原百度 Palo)是一款基于...

2019-12-17 19:58:00 493

转载 Docker 核心技术与实现原理

提到虚拟化技术,我们首先想到的一定是 Docker,经过四年的快速发展 Docker 已经成为了很多公司的生产环境中大规模使用,也不再是一个只能在开发阶段使用的玩具了。作为在生产环境中广...

2019-12-16 21:58:00 152

原创 Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎

Delta Lake 0.5.0 于2019年12月13日正式发布,正式版本可以到 https://github.com/delta-io/delta/releases/tag/v0.5...

2019-12-15 21:55:00 732

转载 当小内存遇上大量数据,你该怎么解决这个问题?

作者丨Itamar Turner-Trauring译者丨夏夜策划丨万佳当你写了一个处理数据的软件,它可能在小样本文件上运行地很好,但一旦加载大量真实数据后,这个软件就会崩溃。问题在于你没...

2019-12-14 21:43:21 338

转载 互联网公司的裁员,能玩出多少种花样?

裁员,也是一门学问,可谓博大精深!以下,是互联网公司的裁员的多种方法:-正文开始-135岁+不予续签的理由:千禧一代网感更强。95后不予通过试用期的理由:已婚已育员工更有责任心。2通知...

2019-12-13 21:46:00 239

转载 从 Hive 大规模迁移作业到 Spark 在有赞的实践

作者:胡加华团队:大数据团队一、前言在 2019 年 1 月份的时候,我们发表过一篇博客 SparkSQL在有赞大数据的实践,里面讲述我们在 Spark 里所做的一些优化和任务迁移相关的...

2019-12-12 21:30:00 266

转载 百万级高并发MongoDB集群性能数十倍提升优化实践

1. 背景线上某集群峰值TPS超过100万/秒左右(主要为写流量,读流量很低),峰值tps几乎已经到达集群上限,同时平均时延也超过100ms,随着读写流量的进一步增加,时延抖动严重影响业...

2019-12-11 21:58:00 492

转载 我花了10个小时,写出了这篇K8S架构解析

图片来自 Pexels每个微服务通过 Docker 进行发布,随着业务的发展,系统中遍布着各种各样的容器。于是,容器的资源调度,部署运行,扩容缩容就是我们要面临的问题。基于 Kubern...

2019-12-09 21:32:10 253

转载 GitHub 长期被中国人“霸榜”?看完榜单我呆了...

你平常逛 GitHub 都会看什么?作为「技术行业观察者」的我,平时经常会逛 GitHub 找选题,最近我又在上面发现了很多宝藏...或者叫大宝箱...以下正文:随着 GItHub 在国...

2019-12-08 21:30:00 190

转载 Kylin 在 58 集团的实践和应用

△ Meetup 现场视频01平台优化目前在 58,用户可以通过两种方式来接入 Kylin 平台。一种是通过我们数据产品部开发的“魔方”接入,“魔方”是一个多维分析的 BI 平台。另一种...

2019-12-08 21:30:00 152

转载 “失败”的北漂十年,我真的尽力了。。。

献给所有飘在异乡的“我们”!在我离开北京的时候,我还依稀记得,十年前我对朋友说过的那句话:我一定要留在北京,因为那里有梦想。有时候我甚至想对着北京喊一句:去 TM 的北京,去 TM 的奋...

2019-12-07 21:58:00 208

转载 Spark SQL在携程的实践经验分享

本文根据张翼老师在2018年5月13日【第九届中国数据库技术大会】现场演讲内容整理而成。讲师简介:张翼,10年互联网老兵;2015年3月加入携程,携程的大数据平台技术总监,带领团队构建稳...

2019-12-06 21:57:00 122

转载 DataSphere Studio,打造一站式数据应用开发管理门户

“DataSphere Studio(简称DSS)是微众银行自研的一站式数据应用开发管理门户。基于插拔式的集成框架设计,及计算中间件Linkis,可轻松接入上层各种Web系统,让数据开...

2019-12-06 21:57:00 1517

转载 直男们是如何通过送礼物气死自己女朋友的?

我看过这么一句话,“80%的男生都找不出女朋友生气的原因,剩下的20%连生不生气都看不出来!”,夸张与否,暂且不说。至少表明,男女的思维的确存在着明显的差异。男女搭配,干活不累,那是工...

2019-12-05 21:48:00 356

原创 Apache Spark 中编写可伸缩代码的4个技巧

在本文中,我将分享一些关于如何编写可伸缩的 Apache Spark 代码的技巧。本文提供的示例代码实际上是基于我在现实世界中遇到的。因此,通过分享这些技巧,我希望能够帮助新手在不增加集...

2019-12-04 21:44:48 94

转载 谷歌创始人退位!印度籍 CEO 这是要“接管”美国科技圈?

Alphabet 和谷歌一直有两位 CEO 和一位总裁。直到今天(北京时间 12 月 4 日),其中的两位 ——46 岁的拉里·佩奇和谢尔盖·布林,正式向 47 岁的皮查伊交接大权。从...

2019-12-04 21:44:48 413

转载 ElasticSearch 亿级数据检索案例实战

一、前言数据平台已迭代三个版本,刚开始遇到很多常见的难题,终于有时间整理一些已完善的文档了,在此分享一下。希望能帮助大家少走些弯路,在此篇幅中偏重于ES的优化。关于HBase,Hadoo...

2019-12-03 21:17:29 624

转载 Flink Forward Asia 2019 总结和展望 - 附PPT下载

11 月 28 - 30 日,北京迎来了入冬以来的第一场雪,2019 Flink Forward Asia(FFA)也在初雪的召唤下顺利拉开帷幕。尽管天气寒冷,FFA 实际到会人次超过 ...

2019-12-03 21:17:29 508

转载 有赞数据中台建设实践

点击关注“有赞coder”获取更多技术干货哦~作者:贺飞团队:大数据团队概述究竟什么是中台, 业界并没有一个标准答案, 各个厂商都有自己的定义. 笔者比较认可的一个定义是 Thought...

2019-12-02 21:58:00 926

转载 这可能是介绍 ZooKeeper 最好的文章了

在 2006 年,Google 发表了一篇名为 The Chubby lock service for loosely-coupled distributed systems 的论文,其...

2019-12-01 21:57:38 158

转载 高以翔死因曝光!猝死前最后4分钟,他本还有一次活的机会...

“ 11 月 27 日,因电视剧《遇见王沥川》中“王沥川”一角而为人熟知的台湾演员高以翔,在宁波录制浙江卫视节目《追我吧》时发生意外,不幸“心源性猝死”,时年 35 岁。事发后,不少声音...

2019-12-01 21:57:38 3144

Delta Lake: HighPerformance ACID Table Storage over Cloud Object Stores

Delta Lake: HighPerformance ACID Table Storage over Cloud Object Stores

2020-08-24

QCon北京2018-《JVM问题定位典型案例分析》-李嘉鹏.pdf

JVM体系很庞大,涉及的知识点非常多,对于平时工作繁忙的我们往往没有时间和精力去有系统有条理地学习和掌握所有的这些知识,我的一个比较好的途径是不断给大家解决一些JVM相关的问题,在解决问题过程中去填充JVM领域的一些空白,让JVM的知识图谱越来越连贯,通过这次分享我希望能介绍几个曾经碰到的有意思的JVM案例让大家更好地了解JVM里的一些原理。

2018-05-16

机器学习十大算法:kNN

机器学习十大算法:kNN 机器学习十大算法:kNN

2012-02-21

Windows GUI高级编程(C#编程篇) 英文版

本书以GUI编程为重点,详细介绍了.NET下的Windows编程技术。主要内容涉及使用或不使用Visual Studio.NET创建Windows应用程序、运用Windows Forms类和控件、高级的数据绑定、处理用户输入、使用GDI+绘图、打印和打印预览、创建自定义控件、NET中的多线程编程,以及部署Windows应用程序等。 本书适合于具有一定.NET和C#编程经验,但希望了解有关如何在Windows应用程序中使用新的开发技术的程序员。并且读者应有使用MFC或Visual编写Windows应用程序的

2011-08-16

Learning Spark SQL

Design, implement, and deliver successful streaming applications, machine learning pipelines and graph applications using Spark SQL API

2018-04-23

离散数学清华经典版本

离散数学清华经典版本耿素云等编著,很经典的。

2011-12-24

SPARK + AI SUMMIT 2019 全部 PPT

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山(San Francisco)进行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。作为大数据领域的顶级会议,Spark+AI Summit 2019 吸引了全球大量技术大咖参会,而且 Spark+AI Summit 越做越大,本次会议议题快接近200多个。详情:https://www.iteblog.com/archives/2431.html

2019-09-21

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域,Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎,另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据,单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署,因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果,介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。

2019-12-03

CSDN博客提取器

本程序用java编写,运行的时候需要JDK1.5或以上环境,无需安装。程序通过分析CSDN博客源码来生成一些必要的数据,可能在以后使用当中出现爬取不了的情况,可能是CSDN的源码结构修改了。程序只是用于学习之用,严禁用于非法目的而照成CSDN服务器过载。 由于生成PDF的时候需要依赖字库,所以在打包程序的时候把一些必要的字库已经放到程序中去了。可能在生成一些PDF文件的时候出现乱码问题,那是因为里面缺少需要的字库,如遇到这个问题,请和本人联系wyphao.2007@163com #################################################### 程序功能: 1、支持输入CSDN博客用户名针对性下载 2、支持选择保存下载的文件 保存的结构目录为: 选择的保存路径\CSDN用户名\img 该用户的头像保存路径 选择的保存路径\CSDN用户名\pdf 生成的PDF文件保存路径 选择的保存路径\CSDN用户名\doc 生成的DOC文件保存路径 选择的保存路径\CSDN用户名\txt 生成的TXT文件保存路径 3、支持获取用户博客信息 4、支持显示用户所有的帖子列表 5、可以自己选择需要下载的帖子,有全选、反选、重置按钮 6、支持下载的文件保存为 pdf、doc、txt三种格式 7、生成的pdf、doc文件支持图片 8、支持进度显示 #################################################### 制作时间:2012年07月17日 - 2012年07月18日 制 作:w397090770 个人博客:http://blog.csdn.net/w397090770 Email :wyphao.2007@163.com 版权所有,翻版不究 ####################################################

2012-07-19

浪漫烟花JAVA源代码.rar

这是一份浪漫烟花JAVA源代码,运行效果蛮好看的,

2009-06-03

完整的JSP网站图书管理系统源码

这是我在大学做课程设计时制作的图书馆管理系统全部的源码 里面包括本系统所要的所有jar包,还有建的表,上次上来给大家分享。

2010-05-01

关于运动会分数统计系统数据结构 课程设计实验报告

关于运动会分数统计系统 数据结构 课程设计实验报告,全部源代码下载

2010-01-03

计算机网络第五版教材

计算机网络第五版pdf教材高清版 谢希仁

2011-11-19

百度文库免积分下载器(绿色版)

本软件包含: 文档分类、文档搜索、文档预览、文档复制粘贴、文档下载保存5大功能.,可以免费下载百度文库中所有的文档,包括收费的和免费的!不需登录,不需要积分财富值,一切轻松下载。 1、百度文库下载器 采用 Microsoft Visual Studio 2010 C# 开发,性能好,速度快,需要 .Net Framework 4 支持. 2、如果你的电脑未安装 .Net Framework 4,就无法运行软件,因此,请先安装后再运行本软件。 3、.Net Framework 4 下载地址:http://www.microsoft.com/downloads/zh-cn/details.aspx?FamilyID=0A391ABD-25C1-4FC0-919F-B21F31AB88B7 支持下载原版文档,包括文档格式和PPT图片等等,实现了完美下载!目前是互联网上唯一能够免费下载百度文库真正的原版文档。 10.8版本,升级内容: 因为百度和360搜索大站,百度改版,导致本软件原搜索失效,现在已经修复。截图依旧采用8.0版本,软件已更新。

2012-12-25

Lucene实战(第2版)中文版(免积分)

Lucene实战(第2版) 《lucene实战(第2版)》基于apache的lucene3.0,从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene,包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容,最后还提供了三大经典成功案例,为读者展示了一个奇妙的搜索世界。   《lucene实战(第2版)》适合于已具有一定java编程基本的读者,以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战(第2版)》对于从事搜索引擎工作的工程技术人员,以及在java平台上进行各类软件开发的人员和编程爱好者,也具有很好的学习参考价值。

2013-08-05

Hadoop实战-陆嘉恒

Hadoop实战-陆嘉恒,书比较入门级,入门的人可以看看

2013-12-02

SQL-DFS:一种基于HDFS 的海量小文件存储系统

针对Hadoop 分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时NameNode 内存占用率高的问题,通过分析HDFS 基础架构,提出了基于元数据存储集群的SQL-DFS 文件系统. 通过在NameNode 中加入小文件处理模块实现了小文件元数据由NameNode 内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对NameNode 的请求次数;通过将部分DataNode 文件块的校验工作交由元数据存储集群完成,进一步降低了NameNode 节点的负载压力. 最终通过搭建HDFS 和SQL-DFS 实验平台,对HDFS 和SQL-DFS 2 种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS 架构,具有更好的小文件存储能力,可用于海量小文件的存储.

2018-04-23

spark Streaming和structed streaming分析

spark Streaming和structed streaming分析,理解整个 Spark Streaming 的模块划分和代码逻辑。

2018-04-23

QCon北京2018-《Dubbo开源现状与未来规划》-罗毅.pdf

Dubbo是阿里巴巴自研的分布式服务框架,自2012年开源以来,深得开发人员的喜爱,并被广泛的被友商用于服务化解决方案中。自去年阿里巴巴中间件团队宣布重新维护依赖,在社区引起极大的反响,目前在github上的star数增加至15000。本次分享,为大家带来我们近期在Dubbo上所完成的一些工作,对Dubbo 3.0的规划,以及对积极推动开源的一些思考。

2018-05-15

HBase Procedure V2介绍

主要介绍一下Procedure V2的设计和结构,以及为什么用Procedure V2能比较容易实现出正确的AssignmentManager。最后介绍一下最近在2.1分支上对一些Procedure实现修正和改进。

2018-08-13

Spark AI Summit Europe 2018 全部PPT

Spark AI Summit Europe 2018 全部PPT,如有更新请关注https://www.iteblog.com/archives/2432.html

2018-10-13

Spark AI Summit Europe 2018 全部PPT - part1

Spark AI Summit Europe 2018 全部PPT,如有更新请关注https://www.iteblog.com/archives/2432.html

2018-10-13

Apache Spark Shuffle I/O 在 Facebook 的优化

我们都知道,Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook,单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据;而且 shuffle reads 也是一种低效的操作,这会大大延长作业的整体执行时间,并且消耗大量的系统资源。 为了提高 shuffle 的性能并提高资源利用率,Facebook 开发了 Spark-optimized Shuffle (SOS) 。 这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了,作业整体的 I/O 提升了两倍,计算效率提高10%。值得高兴的是,这项技术 Facebook 打算共享给社区。 本地址是这项技术的视频介绍。关注Hadoop技术博文(iteblog_hadoop) 公众号并回复 sos 获取本文相关ppt及相关技术论文。

2018-12-10

从MPP数仓迁移至Spark:案例与最佳实践分享

本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中,我们遇到了很多的预料之外的问题,如字符集问题,数字进位问题,各种OOM等等,更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中,我们做了很多的实践,贡献给了社区很多的反馈,也解决了很多的bug。即便对于Spark当前不能处理的场景,比如recurisve query,也有了一些可行的探索。此外,我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中,我们会深入迁移的关键步骤,并分享踩过的一些坑,最后会介绍我们的自动化工具,如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。 下面是PPT原文:关注 Hadoop技术博文 并回复 ebay_spark 获取本文PPT。

2019-03-31

Flink社区专刊S2-重新定义计算

阿里巴巴最新一期Flink电子月刊《重新定义计算:Apache Flink 实践》正式发布,该月刊融合了 Apache Flink 在国内各大互联网公司的大规模实践和Flink Forward China峰会上的精彩演讲内容,希望对大家有所帮助。详情参考:https://mp.weixin.qq.com/s/HS9qoGTKzyd46VgjEpNiwg

2019-04-11

Apache Spark 3.0, Koalas, Delta Lake 最新进展

In this talk, we will highlight major efforts happening in the Spark ecosystem. In particular, we will dive into the details of adaptive and static query optimizations in Spark 3.0 to make Spark easier to use and faster to run. We will also demonstrate how new features in Koalas, an open source library that provides Pandas-like API on top of Spark, helps data scientists gain insights from their data quicker.

2019-10-28

Hadoop Beginner's Guide

Hadoop Beginner's Guide,很不错的入门书籍,不过是英文版的。

2014-03-27

Advanced Python for Biologists

Advanced Python for Biologists is a programming course for workers in biology and bioinformatics who want to develop their programming skills. It starts with the basic Python knowledge outlined in Python for Biologists and introduces advanced Python tools and techniques with biological examples. You’ll learn: – How to use object-oriented programming to model biological entities – How to write more robust code and programs by using Python’s exception system – How to test your code using the unit testing framework – How to transform data using Python’s comprehensions – How to write flexible functions and applications using functional programming – How to use Python’s iteration framework to extend your own object and functions Advanced Python for Biologists is written with an emphasis on practical problem-solving and uses everyday biological examples throughout. Each section contains exercises along with solutions and detailed discussion.

2018-04-21

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

TiDB架构与开源之路,TiDB架构与开源之路,TiDB架构与开源之路

2018-05-16

Spark+AI Summit Europe 2019_iteblog.zip.001

由于文件过大,分成2个文件下载。解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展,以及在现实世界中部署人工智能的最佳实践。

2019-11-01

java课程设计之图书管理系统

java课程设计之图书管理系统,可以查找书名,添加,删除,连接SQL数据库的。

2009-07-20

数据库 课程设计实验报告 数据库的建立

数据库 课程设计实验报告 数据库的建立 数据库 课程设计实验报告 数据库的建立

2010-01-07

机器学习十大算法:Apriori

机器学习十大算法:Apriori.

2012-02-21

Hadoop in 24 Hours, Sams Teach Yourself

Apache Hadoop is the technology at the heart of the Big Data revolution, and Hadoop skills are in enormous demand. Now, in just 24 lessons of one hour or less, you can learn all the skills and techniques you'll need to deploy each key component of a Hadoop platform in your local environment or in the cloud, building a fully functional Hadoop cluster and using it with real programs and datasets. Each short, easy lesson builds on all that's come before, helping you master all of Hadoop's essentials, and extend it to meet your unique challenges. Apache Hadoop in 24 Hours, Sams Teach Yourself covers all this, and much more: Understanding Hadoop and the Hadoop Distributed File System (HDFS) Importing data into Hadoop, and process it there Mastering basic MapReduce Java programming, and using advanced MapReduce API concepts Making the most of Apache Pig and Apache Hive Implementing and administering YARN Taking advantage of the full Hadoop ecosystem Managing Hadoop clusters with Apache Ambari Working with the Hadoop User Environment (HUE) Scaling, securing, and troubleshooting Hadoop environments Integrating Hadoop into the enterprise Deploying Hadoop in the cloud Getting started with Apache Spark Step-by-step instructions walk you through common questions, issues, and tasks; Q-and-As, Quizzes, and Exercises build and test your knowledge; "Did You Know?" tips offer insider advice and shortcuts; and "Watch Out!" alerts help you avoid pitfalls. By the time you're finished, you'll be comfortable using Apache Hadoop to solve a wide spectrum of Big Data problems.

2017-04-12

Apache iceberg:Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。

2020-02-23

Qcon北京2018--《Apache+Pulsar--实时数据处理中消息+计算和存储的统一

实时数据处理在各个行业和领域中已经变得越来越关键。但是在实时数据栈中,Messaging,Computing和Storage三个部分的分离,给方案的实现带来了高复杂性,低可维护性,低效率等问题。 本次演讲将介绍Apache Pulsar,并展示Apache Pulsar怎样从这三个方面,提供一个端到端的实时数据解决方案。 Messaging:Pulsar对pub/sub和queue两种模式提供统一的支持,同时保证了一致性,高性能和易扩展性。 Computing:Pulsar内部的Pulsar-Functions提供了Stream-native的轻量级计算框架,保证了数据的即时流式处理。 Storage:Pulsar借助Apache BookKeeper提供了以segment为中心的存储架构,保证了存储的性能,持久性和弹性。 Apache Pulsar在2016年开源,是Streamlio,阿里巴巴,和滴滴出行等公司一同起草的全球消息领域标准OpenMessaging的重要成员。希望通过这次分享,能够为大家带来对Apache Pulsar及其生态系统有更好的理解,和对pub/sub消息系统,实时处理系统的更多的认识。

2018-05-15

K-Means算法C语言实现

这是我用C语言编写的数据挖掘里面的一个K-Means算法,里面有截图。

2011-12-02

机器学习十大算法:K-means

机器学习十大算法:K-means

2012-02-21

中国天气网城市代码

文件里面是中央天气全国地区的编码,有了这些编码我们就可以获取任何地区的天气,共程序开发人员使用。

2012-08-11

Hive学习资料

Hive学习资料,入门级别的,英文的,有14页,

2013-12-11

过往记忆的留言板

发表于 2020-01-02 最后回复 2020-01-02

java读取网页保存之后都是乱码

发表于 2012-07-28 最后回复 2019-09-26

有谁和我一样一直找不到CSDN的用户空间页面?

发表于 2014-10-09 最后回复 2017-07-02

C结构体、C++结构体 和 C++类的区别

发表于 2012-06-29 最后回复 2017-04-05

PD4ML处理中文的页面怎么处理乱码的问题?

发表于 2012-07-16 最后回复 2016-10-19

java中JTextField怎么设置只能输入一个数字?

发表于 2012-04-08 最后回复 2016-08-14

linux 里面编写c语言用什么软件好用啊?

发表于 2010-04-28 最后回复 2015-06-10

hibernate怎么查询具体一行数据

发表于 2010-05-31 最后回复 2013-07-18

访问自己配置的juddi出现异常

发表于 2013-03-01 最后回复 2013-03-01

安装Joomla!配置mysql数据库时候出错?

发表于 2013-01-06 最后回复 2013-01-06

【【已答复】【腾讯2013校招笔试试题】资源怎么莫名被删掉?求解释!

发表于 2012-12-16 最后回复 2012-12-18

linux里面运行最简单的c程序居然出现这种情况

发表于 2010-04-29 最后回复 2012-11-23

Java中两个模板类对象怎么共享一个容器?

发表于 2012-09-25 最后回复 2012-09-25

java程序访问一个网站次多了就被限制IP了怎么处理?

发表于 2012-08-10 最后回复 2012-08-13

两个很大的数据相加如何实现?

发表于 2012-08-07 最后回复 2012-08-08

下面的两段代码为什么输出不一样??

发表于 2012-08-05 最后回复 2012-08-07

URL相对地址以及绝对地址怎么区分?

发表于 2012-07-28 最后回复 2012-07-28

下面的程序哪有出错了?

发表于 2012-07-25 最后回复 2012-07-25

【已处理】资源不存在为什么还要扣除我们的积分?

发表于 2012-07-14 最后回复 2012-07-16

java创建文件失败

发表于 2012-07-09 最后回复 2012-07-09

怎么求一个给定数组连续区间数之和绝对值最大

发表于 2012-05-12 最后回复 2012-05-13

这个程序哪里有问题??

发表于 2012-05-12 最后回复 2012-05-12

哪里可以下载ANSI C标准库里面函数实现的代码?

发表于 2012-05-11 最后回复 2012-05-11

下面程序哪里有问题

发表于 2012-04-09 最后回复 2012-04-09

C++内存泄漏问题

发表于 2012-03-23 最后回复 2012-03-23

谁有jsp的视屏教程下载网站啊

发表于 2009-12-28 最后回复 2012-02-18

如何得到canvas面板上图片的坐标?

发表于 2011-02-21 最后回复 2011-02-21

Ubuntu中网页各种插件安装命令

发表于 2010-05-01 最后回复 2010-10-10

制作一个24点游戏的算法…………

发表于 2010-07-13 最后回复 2010-07-13

哪里有像javaeye里面的UBB下载啊?

发表于 2010-05-01 最后回复 2010-07-13

懂制作网站的请进

发表于 2010-07-09 最后回复 2010-07-13

是学java有前途还是学c++或者c有前途??

发表于 2010-06-13 最后回复 2010-06-17

考研到底需要报辅导班不?

发表于 2010-06-11 最后回复 2010-06-12

用java制作一个词法分析器?

发表于 2010-06-11 最后回复 2010-06-11

懂hibernate请进【外键出错】…

发表于 2010-05-04 最后回复 2010-05-10

求助下拉式列表框(Select)

发表于 2010-05-08 最后回复 2010-05-08

Hibernate 怎么在查询语句里面进行排序

发表于 2010-05-07 最后回复 2010-05-08

Tomcat常见错误代号

发表于 2009-12-25 最后回复 2010-04-28

java里面的mouseDown时间的用法

发表于 2010-03-15 最后回复 2010-03-15

知道scwcd考试的请进

发表于 2009-12-25 最后回复 2009-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除