自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 资源 (294)
  • 论坛 (42)
  • 收藏
  • 关注

转载 终于有人把如何精通C++讲明白了!

编程初学者究竟应该怎么选择语言?仅仅因为“Java就业前景好?”、“Python实用性高?”一位在北京工作7年的程序员亲戚跟我聊起过:“并不是所有的程序员都吃青春饭,我身边有很多牛逼的资...

2021-01-31 12:09:02 100

转载 Flink SQL 在字节跳动的优化与实践

整理 |Aven (Flink 社区志愿者)摘要:本文由 Apache Flink Committer,字节跳动架构研发工程师李本超分享,以四个章节来介绍 Flink 在字节的应用实战...

2021-01-31 12:09:02 479

转载 滴滴使用 HDFS EC 节约大量存储的实践

桔妹导读:HDFS中默认的3副本方案在存储空间和其他资源(例如网络带宽)上有200%的开销。对于冷数据,使用纠删码(ErasureCoding,EC)存储代替副本存储是一种非常不错的替代...

2021-01-29 08:30:00 134

转载 终于有人把 Elasticsearch 原理讲透了!

搜索是软件工程师的一项必备技能。而 Elasticsearch 就是一款功能强大的开源分布式搜索与分析引擎,在同领域几乎没有竞争对手——近三年 DB-Engines 数据库评测中,ES ...

2021-01-28 09:00:00 101 1

转载 京东Spark自研Remote Shuffle Service在大促中的应用实践

前言本文讨论了京东Spark计算引擎研发团队关于自主研发并落地Remote Shuffle Service,助力京东大促场景的探索和实践。近年来,大数据技术在各行各业的应用越来越广泛,S...

2021-01-28 09:00:00 149

转载 Flink 助力美团数仓增量生产

摘要:本文由美团研究员、实时计算负责人鞠大升分享,主要介绍 Flink 助力美团数仓增量生产的应用实践。内容包括:数仓增量生产流式数据集成流式数据处理流式OLAP应用未来规划Tips...

2021-01-27 09:00:00 52

转载 霸榜 Github:又一款 OCR 神器面世!

导读OCR 方向的工程师,一定需要知道这个 OCR 开源项目:PaddleOCR短短几个月,累计 Star 数量已超过8.5K;频频登上Github Trending 日榜月榜;称...

2021-01-26 09:00:00 471

转载 Hive SQL 迁移到 Spark SQL 在滴滴的实践

桔妹导读:在滴滴SQL任务从Hive迁移到Spark后,Spark SQL任务占比提升至85%,任务运行时间节省40%,运行任务需要的计算资源节省21%,内存资源节省49%。在迁移过程中...

2021-01-26 09:00:00 200

转载 美团把 Kafka 作为应用层缓存的实践

Kafka在美团数据平台承担着统一的数据缓存和分发的角色,针对因PageCache互相污染,进而引发PageCache竞争导致实时作业被延迟作业影响的痛点,美团基于SSD自研了Kafka...

2021-01-25 09:00:00 94

转载 为什么说本地文件系统不适合作为分布式存储后端

本文要介绍的是 2019 年 SOSP 期刊中的论文 —— File Systems Unfit as Distributed Storage Backends: Lesson ...

2021-01-24 21:36:00 83

原创 AWS 开始反击 Elastic 公司:将要创建维护 Apache 2.0 协议的 ElasticSearch 分支

1月15日,ElasticSearch 创始人、Elastic 公司 CEO Shay Banon 宣布,将把 Elasticsearch 和 Kibana 的 Apache 2.0-l...

2021-01-23 22:26:34 128

原创 又一个大数据相关项目成为顶级项目

2021年01月21日,Apache 官方博客宣布 项目 Apache® Superset™ 成为顶级项目。Apache® Superset™ 是一个现代化的大数据探索和可视化平台,它允...

2021-01-22 23:05:32 118

转载 eBay 大数据平台的 HDFS 性能优化实践

导读HDFS作为大数据的底层存储系统,其性能处理效率关乎着大量与集群数据相关的计算任务的运行。HDFS的性能效率主要由其内部的核心服务NameNode所决定。此次eBay Hadoop ...

2021-01-21 09:00:00 47

转载 Apache Flink 在实时金融数据湖的应用

摘要:本文由中原银行大数据平台研发工程师白学余分享,主要介绍实时金融数据湖在中原银行的应用。主要内容包括:背景概况实时金融数据湖体系架构场景实践Tips:点击文末「阅读原文」即可下载作者...

2021-01-20 09:00:00 43

转载 知乎获赞5K+,大数据工程师进阶学习笔记!

最近有幸在一位字节跳动大数据高级工程师手里扒到了这份学习笔记,将部分知识章节发布到了在知乎上竟然获得了5000+点赞!今天就拿出来分享给大家,不管你是学生,还是已经步入职场的同行,希望你...

2021-01-20 09:00:00 52

原创 新一代数据仓库:Snowflake 弹性数仓介绍

本文来自大佬的投稿,作者:张剑。摘要我们生活在分布式计算的黄金时代。公有云平台几乎能够按需提供无限的计算和存储资源。同时,SaaS模型将企业级系统带给了无法负担成本和相关系统复杂性的用户...

2021-01-19 09:00:00 344

转载 大数据中台架构之道:揭秘 PaaS + DaaS +DA 全域中台架构设计!

你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策、技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难...

2021-01-18 09:00:00 81

转载 滴滴开源一站式 Kafka 监控和管控平台

桔妹导读: LogI-KafkaManager脱胎于滴滴内部多年的Kafka运营实践经验,是面向Kafka用户、Kafka运维人员打造的共享多租户Kafka云平台。专注于Kafka运维管...

2021-01-18 09:00:00 89

原创 重磅消息:Elastic 公司即将修改 ElasticSearch 的开源许可证,限制云服务商的使用...

1月15日,ElasticSearch 创始人、Elastic 公司 CEO Shay Banon 宣布,将把 Elasticsearch 和 Kibana 的 Apache 2.0-l...

2021-01-17 20:39:00 297

转载 KVell:新一代快速键值存储系统设计及实现

本文要介绍的是 2019 年 SOSP 期刊中的论文 —— KVell: the Design and Implementation of a Fast Persistent Key-V...

2021-01-16 21:12:39 37

转载 滴滴Flink-1.10升级之路

1.背景在本次升级之前,我们使用的主要版本为Flink-1.4.2,并且在社区版本上进行了一些增强,提供了StreamSQL和低阶API两种服务形式。现有集群规模达到了1500台物理...

2021-01-15 09:11:04 65

转载 连续三年蝉联第一,Flink 荣膺全球最活跃的 Apache 开源项目

2020年,一个注定会被历史铭记的一年。在全球化合作受到挑战的大环境下,作为全球最大的开源软件基金会,Apache 软件基金所引领的开源社区,依然汇聚了全球的顶尖开发人员,交出了一份鼓舞...

2021-01-14 09:00:00 31

转载 Apache Kylin 在汽车之家的实时多维分析演进与实践

近期,Apache Kylin 5 周年在线庆典顺利结束,来自汽车之家的实时计算平台负责人 邸星星 老师为大家介绍了 Apache Kylin 在汽车之家的升级历程,以及在实时多维分析方...

2021-01-14 09:00:00 35

转载 致ClickHouse用户的一封信

亲爱的ClickHouse用户:您好!感谢您在百忙之中抽出时间来阅读此信。虽然未曾谋面,但我们关注您已经有很长一段时间了。您的企业非常重视数据分析工作,想通过数据分析来提升运营效率,发现...

2021-01-13 08:55:08 79

转载 Apache Kylin 在 eBay 的实践

作者简介 Lisa Li,在 eBay 中国研发中心大数据平台部门担任研发主管。带领的团队主要负责 SQL on Hadoop 的方案,给使用 SQL 查询语言的数据分析师在开源的 Ha...

2021-01-12 09:14:29 35

转载 360 一站式大数据资源管理与开发平台

360系统部成立于2010年,负责整个集团的大数据底层基础平台建设(包括分布式存储、分布式计算、大数据搜索、图计算等各类大数据服务),目前服务于整个集团30+部门,1000+用户,服务器...

2021-01-11 09:07:06 77

转载 关于大数据中台被问最多的问题,今天一次性说清!

你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策、技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难...

2021-01-11 09:07:06 29

转载 快手大数据平台服务化实践

本文是围绕着快手的数据服务化中台进行介绍。第一部分是背景介绍,包括数据开发的痛点,第二部分是介绍大数据服务化平台,包括平台架构以及关键细节详解,第三部分是经验总结和未来思考。背景快手是一...

2021-01-10 21:09:00 93

转载 为什么 Linux 默认页大小是 4KB

我们都知道 Linux 会以页为单位管理内存,无论是将磁盘中的数据加载到内存中,还是将内存中的数据写回磁盘,操作系统都会以页面为单位进行操作,哪怕我们只向磁盘中写入一个字节的数据,我们也...

2021-01-09 20:30:03 47

转载 推荐一个Java大数据公众号

以下为部分文章列表:(点击文字可访问文章)JavaJava日常开发的21个坑,你踩过几个?Java云服务开发知识学习Q&A大数据2020大数据面试题真题总结(附答案)大数据快速入...

2021-01-08 09:42:07 39

转载 携程商旅用户画像系统设计实现

一、用户画像用户画像这一概念最早源于交互设计领域,由交互设计之父Alan Cooper提出。其指出用户画像是真实用户的虚拟代表,是建立在真实数据之上的目标用户模型。具体而言,在互联网用户...

2021-01-08 09:42:07 174

原创 图文理解 Spark 3.0 的动态分区裁剪优化

Spark 3.0 为我们带来了许多令人期待的特性。动态分区裁剪(dynamic partition pruning)就是其中之一。本文将通过图文的形式来带大家理解什么是动态分区裁剪。S...

2021-01-07 09:16:24 6852 4

原创 Delta Lake 提供纯 Scala\Java\Python 操作 API,和 Flink 整合更加容易

最近,Delta Lake 发布了一项新功能,也就是支持直接使用 Scala、Java 或者 Python 来查询 Delta Lake 里面的数据,这个是不需要通过 Spark 引擎来...

2021-01-06 08:54:00 66

转载 基于Flink构建实时数仓实践

导读随着公司用户增长业务快速发展,陆续孵化出 部落、同镇、C 端会员、游戏等非常多的业务板块。与此同时产品及运营对实时数据需求逐渐增多,帮助他们更快的做出决策,更好的进行产品迭代,实时数...

2021-01-05 09:00:00 288

转载 揭秘PB级大数据中台架构设计方案!OLTP、OLAP架构场景剖析

你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策、技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难...

2021-01-04 09:00:00 123

转载 大数据权限安全在滴滴的实践

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍在滴滴,数据是非常重要的资产,基于数据的数仓建设,数据分析、数据挖掘、数据科学等构建了滴滴的数据体系,支撑着滴滴的业务快速发展。在这个背景下,如何保障用户获...

2021-01-04 09:00:00 44

原创 盘点2020年晋升为Apache TLP的大数据相关项目

在过去一年有很多 Apache 孵化项目顺利毕业成顶级项目(Top-Level Project ,简称 TLP ),在这里我将给大家盘点 2020 年晋升为 Apache TLP 的大数...

2021-01-03 21:14:00 102

转载 Docker 被禁,K8S 救火!

作为一个Java架构师,做了多年的分布式系统,其实,真正关心的并不是服务器、交换机、负载均衡器、监控与部署这些事物,而是“服务”本身。直到Kubernetes的出现,很大程度上提升了软件...

2021-01-03 21:14:00 38

转载 Java 16 即将发布,你还能追上 Java 的更新速度吗?

当开发者深陷 Java 8 版本之际,这边下一版本 Java 16 有了最新的消息,与 Java 15 一样,作为短期版本,Oracle 仅提供 6 个月的支持。根据发布计划,JDK 1...

2021-01-02 20:45:18 737 1

转载 2020年度阅读数TOP 20文章汇总

在过去的2020年,过往记忆大数据公众号发布了300+技术文章,此处列举全年阅读数 TOP 20 的文章,再次分享给大家。•Apache Spark 3.0.0 正式版终于发布了,重要特...

2021-01-02 20:45:18 63

Delta Lake: HighPerformance ACID Table Storage over Cloud Object Stores

Delta Lake: HighPerformance ACID Table Storage over Cloud Object Stores

2020-08-24

QCon北京2018-《JVM问题定位典型案例分析》-李嘉鹏.pdf

JVM体系很庞大,涉及的知识点非常多,对于平时工作繁忙的我们往往没有时间和精力去有系统有条理地学习和掌握所有的这些知识,我的一个比较好的途径是不断给大家解决一些JVM相关的问题,在解决问题过程中去填充JVM领域的一些空白,让JVM的知识图谱越来越连贯,通过这次分享我希望能介绍几个曾经碰到的有意思的JVM案例让大家更好地了解JVM里的一些原理。

2018-05-16

机器学习十大算法:kNN

机器学习十大算法:kNN 机器学习十大算法:kNN

2012-02-21

Windows GUI高级编程(C#编程篇) 英文版

本书以GUI编程为重点,详细介绍了.NET下的Windows编程技术。主要内容涉及使用或不使用Visual Studio.NET创建Windows应用程序、运用Windows Forms类和控件、高级的数据绑定、处理用户输入、使用GDI+绘图、打印和打印预览、创建自定义控件、NET中的多线程编程,以及部署Windows应用程序等。 本书适合于具有一定.NET和C#编程经验,但希望了解有关如何在Windows应用程序中使用新的开发技术的程序员。并且读者应有使用MFC或Visual编写Windows应用程序的

2011-08-16

Learning Spark SQL

Design, implement, and deliver successful streaming applications, machine learning pipelines and graph applications using Spark SQL API

2018-04-23

离散数学清华经典版本

离散数学清华经典版本耿素云等编著,很经典的。

2011-12-24

SPARK + AI SUMMIT 2019 全部 PPT

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山(San Francisco)进行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。作为大数据领域的顶级会议,Spark+AI Summit 2019 吸引了全球大量技术大咖参会,而且 Spark+AI Summit 越做越大,本次会议议题快接近200多个。详情:https://www.iteblog.com/archives/2431.html

2019-09-21

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域,Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎,另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据,单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署,因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果,介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。

2019-12-03

CSDN博客提取器

本程序用java编写,运行的时候需要JDK1.5或以上环境,无需安装。程序通过分析CSDN博客源码来生成一些必要的数据,可能在以后使用当中出现爬取不了的情况,可能是CSDN的源码结构修改了。程序只是用于学习之用,严禁用于非法目的而照成CSDN服务器过载。 由于生成PDF的时候需要依赖字库,所以在打包程序的时候把一些必要的字库已经放到程序中去了。可能在生成一些PDF文件的时候出现乱码问题,那是因为里面缺少需要的字库,如遇到这个问题,请和本人联系wyphao.2007@163com #################################################### 程序功能: 1、支持输入CSDN博客用户名针对性下载 2、支持选择保存下载的文件 保存的结构目录为: 选择的保存路径\CSDN用户名\img 该用户的头像保存路径 选择的保存路径\CSDN用户名\pdf 生成的PDF文件保存路径 选择的保存路径\CSDN用户名\doc 生成的DOC文件保存路径 选择的保存路径\CSDN用户名\txt 生成的TXT文件保存路径 3、支持获取用户博客信息 4、支持显示用户所有的帖子列表 5、可以自己选择需要下载的帖子,有全选、反选、重置按钮 6、支持下载的文件保存为 pdf、doc、txt三种格式 7、生成的pdf、doc文件支持图片 8、支持进度显示 #################################################### 制作时间:2012年07月17日 - 2012年07月18日 制 作:w397090770 个人博客:http://blog.csdn.net/w397090770 Email :wyphao.2007@163.com 版权所有,翻版不究 ####################################################

2012-07-19

浪漫烟花JAVA源代码.rar

这是一份浪漫烟花JAVA源代码,运行效果蛮好看的,

2009-06-03

完整的JSP网站图书管理系统源码

这是我在大学做课程设计时制作的图书馆管理系统全部的源码 里面包括本系统所要的所有jar包,还有建的表,上次上来给大家分享。

2010-05-01

关于运动会分数统计系统数据结构 课程设计实验报告

关于运动会分数统计系统 数据结构 课程设计实验报告,全部源代码下载

2010-01-03

计算机网络第五版教材

计算机网络第五版pdf教材高清版 谢希仁

2011-11-19

百度文库免积分下载器(绿色版)

本软件包含: 文档分类、文档搜索、文档预览、文档复制粘贴、文档下载保存5大功能.,可以免费下载百度文库中所有的文档,包括收费的和免费的!不需登录,不需要积分财富值,一切轻松下载。 1、百度文库下载器 采用 Microsoft Visual Studio 2010 C# 开发,性能好,速度快,需要 .Net Framework 4 支持. 2、如果你的电脑未安装 .Net Framework 4,就无法运行软件,因此,请先安装后再运行本软件。 3、.Net Framework 4 下载地址:http://www.microsoft.com/downloads/zh-cn/details.aspx?FamilyID=0A391ABD-25C1-4FC0-919F-B21F31AB88B7 支持下载原版文档,包括文档格式和PPT图片等等,实现了完美下载!目前是互联网上唯一能够免费下载百度文库真正的原版文档。 10.8版本,升级内容: 因为百度和360搜索大站,百度改版,导致本软件原搜索失效,现在已经修复。截图依旧采用8.0版本,软件已更新。

2012-12-25

Lucene实战(第2版)中文版(免积分)

Lucene实战(第2版) 《lucene实战(第2版)》基于apache的lucene3.0,从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene,包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容,最后还提供了三大经典成功案例,为读者展示了一个奇妙的搜索世界。   《lucene实战(第2版)》适合于已具有一定java编程基本的读者,以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战(第2版)》对于从事搜索引擎工作的工程技术人员,以及在java平台上进行各类软件开发的人员和编程爱好者,也具有很好的学习参考价值。

2013-08-05

Hadoop实战-陆嘉恒

Hadoop实战-陆嘉恒,书比较入门级,入门的人可以看看

2013-12-02

SQL-DFS:一种基于HDFS 的海量小文件存储系统

针对Hadoop 分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时NameNode 内存占用率高的问题,通过分析HDFS 基础架构,提出了基于元数据存储集群的SQL-DFS 文件系统. 通过在NameNode 中加入小文件处理模块实现了小文件元数据由NameNode 内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对NameNode 的请求次数;通过将部分DataNode 文件块的校验工作交由元数据存储集群完成,进一步降低了NameNode 节点的负载压力. 最终通过搭建HDFS 和SQL-DFS 实验平台,对HDFS 和SQL-DFS 2 种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS 架构,具有更好的小文件存储能力,可用于海量小文件的存储.

2018-04-23

spark Streaming和structed streaming分析

spark Streaming和structed streaming分析,理解整个 Spark Streaming 的模块划分和代码逻辑。

2018-04-23

QCon北京2018-《Dubbo开源现状与未来规划》-罗毅.pdf

Dubbo是阿里巴巴自研的分布式服务框架,自2012年开源以来,深得开发人员的喜爱,并被广泛的被友商用于服务化解决方案中。自去年阿里巴巴中间件团队宣布重新维护依赖,在社区引起极大的反响,目前在github上的star数增加至15000。本次分享,为大家带来我们近期在Dubbo上所完成的一些工作,对Dubbo 3.0的规划,以及对积极推动开源的一些思考。

2018-05-15

HBase Procedure V2介绍

主要介绍一下Procedure V2的设计和结构,以及为什么用Procedure V2能比较容易实现出正确的AssignmentManager。最后介绍一下最近在2.1分支上对一些Procedure实现修正和改进。

2018-08-13

Spark AI Summit Europe 2018 全部PPT

Spark AI Summit Europe 2018 全部PPT,如有更新请关注https://www.iteblog.com/archives/2432.html

2018-10-13

Spark AI Summit Europe 2018 全部PPT - part1

Spark AI Summit Europe 2018 全部PPT,如有更新请关注https://www.iteblog.com/archives/2432.html

2018-10-13

Apache Spark Shuffle I/O 在 Facebook 的优化

我们都知道,Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook,单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据;而且 shuffle reads 也是一种低效的操作,这会大大延长作业的整体执行时间,并且消耗大量的系统资源。 为了提高 shuffle 的性能并提高资源利用率,Facebook 开发了 Spark-optimized Shuffle (SOS) 。 这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了,作业整体的 I/O 提升了两倍,计算效率提高10%。值得高兴的是,这项技术 Facebook 打算共享给社区。 本地址是这项技术的视频介绍。关注Hadoop技术博文(iteblog_hadoop) 公众号并回复 sos 获取本文相关ppt及相关技术论文。

2018-12-10

从MPP数仓迁移至Spark:案例与最佳实践分享

本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中,我们遇到了很多的预料之外的问题,如字符集问题,数字进位问题,各种OOM等等,更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中,我们做了很多的实践,贡献给了社区很多的反馈,也解决了很多的bug。即便对于Spark当前不能处理的场景,比如recurisve query,也有了一些可行的探索。此外,我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中,我们会深入迁移的关键步骤,并分享踩过的一些坑,最后会介绍我们的自动化工具,如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。 下面是PPT原文:关注 Hadoop技术博文 并回复 ebay_spark 获取本文PPT。

2019-03-31

Flink社区专刊S2-重新定义计算

阿里巴巴最新一期Flink电子月刊《重新定义计算:Apache Flink 实践》正式发布,该月刊融合了 Apache Flink 在国内各大互联网公司的大规模实践和Flink Forward China峰会上的精彩演讲内容,希望对大家有所帮助。详情参考:https://mp.weixin.qq.com/s/HS9qoGTKzyd46VgjEpNiwg

2019-04-11

Apache Spark 3.0, Koalas, Delta Lake 最新进展

In this talk, we will highlight major efforts happening in the Spark ecosystem. In particular, we will dive into the details of adaptive and static query optimizations in Spark 3.0 to make Spark easier to use and faster to run. We will also demonstrate how new features in Koalas, an open source library that provides Pandas-like API on top of Spark, helps data scientists gain insights from their data quicker.

2019-10-28

Hadoop Beginner's Guide

Hadoop Beginner's Guide,很不错的入门书籍,不过是英文版的。

2014-03-27

Advanced Python for Biologists

Advanced Python for Biologists is a programming course for workers in biology and bioinformatics who want to develop their programming skills. It starts with the basic Python knowledge outlined in Python for Biologists and introduces advanced Python tools and techniques with biological examples. You’ll learn: – How to use object-oriented programming to model biological entities – How to write more robust code and programs by using Python’s exception system – How to test your code using the unit testing framework – How to transform data using Python’s comprehensions – How to write flexible functions and applications using functional programming – How to use Python’s iteration framework to extend your own object and functions Advanced Python for Biologists is written with an emphasis on practical problem-solving and uses everyday biological examples throughout. Each section contains exercises along with solutions and detailed discussion.

2018-04-21

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

TiDB架构与开源之路,TiDB架构与开源之路,TiDB架构与开源之路

2018-05-16

Spark+AI Summit Europe 2019_iteblog.zip.001

由于文件过大,分成2个文件下载。解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展,以及在现实世界中部署人工智能的最佳实践。

2019-11-01

java课程设计之图书管理系统

java课程设计之图书管理系统,可以查找书名,添加,删除,连接SQL数据库的。

2009-07-20

数据库 课程设计实验报告 数据库的建立

数据库 课程设计实验报告 数据库的建立 数据库 课程设计实验报告 数据库的建立

2010-01-07

机器学习十大算法:Apriori

机器学习十大算法:Apriori.

2012-02-21

Hadoop in 24 Hours, Sams Teach Yourself

Apache Hadoop is the technology at the heart of the Big Data revolution, and Hadoop skills are in enormous demand. Now, in just 24 lessons of one hour or less, you can learn all the skills and techniques you'll need to deploy each key component of a Hadoop platform in your local environment or in the cloud, building a fully functional Hadoop cluster and using it with real programs and datasets. Each short, easy lesson builds on all that's come before, helping you master all of Hadoop's essentials, and extend it to meet your unique challenges. Apache Hadoop in 24 Hours, Sams Teach Yourself covers all this, and much more: Understanding Hadoop and the Hadoop Distributed File System (HDFS) Importing data into Hadoop, and process it there Mastering basic MapReduce Java programming, and using advanced MapReduce API concepts Making the most of Apache Pig and Apache Hive Implementing and administering YARN Taking advantage of the full Hadoop ecosystem Managing Hadoop clusters with Apache Ambari Working with the Hadoop User Environment (HUE) Scaling, securing, and troubleshooting Hadoop environments Integrating Hadoop into the enterprise Deploying Hadoop in the cloud Getting started with Apache Spark Step-by-step instructions walk you through common questions, issues, and tasks; Q-and-As, Quizzes, and Exercises build and test your knowledge; "Did You Know?" tips offer insider advice and shortcuts; and "Watch Out!" alerts help you avoid pitfalls. By the time you're finished, you'll be comfortable using Apache Hadoop to solve a wide spectrum of Big Data problems.

2017-04-12

Apache iceberg:Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。

2020-02-23

Qcon北京2018--《Apache+Pulsar--实时数据处理中消息+计算和存储的统一

实时数据处理在各个行业和领域中已经变得越来越关键。但是在实时数据栈中,Messaging,Computing和Storage三个部分的分离,给方案的实现带来了高复杂性,低可维护性,低效率等问题。 本次演讲将介绍Apache Pulsar,并展示Apache Pulsar怎样从这三个方面,提供一个端到端的实时数据解决方案。 Messaging:Pulsar对pub/sub和queue两种模式提供统一的支持,同时保证了一致性,高性能和易扩展性。 Computing:Pulsar内部的Pulsar-Functions提供了Stream-native的轻量级计算框架,保证了数据的即时流式处理。 Storage:Pulsar借助Apache BookKeeper提供了以segment为中心的存储架构,保证了存储的性能,持久性和弹性。 Apache Pulsar在2016年开源,是Streamlio,阿里巴巴,和滴滴出行等公司一同起草的全球消息领域标准OpenMessaging的重要成员。希望通过这次分享,能够为大家带来对Apache Pulsar及其生态系统有更好的理解,和对pub/sub消息系统,实时处理系统的更多的认识。

2018-05-15

K-Means算法C语言实现

这是我用C语言编写的数据挖掘里面的一个K-Means算法,里面有截图。

2011-12-02

机器学习十大算法:K-means

机器学习十大算法:K-means

2012-02-21

中国天气网城市代码

文件里面是中央天气全国地区的编码,有了这些编码我们就可以获取任何地区的天气,共程序开发人员使用。

2012-08-11

Hive学习资料

Hive学习资料,入门级别的,英文的,有14页,

2013-12-11

过往记忆的留言板

发表于 2020-01-02 最后回复 2020-01-02

java读取网页保存之后都是乱码

发表于 2012-07-28 最后回复 2019-09-26

有谁和我一样一直找不到CSDN的用户空间页面?

发表于 2014-10-09 最后回复 2017-07-02

C结构体、C++结构体 和 C++类的区别

发表于 2012-06-29 最后回复 2017-04-05

PD4ML处理中文的页面怎么处理乱码的问题?

发表于 2012-07-16 最后回复 2016-10-19

java中JTextField怎么设置只能输入一个数字?

发表于 2012-04-08 最后回复 2016-08-14

linux 里面编写c语言用什么软件好用啊?

发表于 2010-04-28 最后回复 2015-06-10

hibernate怎么查询具体一行数据

发表于 2010-05-31 最后回复 2013-07-18

访问自己配置的juddi出现异常

发表于 2013-03-01 最后回复 2013-03-01

安装Joomla!配置mysql数据库时候出错?

发表于 2013-01-06 最后回复 2013-01-06

【【已答复】【腾讯2013校招笔试试题】资源怎么莫名被删掉?求解释!

发表于 2012-12-16 最后回复 2012-12-18

linux里面运行最简单的c程序居然出现这种情况

发表于 2010-04-29 最后回复 2012-11-23

Java中两个模板类对象怎么共享一个容器?

发表于 2012-09-25 最后回复 2012-09-25

java程序访问一个网站次多了就被限制IP了怎么处理?

发表于 2012-08-10 最后回复 2012-08-13

两个很大的数据相加如何实现?

发表于 2012-08-07 最后回复 2012-08-08

下面的两段代码为什么输出不一样??

发表于 2012-08-05 最后回复 2012-08-07

URL相对地址以及绝对地址怎么区分?

发表于 2012-07-28 最后回复 2012-07-28

下面的程序哪有出错了?

发表于 2012-07-25 最后回复 2012-07-25

【已处理】资源不存在为什么还要扣除我们的积分?

发表于 2012-07-14 最后回复 2012-07-16

java创建文件失败

发表于 2012-07-09 最后回复 2012-07-09

怎么求一个给定数组连续区间数之和绝对值最大

发表于 2012-05-12 最后回复 2012-05-13

这个程序哪里有问题??

发表于 2012-05-12 最后回复 2012-05-12

哪里可以下载ANSI C标准库里面函数实现的代码?

发表于 2012-05-11 最后回复 2012-05-11

下面程序哪里有问题

发表于 2012-04-09 最后回复 2012-04-09

C++内存泄漏问题

发表于 2012-03-23 最后回复 2012-03-23

谁有jsp的视屏教程下载网站啊

发表于 2009-12-28 最后回复 2012-02-18

如何得到canvas面板上图片的坐标?

发表于 2011-02-21 最后回复 2011-02-21

Ubuntu中网页各种插件安装命令

发表于 2010-05-01 最后回复 2010-10-10

制作一个24点游戏的算法…………

发表于 2010-07-13 最后回复 2010-07-13

哪里有像javaeye里面的UBB下载啊?

发表于 2010-05-01 最后回复 2010-07-13

懂制作网站的请进

发表于 2010-07-09 最后回复 2010-07-13

是学java有前途还是学c++或者c有前途??

发表于 2010-06-13 最后回复 2010-06-17

考研到底需要报辅导班不?

发表于 2010-06-11 最后回复 2010-06-12

用java制作一个词法分析器?

发表于 2010-06-11 最后回复 2010-06-11

懂hibernate请进【外键出错】…

发表于 2010-05-04 最后回复 2010-05-10

求助下拉式列表框(Select)

发表于 2010-05-08 最后回复 2010-05-08

Hibernate 怎么在查询语句里面进行排序

发表于 2010-05-07 最后回复 2010-05-08

Tomcat常见错误代号

发表于 2009-12-25 最后回复 2010-04-28

java里面的mouseDown时间的用法

发表于 2010-03-15 最后回复 2010-03-15

知道scwcd考试的请进

发表于 2009-12-25 最后回复 2009-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除