自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 资源 (293)
  • 论坛 (42)
  • 收藏
  • 关注

转载 终于有人把如何精通C++讲明白了!

编程初学者究竟应该怎么选择语言?仅仅因为“Java就业前景好?”、“Python实用性高?”一位在北京工作7年的程序员亲戚跟我聊起过:“并不是所有的程序员都吃青春饭,我身边有很多牛逼的资...

2021-01-31 12:09:02 165

转载 Flink SQL 在字节跳动的优化与实践

整理 |Aven (Flink 社区志愿者)摘要:本文由 Apache Flink Committer,字节跳动架构研发工程师李本超分享,以四个章节来介绍 Flink 在字节的应用实战...

2021-01-31 12:09:02 717

转载 滴滴使用 HDFS EC 节约大量存储的实践

桔妹导读:HDFS中默认的3副本方案在存储空间和其他资源(例如网络带宽)上有200%的开销。对于冷数据,使用纠删码(ErasureCoding,EC)存储代替副本存储是一种非常不错的替代...

2021-01-29 08:30:00 361 1

转载 终于有人把 Elasticsearch 原理讲透了!

搜索是软件工程师的一项必备技能。而 Elasticsearch 就是一款功能强大的开源分布式搜索与分析引擎,在同领域几乎没有竞争对手——近三年 DB-Engines 数据库评测中,ES ...

2021-01-28 09:00:00 242 1

转载 京东Spark自研Remote Shuffle Service在大促中的应用实践

前言本文讨论了京东Spark计算引擎研发团队关于自主研发并落地Remote Shuffle Service,助力京东大促场景的探索和实践。近年来,大数据技术在各行各业的应用越来越广泛,S...

2021-01-28 09:00:00 281

转载 Flink 助力美团数仓增量生产

摘要:本文由美团研究员、实时计算负责人鞠大升分享,主要介绍 Flink 助力美团数仓增量生产的应用实践。内容包括:数仓增量生产流式数据集成流式数据处理流式OLAP应用未来规划Tips...

2021-01-27 09:00:00 85

转载 霸榜 Github:又一款 OCR 神器面世!

导读OCR 方向的工程师,一定需要知道这个 OCR 开源项目:PaddleOCR短短几个月,累计 Star 数量已超过8.5K;频频登上Github Trending 日榜月榜;称...

2021-01-26 09:00:00 519

转载 Hive SQL 迁移到 Spark SQL 在滴滴的实践

桔妹导读:在滴滴SQL任务从Hive迁移到Spark后,Spark SQL任务占比提升至85%,任务运行时间节省40%,运行任务需要的计算资源节省21%,内存资源节省49%。在迁移过程中...

2021-01-26 09:00:00 293

转载 美团把 Kafka 作为应用层缓存的实践

Kafka在美团数据平台承担着统一的数据缓存和分发的角色,针对因PageCache互相污染,进而引发PageCache竞争导致实时作业被延迟作业影响的痛点,美团基于SSD自研了Kafka...

2021-01-25 09:00:00 274

转载 为什么说本地文件系统不适合作为分布式存储后端

本文要介绍的是 2019 年 SOSP 期刊中的论文 —— File Systems Unfit as Distributed Storage Backends: Lesson ...

2021-01-24 21:36:00 160

原创 AWS 开始反击 Elastic 公司:将要创建维护 Apache 2.0 协议的 ElasticSearch 分支

1月15日,ElasticSearch 创始人、Elastic 公司 CEO Shay Banon 宣布,将把 Elasticsearch 和 Kibana 的 Apache 2.0-l...

2021-01-23 22:26:34 161

原创 又一个大数据相关项目成为顶级项目

2021年01月21日,Apache 官方博客宣布 项目 Apache® Superset™ 成为顶级项目。Apache® Superset™ 是一个现代化的大数据探索和可视化平台,它允...

2021-01-22 23:05:32 158

转载 eBay 大数据平台的 HDFS 性能优化实践

导读HDFS作为大数据的底层存储系统,其性能处理效率关乎着大量与集群数据相关的计算任务的运行。HDFS的性能效率主要由其内部的核心服务NameNode所决定。此次eBay Hadoop ...

2021-01-21 09:00:00 151

转载 Apache Flink 在实时金融数据湖的应用

摘要:本文由中原银行大数据平台研发工程师白学余分享,主要介绍实时金融数据湖在中原银行的应用。主要内容包括:背景概况实时金融数据湖体系架构场景实践Tips:点击文末「阅读原文」即可下载作者...

2021-01-20 09:00:00 107

转载 知乎获赞5K+,大数据工程师进阶学习笔记!

最近有幸在一位字节跳动大数据高级工程师手里扒到了这份学习笔记,将部分知识章节发布到了在知乎上竟然获得了5000+点赞!今天就拿出来分享给大家,不管你是学生,还是已经步入职场的同行,希望你...

2021-01-20 09:00:00 121

原创 新一代数据仓库:Snowflake 弹性数仓介绍

本文来自大佬的投稿,作者:张剑。摘要我们生活在分布式计算的黄金时代。公有云平台几乎能够按需提供无限的计算和存储资源。同时,SaaS模型将企业级系统带给了无法负担成本和相关系统复杂性的用户...

2021-01-19 09:00:00 832

转载 大数据中台架构之道:揭秘 PaaS + DaaS +DA 全域中台架构设计!

你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策、技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难...

2021-01-18 09:00:00 243

转载 滴滴开源一站式 Kafka 监控和管控平台

桔妹导读: LogI-KafkaManager脱胎于滴滴内部多年的Kafka运营实践经验,是面向Kafka用户、Kafka运维人员打造的共享多租户Kafka云平台。专注于Kafka运维管...

2021-01-18 09:00:00 164

原创 重磅消息:Elastic 公司即将修改 ElasticSearch 的开源许可证,限制云服务商的使用...

1月15日,ElasticSearch 创始人、Elastic 公司 CEO Shay Banon 宣布,将把 Elasticsearch 和 Kibana 的 Apache 2.0-l...

2021-01-17 20:39:00 581

转载 KVell:新一代快速键值存储系统设计及实现

本文要介绍的是 2019 年 SOSP 期刊中的论文 —— KVell: the Design and Implementation of a Fast Persistent Key-V...

2021-01-16 21:12:39 122

转载 滴滴Flink-1.10升级之路

1.背景在本次升级之前,我们使用的主要版本为Flink-1.4.2,并且在社区版本上进行了一些增强,提供了StreamSQL和低阶API两种服务形式。现有集群规模达到了1500台物理...

2021-01-15 09:11:04 142

转载 连续三年蝉联第一,Flink 荣膺全球最活跃的 Apache 开源项目

2020年,一个注定会被历史铭记的一年。在全球化合作受到挑战的大环境下,作为全球最大的开源软件基金会,Apache 软件基金所引领的开源社区,依然汇聚了全球的顶尖开发人员,交出了一份鼓舞...

2021-01-14 09:00:00 82

转载 Apache Kylin 在汽车之家的实时多维分析演进与实践

近期,Apache Kylin 5 周年在线庆典顺利结束,来自汽车之家的实时计算平台负责人 邸星星 老师为大家介绍了 Apache Kylin 在汽车之家的升级历程,以及在实时多维分析方...

2021-01-14 09:00:00 85

转载 致ClickHouse用户的一封信

亲爱的ClickHouse用户:您好!感谢您在百忙之中抽出时间来阅读此信。虽然未曾谋面,但我们关注您已经有很长一段时间了。您的企业非常重视数据分析工作,想通过数据分析来提升运营效率,发现...

2021-01-13 08:55:08 122

转载 Apache Kylin 在 eBay 的实践

作者简介 Lisa Li,在 eBay 中国研发中心大数据平台部门担任研发主管。带领的团队主要负责 SQL on Hadoop 的方案,给使用 SQL 查询语言的数据分析师在开源的 Ha...

2021-01-12 09:14:29 71

转载 360 一站式大数据资源管理与开发平台

360系统部成立于2010年,负责整个集团的大数据底层基础平台建设(包括分布式存储、分布式计算、大数据搜索、图计算等各类大数据服务),目前服务于整个集团30+部门,1000+用户,服务器...

2021-01-11 09:07:06 179

转载 关于大数据中台被问最多的问题,今天一次性说清!

你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策、技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难...

2021-01-11 09:07:06 49

转载 快手大数据平台服务化实践

本文是围绕着快手的数据服务化中台进行介绍。第一部分是背景介绍,包括数据开发的痛点,第二部分是介绍大数据服务化平台,包括平台架构以及关键细节详解,第三部分是经验总结和未来思考。背景快手是一...

2021-01-10 21:09:00 273

转载 为什么 Linux 默认页大小是 4KB

我们都知道 Linux 会以页为单位管理内存,无论是将磁盘中的数据加载到内存中,还是将内存中的数据写回磁盘,操作系统都会以页面为单位进行操作,哪怕我们只向磁盘中写入一个字节的数据,我们也...

2021-01-09 20:30:03 83

转载 推荐一个Java大数据公众号

以下为部分文章列表:(点击文字可访问文章)JavaJava日常开发的21个坑,你踩过几个?Java云服务开发知识学习Q&A大数据2020大数据面试题真题总结(附答案)大数据快速入...

2021-01-08 09:42:07 65

转载 携程商旅用户画像系统设计实现

一、用户画像用户画像这一概念最早源于交互设计领域,由交互设计之父Alan Cooper提出。其指出用户画像是真实用户的虚拟代表,是建立在真实数据之上的目标用户模型。具体而言,在互联网用户...

2021-01-08 09:42:07 619

原创 图文理解 Spark 3.0 的动态分区裁剪优化

Spark 3.0 为我们带来了许多令人期待的特性。动态分区裁剪(dynamic partition pruning)就是其中之一。本文将通过图文的形式来带大家理解什么是动态分区裁剪。S...

2021-01-07 09:16:24 6920 4

原创 Delta Lake 提供纯 Scala\Java\Python 操作 API,和 Flink 整合更加容易

最近,Delta Lake 发布了一项新功能,也就是支持直接使用 Scala、Java 或者 Python 来查询 Delta Lake 里面的数据,这个是不需要通过 Spark 引擎来...

2021-01-06 08:54:00 128

转载 基于Flink构建实时数仓实践

导读随着公司用户增长业务快速发展,陆续孵化出 部落、同镇、C 端会员、游戏等非常多的业务板块。与此同时产品及运营对实时数据需求逐渐增多,帮助他们更快的做出决策,更好的进行产品迭代,实时数...

2021-01-05 09:00:00 694

转载 揭秘PB级大数据中台架构设计方案!OLTP、OLAP架构场景剖析

你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策、技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难...

2021-01-04 09:00:00 290

转载 大数据权限安全在滴滴的实践

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍在滴滴,数据是非常重要的资产,基于数据的数仓建设,数据分析、数据挖掘、数据科学等构建了滴滴的数据体系,支撑着滴滴的业务快速发展。在这个背景下,如何保障用户获...

2021-01-04 09:00:00 105

原创 盘点2020年晋升为Apache TLP的大数据相关项目

在过去一年有很多 Apache 孵化项目顺利毕业成顶级项目(Top-Level Project ,简称 TLP ),在这里我将给大家盘点 2020 年晋升为 Apache TLP 的大数...

2021-01-03 21:14:00 167

转载 Docker 被禁,K8S 救火!

作为一个Java架构师,做了多年的分布式系统,其实,真正关心的并不是服务器、交换机、负载均衡器、监控与部署这些事物,而是“服务”本身。直到Kubernetes的出现,很大程度上提升了软件...

2021-01-03 21:14:00 111

转载 Java 16 即将发布,你还能追上 Java 的更新速度吗?

当开发者深陷 Java 8 版本之际,这边下一版本 Java 16 有了最新的消息,与 Java 15 一样,作为短期版本,Oracle 仅提供 6 个月的支持。根据发布计划,JDK 1...

2021-01-02 20:45:18 4030 2

转载 2020年度阅读数TOP 20文章汇总

在过去的2020年,过往记忆大数据公众号发布了300+技术文章,此处列举全年阅读数 TOP 20 的文章,再次分享给大家。•Apache Spark 3.0.0 正式版终于发布了,重要特...

2021-01-02 20:45:18 126

Qcon北京2018-《阿里巴巴微服务技术实践》-朱勇.pdf

随着业务的不断发展,传统的应用开发部署模式,在满足业务快速试错的要求下,将会面临开发效率低下、部署运维不规范等诸多问题。而业界微服务的事实标准Spring Boot也在不断流行,因此我们有必要将其与阿里现有的技术栈无缝融合。 在整个融合的过程中,需要保持技术架构一致性,并提升开发体验,因此我们总结了一些经验和教训。本次分享,即为大家带来我们在这些背后的一些思考。 听众受益 阿里服务化架构演进; Java隔离容器Pandora; 微服务框架Pandora Boot; 微服务运维与诊断。

2018-05-16

应用随机过程讲义中文版

应用随机过程讲义 中文版 应用随机过程讲义 中文版

2011-08-16

Unity AI Game Programming - Second Edition.pdf

Unity 5 provides game and app developers with a variety of tools to implement artificial intelligence. Leveraging these tools via Unity’s API or built-in features allows limitless possibilities when it comes to creating your game’s worlds and characters. Whether you are developing traditional, serious, educational, or any other kind of game, understanding how to apply artificial intelligence can take the fun-factor to the next level! This book helps you break down artificial intelligence into simple concepts to give the reader a fundamental understanding of the topic to build upon. Using a variety of examples, the book then takes those concepts and walks you through actual implementations designed to highlight key concepts, and features related to game AI in Unity 5. Along the way, several tips and tricks are included to make the development of your own AI easier and more efficient. Starting from covering the basic essential concepts to form a base for the later chapters in the book, you will learn to distinguish the state machine pattern along with implementing your own. This will be followed by learning how to implement a basic sensory system for your AI agent and coupling it with a finite state machine (FSM). Next you will be taught how to use Unity’s built-in NavMesh feature and implement your own A* pathfinding system. Then you will learn how to implement simple flocks and crowd’s dynamics, the key AI concepts. Then moving on you will learn how a behavior tree works and its implementation. Next you will learn adding layer of realism by combining fuzzy logic concepts with state machines. Lastly, you learn applying all the concepts in the book by combining them in a simple tank game.

2017-02-16

SPARK + AI SUMMIT 2019 全部 PPT

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山(San Francisco)进行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。作为大数据领域的顶级会议,Spark+AI Summit 2019 吸引了全球大量技术大咖参会,而且 Spark+AI Summit 越做越大,本次会议议题快接近200多个。详情:https://www.iteblog.com/archives/2431.html

2019-09-21

Apache Doris (Incubating) 原理与实践.pdf

Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据库,由百度在 2017 年开源,2018 年 8 月进入 Apache 孵化器。

2019-12-10

Learning PySpark

本书将向您展示如何利用Python的强大功能并将其用于Spark生态系统中。您将首先了解Spark 2.0的架构以及如何为Spark设置Python环境。通过本书,你将会使用Python操作RDD、DataFrames、MLlib以及GraphFrames等;在本书结束时,您将对Spark Python API有了全局的了解,并且学习到如何使用它来构建数据密集型应用程序。通过本书你将学习到以下的知识: 1、Learn about Apache Spark and the Spark 2.0 architecture 2、Build and interact with Spark DataFrames using Spark SQL 3、Learn how to solve graph and deep learning problems using GraphFrames and TensorFrames respectively 4、Read, transform, and understand data and use it to train machine learning models 5、Build machine learning models with MLlib and ML 6、Learn how to submit your applications programmatically using spark-submit 7、Deploy locally built applications to a cluster 本书由Tomasz Drabas所著,全书共380页;Packt Publishing出版社于2017年02月出版。

2018-05-02

K-Means算法C语言实现

这是我用C语言编写的数据挖掘里面的一个K-Means算法,里面有截图。

2011-12-02

Advanced Python for Biologists

Advanced Python for Biologists is a programming course for workers in biology and bioinformatics who want to develop their programming skills. It starts with the basic Python knowledge outlined in Python for Biologists and introduces advanced Python tools and techniques with biological examples. You’ll learn: – How to use object-oriented programming to model biological entities – How to write more robust code and programs by using Python’s exception system – How to test your code using the unit testing framework – How to transform data using Python’s comprehensions – How to write flexible functions and applications using functional programming – How to use Python’s iteration framework to extend your own object and functions Advanced Python for Biologists is written with an emphasis on practical problem-solving and uses everyday biological examples throughout. Each section contains exercises along with solutions and detailed discussion.

2018-04-21

浪漫烟花JAVA源代码.rar

这是一份浪漫烟花JAVA源代码,运行效果蛮好看的,

2009-06-03

高可用性的HDFS:Hadoop分布式文件系统深度实践

本书专注于Hadoop 分布式文件系统(HDFS)的主流HA 解决方案,内容包括:HDFS 元数据解析、Hadoop 元数据备份方案、Hadoop Backup Node 方案、AvatarNode 解决方案以及最新的HA 解决方案Cloudrea HA Name Node 等。其中有关Backup Node 方案及AvatarNode 方案的内容是本书重点,尤其是对AvatarNode 方案从运行机制到异常处理方案的步骤进行了详尽介绍,同时还总结了各种异常情况下AvatarNode 的各种处理方案。

2013-11-29

用c语言实现哈夫曼编码

这是那个用c语言来实现的哈夫曼编码程序,可以对输入的数据进行相应的编码……

2009-05-31

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

数据工程师的纠结与运维的凌乱 • Delta Lake基本原理 • Delta 架构 • Delta 架构的特性 • Delta 架构的经典案例 & Demo • Delta Lake 社区

2019-10-28

Windows GUI高级编程(C#编程篇) 英文版

本书以GUI编程为重点,详细介绍了.NET下的Windows编程技术。主要内容涉及使用或不使用Visual Studio.NET创建Windows应用程序、运用Windows Forms类和控件、高级的数据绑定、处理用户输入、使用GDI+绘图、打印和打印预览、创建自定义控件、NET中的多线程编程,以及部署Windows应用程序等。 本书适合于具有一定.NET和C#编程经验,但希望了解有关如何在Windows应用程序中使用新的开发技术的程序员。并且读者应有使用MFC或Visual编写Windows应用程序的

2011-08-16

HBase在贝壳找房的应用实践

介绍贝壳基于hbase在多维分析(kylin),楼盘字典等核心项目的应用,并分享在实践过程中遇到的问题和性能优化经验。

2018-08-13

Windows应用高级编程-C#编程篇 源代码

Windows应用高级编程-C#编程篇张哲峰译 (developing c# windows software --source code) 我最近在学习这本书 但是死活找不到源码 所以在看书的时候一字一字的敲进去了,现在分享给大家。 里面有1-9章的源代码

2011-08-16

MySQL 8 Cookbook

MySQL 8 Cookbook: Over 150 recipes for high-performance database querying and administration Design and administer enterprise-grade MySQL 8 solutions MySQL is one of the most popular and widely used relational databases in the World today. The recently released MySQL 8 version promises to be better and more efficient than ever before. This book contains everything you need to know to be the go-to person in your organization when it comes to MySQL. Starting with a quick installation and configuration of your MySQL instance, the book quickly jumps into the querying aspects of MySQL. It shows you the newest improvements in MySQL 8 and gives you hands-on experience in managing high-transaction and real-time datasets. If you’ve already worked with MySQL before and are looking to migrate your application to MySQL 8, this book will also show you how to do that. The book also contains recipes on efficient MySQL administration, with tips on effective user management, data recovery, security, database monitoring, performance tuning, troubleshooting, and more. With quick solutions to common and not-so-common problems you might encounter while working with MySQL 8, the book contains practical tips and tricks to give you the edge over others in designing, developing, and administering your database effectively. What You Will Learn Install and configure your MySQL 8 instance without any hassle Get to grips with new features of MySQL 8 like CTE, Window functions and many more Perform backup tasks, recover data and set up various replication topologies for your database Maximize performance by using new features of MySQL 8 like descending indexes, controlling query optimizer and resource groups Learn how to use general table space to suit the SaaS or multi-tenant applications Analyze slow queries using performance schema, sys schema and third party tools Manage and monitor your MySQL instance and implement efficient performance-tuning tasks

2018-04-27

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域,Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎,另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据,单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署,因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果,介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。

2019-12-03

CSDN博客提取器修正版

本程序用java编写,运行的时候需要JDK1.5或以上环境,无需安装。程序通过分析CSDN博客源码来生成一些必要的数据,可能在以后使用当中出现爬取不了的情况,可能是CSDN的源码结构修改了。程序只是用于学习之用,严禁用于非法目的而照成CSDN服务器过载。 由于生成PDF的时候需要依赖字库,所以在打包程序的时候把一些必要的字库已经放到程序中去了。可能在生成一些PDF文件的时候出现乱码问题,那是因为里面缺少需要的字库,如遇到这个问题,请和本人联系wyphao.2007@163com #################################################### 程序功能: 1、支持输入CSDN博客用户名针对性下载 2、支持选择保存下载的文件 保存的结构目录为: 选择的保存路径\CSDN用户名\img 该用户的头像保存路径 选择的保存路径\CSDN用户名\pdf 生成的PDF文件保存路径 选择的保存路径\CSDN用户名\doc 生成的DOC文件保存路径 选择的保存路径\CSDN用户名\txt 生成的TXT文件保存路径 3、支持获取用户博客信息 4、支持显示用户所有的帖子列表 5、可以自己选择需要下载的帖子,有全选、反选、重置按钮 6、支持下载的文件保存为 pdf、doc、txt三种格式 7、生成的pdf、doc文件支持图片 8、支持进度显示 #################################################### 制作时间:2012年07月17日 - 2012年07月18日 制 作:w397090770 个人博客:http://blog.csdn.net/w397090770 Email :wyphao.2007@163.com 版权所有,翻版不究 ####################################################

2012-07-19

Real Time Recommendations using Spark Streaming

Real Time Recommendations using Spark Streaming

2017-03-31

Delta Lake: HighPerformance ACID Table Storage over Cloud Object Stores

Delta Lake: HighPerformance ACID Table Storage over Cloud Object Stores

2020-08-24

Hadoop in Practice

《Hadoop in Practice》英文完整版,没有找到中文的,需要的下载吧

2013-12-02

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

TiDB架构与开源之路,TiDB架构与开源之路,TiDB架构与开源之路

2018-05-16

Apache Spark 3.0, Koalas, Delta Lake 最新进展

In this talk, we will highlight major efforts happening in the Spark ecosystem. In particular, we will dive into the details of adaptive and static query optimizations in Spark 3.0 to make Spark easier to use and faster to run. We will also demonstrate how new features in Koalas, an open source library that provides Pandas-like API on top of Spark, helps data scientists gain insights from their data quicker.

2019-10-28

QCon北京2018-《JVM问题定位典型案例分析》-李嘉鹏.pdf

JVM体系很庞大,涉及的知识点非常多,对于平时工作繁忙的我们往往没有时间和精力去有系统有条理地学习和掌握所有的这些知识,我的一个比较好的途径是不断给大家解决一些JVM相关的问题,在解决问题过程中去填充JVM领域的一些空白,让JVM的知识图谱越来越连贯,通过这次分享我希望能介绍几个曾经碰到的有意思的JVM案例让大家更好地了解JVM里的一些原理。

2018-05-16

机器学习十大算法:kNN

机器学习十大算法:kNN 机器学习十大算法:kNN

2012-02-21

Learning Spark SQL

Design, implement, and deliver successful streaming applications, machine learning pipelines and graph applications using Spark SQL API

2018-04-23

离散数学清华经典版本

离散数学清华经典版本耿素云等编著,很经典的。

2011-12-24

CSDN博客提取器

本程序用java编写,运行的时候需要JDK1.5或以上环境,无需安装。程序通过分析CSDN博客源码来生成一些必要的数据,可能在以后使用当中出现爬取不了的情况,可能是CSDN的源码结构修改了。程序只是用于学习之用,严禁用于非法目的而照成CSDN服务器过载。 由于生成PDF的时候需要依赖字库,所以在打包程序的时候把一些必要的字库已经放到程序中去了。可能在生成一些PDF文件的时候出现乱码问题,那是因为里面缺少需要的字库,如遇到这个问题,请和本人联系wyphao.2007@163com #################################################### 程序功能: 1、支持输入CSDN博客用户名针对性下载 2、支持选择保存下载的文件 保存的结构目录为: 选择的保存路径\CSDN用户名\img 该用户的头像保存路径 选择的保存路径\CSDN用户名\pdf 生成的PDF文件保存路径 选择的保存路径\CSDN用户名\doc 生成的DOC文件保存路径 选择的保存路径\CSDN用户名\txt 生成的TXT文件保存路径 3、支持获取用户博客信息 4、支持显示用户所有的帖子列表 5、可以自己选择需要下载的帖子,有全选、反选、重置按钮 6、支持下载的文件保存为 pdf、doc、txt三种格式 7、生成的pdf、doc文件支持图片 8、支持进度显示 #################################################### 制作时间:2012年07月17日 - 2012年07月18日 制 作:w397090770 个人博客:http://blog.csdn.net/w397090770 Email :wyphao.2007@163.com 版权所有,翻版不究 ####################################################

2012-07-19

完整的JSP网站图书管理系统源码

这是我在大学做课程设计时制作的图书馆管理系统全部的源码 里面包括本系统所要的所有jar包,还有建的表,上次上来给大家分享。

2010-05-01

关于运动会分数统计系统数据结构 课程设计实验报告

关于运动会分数统计系统 数据结构 课程设计实验报告,全部源代码下载

2010-01-03

计算机网络第五版教材

计算机网络第五版pdf教材高清版 谢希仁

2011-11-19

百度文库免积分下载器(绿色版)

本软件包含: 文档分类、文档搜索、文档预览、文档复制粘贴、文档下载保存5大功能.,可以免费下载百度文库中所有的文档,包括收费的和免费的!不需登录,不需要积分财富值,一切轻松下载。 1、百度文库下载器 采用 Microsoft Visual Studio 2010 C# 开发,性能好,速度快,需要 .Net Framework 4 支持. 2、如果你的电脑未安装 .Net Framework 4,就无法运行软件,因此,请先安装后再运行本软件。 3、.Net Framework 4 下载地址:http://www.microsoft.com/downloads/zh-cn/details.aspx?FamilyID=0A391ABD-25C1-4FC0-919F-B21F31AB88B7 支持下载原版文档,包括文档格式和PPT图片等等,实现了完美下载!目前是互联网上唯一能够免费下载百度文库真正的原版文档。 10.8版本,升级内容: 因为百度和360搜索大站,百度改版,导致本软件原搜索失效,现在已经修复。截图依旧采用8.0版本,软件已更新。

2012-12-25

Lucene实战(第2版)中文版(免积分)

Lucene实战(第2版) 《lucene实战(第2版)》基于apache的lucene3.0,从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene,包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容,最后还提供了三大经典成功案例,为读者展示了一个奇妙的搜索世界。   《lucene实战(第2版)》适合于已具有一定java编程基本的读者,以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战(第2版)》对于从事搜索引擎工作的工程技术人员,以及在java平台上进行各类软件开发的人员和编程爱好者,也具有很好的学习参考价值。

2013-08-05

Hadoop实战-陆嘉恒

Hadoop实战-陆嘉恒,书比较入门级,入门的人可以看看

2013-12-02

SQL-DFS:一种基于HDFS 的海量小文件存储系统

针对Hadoop 分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时NameNode 内存占用率高的问题,通过分析HDFS 基础架构,提出了基于元数据存储集群的SQL-DFS 文件系统. 通过在NameNode 中加入小文件处理模块实现了小文件元数据由NameNode 内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对NameNode 的请求次数;通过将部分DataNode 文件块的校验工作交由元数据存储集群完成,进一步降低了NameNode 节点的负载压力. 最终通过搭建HDFS 和SQL-DFS 实验平台,对HDFS 和SQL-DFS 2 种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS 架构,具有更好的小文件存储能力,可用于海量小文件的存储.

2018-04-23

spark Streaming和structed streaming分析

spark Streaming和structed streaming分析,理解整个 Spark Streaming 的模块划分和代码逻辑。

2018-04-23

QCon北京2018-《Dubbo开源现状与未来规划》-罗毅.pdf

Dubbo是阿里巴巴自研的分布式服务框架,自2012年开源以来,深得开发人员的喜爱,并被广泛的被友商用于服务化解决方案中。自去年阿里巴巴中间件团队宣布重新维护依赖,在社区引起极大的反响,目前在github上的star数增加至15000。本次分享,为大家带来我们近期在Dubbo上所完成的一些工作,对Dubbo 3.0的规划,以及对积极推动开源的一些思考。

2018-05-15

HBase Procedure V2介绍

主要介绍一下Procedure V2的设计和结构,以及为什么用Procedure V2能比较容易实现出正确的AssignmentManager。最后介绍一下最近在2.1分支上对一些Procedure实现修正和改进。

2018-08-13

Spark AI Summit Europe 2018 全部PPT

Spark AI Summit Europe 2018 全部PPT,如有更新请关注https://www.iteblog.com/archives/2432.html

2018-10-13

Spark AI Summit Europe 2018 全部PPT - part1

Spark AI Summit Europe 2018 全部PPT,如有更新请关注https://www.iteblog.com/archives/2432.html

2018-10-13

过往记忆的留言板

发表于 2020-01-02 最后回复 2020-01-02

java读取网页保存之后都是乱码

发表于 2012-07-28 最后回复 2019-09-26

有谁和我一样一直找不到CSDN的用户空间页面?

发表于 2014-10-09 最后回复 2017-07-02

C结构体、C++结构体 和 C++类的区别

发表于 2012-06-29 最后回复 2017-04-05

PD4ML处理中文的页面怎么处理乱码的问题?

发表于 2012-07-16 最后回复 2016-10-19

java中JTextField怎么设置只能输入一个数字?

发表于 2012-04-08 最后回复 2016-08-14

linux 里面编写c语言用什么软件好用啊?

发表于 2010-04-28 最后回复 2015-06-10

hibernate怎么查询具体一行数据

发表于 2010-05-31 最后回复 2013-07-18

访问自己配置的juddi出现异常

发表于 2013-03-01 最后回复 2013-03-01

安装Joomla!配置mysql数据库时候出错?

发表于 2013-01-06 最后回复 2013-01-06

【【已答复】【腾讯2013校招笔试试题】资源怎么莫名被删掉?求解释!

发表于 2012-12-16 最后回复 2012-12-18

linux里面运行最简单的c程序居然出现这种情况

发表于 2010-04-29 最后回复 2012-11-23

Java中两个模板类对象怎么共享一个容器?

发表于 2012-09-25 最后回复 2012-09-25

java程序访问一个网站次多了就被限制IP了怎么处理?

发表于 2012-08-10 最后回复 2012-08-13

两个很大的数据相加如何实现?

发表于 2012-08-07 最后回复 2012-08-08

下面的两段代码为什么输出不一样??

发表于 2012-08-05 最后回复 2012-08-07

URL相对地址以及绝对地址怎么区分?

发表于 2012-07-28 最后回复 2012-07-28

下面的程序哪有出错了?

发表于 2012-07-25 最后回复 2012-07-25

【已处理】资源不存在为什么还要扣除我们的积分?

发表于 2012-07-14 最后回复 2012-07-16

java创建文件失败

发表于 2012-07-09 最后回复 2012-07-09

怎么求一个给定数组连续区间数之和绝对值最大

发表于 2012-05-12 最后回复 2012-05-13

这个程序哪里有问题??

发表于 2012-05-12 最后回复 2012-05-12

哪里可以下载ANSI C标准库里面函数实现的代码?

发表于 2012-05-11 最后回复 2012-05-11

下面程序哪里有问题

发表于 2012-04-09 最后回复 2012-04-09

C++内存泄漏问题

发表于 2012-03-23 最后回复 2012-03-23

谁有jsp的视屏教程下载网站啊

发表于 2009-12-28 最后回复 2012-02-18

如何得到canvas面板上图片的坐标?

发表于 2011-02-21 最后回复 2011-02-21

Ubuntu中网页各种插件安装命令

发表于 2010-05-01 最后回复 2010-10-10

制作一个24点游戏的算法…………

发表于 2010-07-13 最后回复 2010-07-13

哪里有像javaeye里面的UBB下载啊?

发表于 2010-05-01 最后回复 2010-07-13

懂制作网站的请进

发表于 2010-07-09 最后回复 2010-07-13

是学java有前途还是学c++或者c有前途??

发表于 2010-06-13 最后回复 2010-06-17

考研到底需要报辅导班不?

发表于 2010-06-11 最后回复 2010-06-12

用java制作一个词法分析器?

发表于 2010-06-11 最后回复 2010-06-11

懂hibernate请进【外键出错】…

发表于 2010-05-04 最后回复 2010-05-10

求助下拉式列表框(Select)

发表于 2010-05-08 最后回复 2010-05-08

Hibernate 怎么在查询语句里面进行排序

发表于 2010-05-07 最后回复 2010-05-08

Tomcat常见错误代号

发表于 2009-12-25 最后回复 2010-04-28

java里面的mouseDown时间的用法

发表于 2010-03-15 最后回复 2010-03-15

知道scwcd考试的请进

发表于 2009-12-25 最后回复 2009-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除