常见线性回归模型

线性回归公式线性回归公式:$$ { \hat y=\omega_0+\omega_1x_1+...+\omega_px_p } $$说明:数学上,我们把$\omega=(\omega_1,...,\omega_p)$称为系数(coefficient),$\omega_0$称为截距(intercept)。在机器学习里面,$y$是我们要预测的目标变量,$x_i$代表每个特征变量。$y$上面的小标记(hat)表示式子右边是对左边的最佳估计。上面的式子也可以表示为向量形式:$\hat y=X\omega$。这里的线性回归方程是超平面的线性回归方程。所以线性回归的模型很简单,就是一个超平面方程,接下来需

Hadoop系列七——Oozie任务死锁解决方案

Oozie是Apache下面的一个用于流程调度(workflow scheduler)的系统,主要用于管理Hadoop生态圈中的各种任务,目前支持丰富的任务类型:Java MR、Streaming MR、Pig、Hive、Sqoop、Spark、Shell等。如果想详细了解Ooize强大的调度功能,可参考其官方(http://oozie.apache.org/)文档。本文主要讨论使用Oozie来调度任务时可能出现的死锁问题。严格来说并不是Ooize导致的死锁,而是YARN的调度机制导致的死锁。我们先来解释一下何时会产生死锁,以及原因。之前在《Hadoop系列六——YARN调度策略》一文中我们已

使用Pandas探索数据

做数据分析时,对数据越了解,越有助于我们去分析,本文介绍如何使用Pandas探索数据。1. Pandas简介Pandas是Python中一个高性能库,提供了非常易用的数据结构以及丰富的函数工具用来做数据分析,所以该库在数据分析领域用的非常广泛。使用Pandas的关键点在于理解Pandas的两个核心数据结构:Series和DataFrame。1.1 SeriesSeries表示带有标签的一维数组(one-dimensional labeled array):数组内的元素可以是任意类型;label称为index,index可以不唯一,但必须是可哈希的类型(hashable type)。构造Seri

Hadoop系列六——YARN调度策略

在之前的《Hadoop系列三——YARN简介》中我们已经介绍了YARN的基本架构,但对于其调度策略只是简单提了一下,本文稍微深入一点,作为补充。YARN总共有三种调度策略:FIFO、Capacity Scheduler、Fair Scheduler。FIFO就是先进先出,最简单,实际中用的也比较少,这里就不再赘述了。Capacity Scheduler比Fair Scheduler出现的早,但随着慢慢的发展和改进,这二者的差异也越来越小了(个人觉得以后这两个合并为一个也是有可能的)。使用情况的话目前CDH(版本为5.8.2)默认使用Fair Scheduler,HDP(版本为2.6)默认使用C

Hadoop系列五——HBase简介(续)

本文是对《Hadoop系列四——HBase简介》一文的补充,不过本文不会进行系统性介绍,只是针对一个个独立的点介绍,并且会不断更新,有点类似于FAQ吧。1. HBase的架构图简易版架构图:复杂版架构图:架构讲解见《Hadoop系列四——HBase简介》。2. HBase的数据模型在《Hadoop系列四——HBase简介》里面已经介绍过HBase的数据模型了,但这个的确非常重要,这里再做一些补充。HBase是根据Google的Bigtable论文实现的开源版"Bigtable",所以对Bigtable的描述同样适用于HBase:A Bigtable is a sparse, distribut

Hadoop系列四——HBase简介

1. 概述HBase是Apache下的一个顶级项目,是Hadoop Database的简写。虽然也是数据库,但它不同于传统的关系型数据库,也不同于很多NoSQL,它的诞生就是为了解决海量数据的存储查询.官方对于HBase项目的说明如下:Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project's goal is the hosting of very large tables -- billions of rows X millions of columns

区块链学习(1)

区块链那么火,作为一个有理想的工程师,不去学习下实在说不过去。什么是区块链(BlockChain)?我觉得这篇文章讲的通俗易懂,推荐一下:《1分钟了解区块链的本质》,这里摘抄一下总结:区块是一块存储空间,可以存储数据区块链不但像链表一样把区块串起来,还有约定了一系列的方法管理这些数据,所以它是存储系统区块链有很多节点,每个节点都保存了全部的数据,所以它是高可用的每一个中心节点都可以生成区块,并写入数据,所以每一个点都是中心节点,或者说区块链是去中心化的,要想控制整个系统,必须控制一半以上的节点,才能控制投票,于是这个系统没有管理员综上,区块链实际上是一个没有管理员的,去中心化的,每个节点都拥有

ELK+Filebeat小试

ELKELK(Elasticsearch, Logstash, Kibana)是什么?网上很多,本文就不赘述了,这里推荐IBM的一篇文章:ELK+Filebeat 集中式日志解决方案详解,感觉图文并茂,讲的挺不错,而且里面也对Beat做了简单的说明。Logstash vs Filebeat这里也推荐一篇文章:Filebeat vs. Logstash — The Evolution of a Log Shipper.如果你觉得上面的文章有些长,那我总结一下。先看下二者的历史:把Logstash和FileBeat放在一起比较其实不是非常合适,因为二者往往是互补的关系,可以配合使用,但这里放在一起
|