时间轨迹 - 享受学习与思考的乐趣

Hadoop系列四——HBase简介

1. 概述HBase是Apache下的一个顶级项目,是Hadoop Database的简写。虽然也是数据库,但它不同于传统的关系型数据库,也不同于很多NoSQL,它的诞生就是为了解决海量数据的存储查询.官方对于HBase项目的说明如下:Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project's goal is the hosting of very large tables -- billions of rows X millions of columns

区块链学习(1)

区块链那么火,作为一个有理想的工程师,不去学习下实在说不过去。什么是区块链(BlockChain)?我觉得这篇文章讲的通俗易懂,推荐一下:《1分钟了解区块链的本质》,这里摘抄一下总结:区块是一块存储空间,可以存储数据区块链不但像链表一样把区块串起来,还有约定了一系列的方法管理这些数据,所以它是存储系统区块链有很多节点,每个节点都保存了全部的数据,所以它是高可用的每一个中心节点都可以生成区块,并写入数据,所以每一个点都是中心节点,或者说区块链是去中心化的,要想控制整个系统,必须控制一半以上的节点,才能控制投票,于是这个系统没有管理员综上,区块链实际上是一个没有管理员的,去中心化的,每个节点都拥有

ELK+Filebeat小试

ELKELK(Elasticsearch, Logstash, Kibana)是什么?网上很多,本文就不赘述了,这里推荐IBM的一篇文章:ELK+Filebeat 集中式日志解决方案详解,感觉图文并茂,讲的挺不错,而且里面也对Beat做了简单的说明。Logstash vs Filebeat这里也推荐一篇文章:Filebeat vs. Logstash — The Evolution of a Log Shipper.如果你觉得上面的文章有些长,那我总结一下。先看下二者的历史:把Logstash和FileBeat放在一起比较其实不是非常合适,因为二者往往是互补的关系,可以配合使用,但这里放在一起

Hadoop系列三——YARN简介

YARN(Yet Another Resource Negotiator)是Hadoop 2中开发的一个资源管理框架,主要用于改善之前Hadoop版本中的一些问题。和Mesos类似,是一个比较通用的分布式集群资源管理框架,目前主要用在Hadoop生态圈中。不过YARN一般主要是配合一些其他计算框架使用(比如spark、MapReduce 2(Hadoop 2)、Tez等),用户一般无需关注YARN管理资源的细节,也无需使用YARN提供的API,这些细节都在计算框架中处理好了,我们只需要使用计算框架提供的功能即可。所以本文主要介绍一下YARN的基本架构和一些关键点。架构解析和HDFS类似,YAR

Hadoop系列二——HDFS简介

在前文《Hadoop部署》中,我们已经提到过HDFS(Hadoop Distributed File System),它是Hadoop核心的一部分,是Hadoop默认使用的一套分布式文件系统。这里之所以说默认,是因为Hadoop项目其实有一层比较通用的文件系统抽象层,这使得它可以使用多种文件系统,比如本地文件系统、Amazon S3等。当然本文主要介绍HDFS。设计目标优势我们知道Hadoop是为了处理大数据而诞生的一个系统,而HDFS是为了存储大数据而生的一个分布式文件系统,所以他在设计上就考虑了很多大数据处理存储的一些特点,下面我们介绍HDFS在设计上就做的一些假设前提和目标:硬件错误。硬

confusion matrix,precision,recall,F1-score,ROC,AUC,p-value概念总结

机器学习中二元分类模型是非常常见的,也有很多的算法模型,今天我们来简单汇总一下评估二分类模型性能的一些方法,当然有些不局限于二分类模型。这里的简单有两层含义:只汇总了一部分,并不全面。很多评估方式都来在统计学理论,而且有一些还是存在争论的(比如p-value),所以这里不是详细讲解每种评估方法,而是做简单说明,让你知道每个值表示的含义,从而知道自己的模型性能如何。或者说当你使用一些机器学习框架输出了模型的一些性能相关的描述时,你知道每一项代表什么含义。为了保证一致性,术语类的优先采用原始英文,不做翻译。Positive & Negative所谓二分类,就是指预测的目标值为1或0,用来代表“是/

Python中单双下划线的区别

注:本文大部分内容参考自Difference between _, and __xx in Python.在学习Python的时候,很多人都不理解为什么在方法(method)前面会加好几个下划线,有时甚至两边都会加,比如像__this__这种。在我看到上面的文章之前,我一直以为Python中这些下划线的作用就像Golang中方法/函数的大小写一样,或是一些其他语言中的private、public的作用一样,但仔细深究,这不全是Python这样设计的初衷。下面我们具体分析。单下划线开头我们经常看到方法或者属性前面加了单下划线,并认为它表示该方法或者属性是该类型(Python和Golang一样,

机器学习介绍

概念术语介绍维基百科上面是这样定义的:Machine learning is a field of computer science that gives computers the ability to learn without being explicitly programmed.就是说让计算机在不显式编程的情况下具备学习的能力。再往细了说机器学习要解决这样的问题:给我们一些已知的样本数据,然后我们要能预测出未知数据的一些特性。一般我们将已知的样本数据的列称为属性或者特征,将我们要预测的目标特性称(或称为目标变量)之为类别或标签。大的我们可以将机器学习分为两类:监督学习(supervi
|