confusion matrix,precision,recall,F1-score,ROC,AUC,p-value概念总结

机器学习中二元分类模型是非常常见的,也有很多的算法模型,今天我们来简单汇总一下评估二分类模型性能的一些方法,当然有些不局限于二分类模型。这里的简单有两层含义:只汇总了一部分,并不全面。很多评估方式都来在统计学理论,而且有一些还是存在争论的(比如p-value),所以这里不是详细讲解每种评估方法,而是做简单说明,让你知道每个值表示的含义,从而知道自己的模型性能如何。或者说当你使用一些机器学习框架输出了模型的一些性能相关的描述时,你知道每一项代表什么含义。为了保证一致性,术语类的优先采用原始英文,不做翻译。Positive & Negative所谓二分类,就是指预测的目标值为1或0,用来代表“是/

Python中单双下划线的区别

注:本文大部分内容参考自Difference between _, and __xx in Python.在学习Python的时候,很多人都不理解为什么在方法(method)前面会加好几个下划线,有时甚至两边都会加,比如像__this__这种。在我看到上面的文章之前,我一直以为Python中这些下划线的作用就像Golang中方法/函数的大小写一样,或是一些其他语言中的private、public的作用一样,但仔细深究,这不全是Python这样设计的初衷。下面我们具体分析。单下划线开头我们经常看到方法或者属性前面加了单下划线,并认为它表示该方法或者属性是该类型(Python和Golang一样,

机器学习介绍

概念术语介绍维基百科上面是这样定义的:Machine learning is a field of computer science that gives computers the ability to learn without being explicitly programmed.就是说让计算机在不显式编程的情况下具备学习的能力。再往细了说机器学习要解决这样的问题:给我们一些已知的样本数据,然后我们要能预测出未知数据的一些特性。一般我们将已知的样本数据的列称为属性或者特征,将我们要预测的目标特性称(或称为目标变量)之为类别或标签。大的我们可以将机器学习分为两类:监督学习(supervi

Hadoop部署

Hadoop介绍Hadoop是Apache下面的一个开源的、可靠地、可扩展的分布式计算存储系统。Hadoop项目中主要包含四个部分:Hadoop Common:用于支持Hadoop其他模块的一些公共程序。Hadoop Distributed File System (HDFS):Hadoop使用的一个高吞吐量的分布式文件系统。Hadoop YARN:用于Hadoop任务调度和集群资源管理的框架。Hadoop MapReduce:基于YARN的并行处理系统,用于处理大数据,MapReduce也是一种编程模型。当我们从Hadoop官网下载二进制包安装好一个Hadoop集群后,就包含上面四个部分。当

用图数据库neo4j分析《权力的游戏》人物领土等关系

最近研究图数据库neo4j的时候发现了一个非常好玩的东西——利用图数据库分析非常火的美剧《权力的游戏》里面错综复杂的人物、领土等关系。写在前面本文不是科普图数据库neo4j的文章,所以不会涉及太多该数据库如何使用等细节(比如Node、Relationship、Property等概念,以及Cypher语法),但是也会简单涉及如何安装、配置等步骤,但是这不是重点,重点是用这个东西理出小说里面的人物关系等。如果对数据库本身有兴趣的,请移步http://neo4j.com。后续我应该也会写一些相关的文章来介绍该数据库如何使用。所以,本文不是技术性文章,如果你是来学技术的,此时已经可以按下ctrl+w了

Mac下SVN使用方案推荐

现在虽然Git大行其道,但是也在所难免会有使用SVN的场景(比如我原来在华为的部门用的就是SVN),毕竟相比于Git,SVN使用起来还是简单很多,而且Git更适合于开源模式的写作。好吧,工具无绝对的优劣,不比较了,没什么意义。本文主要推荐一个我认为在Mac下还比较优雅的SVN解决方案。当然,如果你的开发工具是诸如Eclipse、IDEA等高级IDE的话,一般这种IDE集成的版本管理工具就足够用了,你也没有太大必要再继续往下看了...相信很多Mac用户会发现,在Mac上Git的客户端还挺多,比如SourceTree就是一个非常棒的而且免费的Git客户端,但是SVN却没有什么比较像样的客户端,免费

Alfred版本修改内置Terminal为iTerm2

Alfred是Mac下一个非常强大的工具,网上有许多如何使用的教程,我目前也只是会使用一些基本功能。其中一个我特别喜欢的功能就是直接可以在Alfred里面输入shell命令(默认需要在命令前家>符号,表示是shell命令),然后就会自动打开终端执行。但这里有个问题就是Alfred默认使用Mac自带的Terminal,而大多数在Mac经常使用终端的一般都会使用iTerm2,因为它配合zsh+oh my zsh,真的是非常强大。对于目前最新的iTerm 3.x版本,可以通过如下方法将Alfred内置的Terminal改为iTerm2:打开Alfred的"Preferences->fea

自问自答

Q:为什么两个多月没有更新博客了?A:这两个多月,不,准确来说过完年过来就没再怎么做比较靠谱的和技术相关的东西了,所以感觉也没有什么可写的。Q:为什么呢?A:公司组织结构调整,研究院战略转型。别人能做出来的技术就是low的,我们要做别人做不出来的东西(好像是这样子的吧...)。Q:然后你就离职了?A:其实从有离职的想法到最后决定走还是有一个比较长的周期的,就像谈恋爱一样,再最终分手前还会一会幻想着一些时间可能会发生改变。可越等越发现自己在这里没有任何作用:做牛逼的东西给别人展示需要的是前端,不需要后台;各种调研汇报需要的是精通PPT、Excel,精通百度百科的人,然而我一样都不擅长;还有各种P
|