最新消息:非无江海志,潇洒送日月

科学研究

基于浏览器隐藏www子域名的攻击与子域名泛解析劫持攻击

基于浏览器隐藏www子域名的攻击与子域名泛解析劫持攻击

江海志 1个月前 (09-17) 126浏览 1评论

Chrome 决定在版本70中隐藏地址栏里的www域名头部。虽说从用户角度来说,www加不加通常没区别,但从技术上来说,www和非www根本不是一个域,换句话说,它们完全是两个网站;这两个网站可能由同一个人控制,也可能由不同的人控制。如果是后者,隐藏www就会出现问题。 一个实际的例子是,www.net.cn是万网的域名,然而它和net.cn完全无关——net.cn是中国版的n...

通过例子与细节来通俗易懂理解聚类(K-Means)算法

通过例子与细节来通俗易懂理解聚类(K-Means)算法

江海志 1个月前 (09-10) 118浏览 0评论

聚类 今天说聚类,但是必须要先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。 分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是垃圾”,过一段时间,Gmail就体现出一定的智能,能够自动过滤掉一些垃圾邮件了。...

计算机分领域顶级会议介绍

江海志 1个月前 (09-04) 110浏览 0评论

比较权威的计算机会议排名就是CCF的那个排名,大家可以参考。 这里列出大家公认的计算机分领域著名会议(又名:顶级会议,顶会) Networking – SIGCOMM, NSDI, CoNEXT, MobiCom, MobiSys, WWW, INFOCOM Measurement – IMC, SIGMETRICS, Performance, IWQ...

N-gram语言模型简单介绍与理解教程

江海志 2个月前 (08-22) 111浏览 0评论

考虑一个语音识别系统,假设用户说了这么一句话:“I have a gun”,因为发音的相似,该语音识别系统发现如下几句话都是可能的候选:1、I have a gun. 2、I have a gull. 3、I have a gub. 那么问题来了,到底哪一个是正确答案呢? 一般的解决方法是采用统计的方法。即比较上面的1、2和3这三句话哪一句在英语中出现的概率最高,哪句概率最高就...

马尔可夫链蒙特卡洛(MCMC)采样详解

江海志 4个月前 (07-03) 254浏览 1评论

这几天在看有关multimodal learning(多模态学习)的一些内容,随之就牵扯出了boltzman机,mcmc(马尔可夫链蒙特卡洛)采样等一系列内容。总之mcmc采样是ml领域非常重要的一个理论,此外,目前能找到的书籍或网络资源很多说的都不是很清楚。所以我决定为此专门写一篇博客。 要去讲清楚一个算法或一个模型,通常首先得明确两点,一是使用它的背景,二是更具针对性的该...

马尔可夫链及吉布斯抽样(Markov Chain Monte Carlo and Gibbs Sampling)详解

江海志 4个月前 (06-29) 242浏览 0评论

马尔可夫链及吉布斯抽样(Markov Chain Monte Carlo and Gibbs Sampling)详解 理解MCMC及一系列改进采样算法的关键在于对马尔科夫随机过程的理解。更多详尽的讨论请参见 重温马尔科夫随机过程。 对于给定的概率分布 ,我们希望能有便捷的方式生成它()对应的样本。由于马氏链能收敛到平稳分布,于是一个很nice的想法(by Metropolis,...

极大似然算法maximum likelihood 以及 EM算法详解

江海志 4个月前 (06-25) 170浏览 0评论

机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引了那么多世人的目光。 我希望自己能通俗地把它理解或者说明白,但是,EM这个问题感觉真的不太好用通俗的语言去说明...

什么是P问题、NP问题,NPC问题和NP-hard问题

江海志 4个月前 (06-19) 164浏览 0评论

这或许是众多OIer最大的误区之一。 你会经常看到网上出现“这怎么做,这不是NP问题吗”、“这个只有搜了,这已经被证明是NP问题了”之类的话。你要知道,大多数人此时所说的NP问题其实都是指的NPC问题。他们没有搞清楚NP问题和NPC问题的概念。NP问题并不是那种“只有搜才行”的问题,NPC问题才是。好,行了,基本上这个误解已经被澄清了。下面的内容都是在讲什么是P问题,什么是NP...

详细分析HTTPS 原理以及为什么要这么做

详细分析HTTPS 原理以及为什么要这么做

江海志 7个月前 (03-31) 352浏览 0评论

前言 HTTPS(全称:HyperText Transfer Protocol over Secure Socket Layer),其实 HTTPS 并不是一个新鲜协议,Google 很早就开始启用了,初衷是为了保证数据安全。 近两年,Google、Baidu、Facebook 等这样的互联网巨头,不谋而合地开始大力推行 HTTPS, 国内外的大型互联网公司很多也都已经启用了全...

关于泊松分布的理解

江海志 7个月前 (03-16) 486浏览 0评论

首先必须由二项分布引出: 如果做一件事情成功的概率是 p 的话,那么独立尝试做这件事情 n 次,成功次数的分布就符合二项分布。展开来说,在做的 n 次中,成功次数有可能是 0 次、1 次 …… n次。成功 i 次的概率是: ( n 中选出 i 项的组合数) * p ^ i * (1-p)^ (n-i) 以上公式很容易推导,用一点概率学最基本的知识就够了。因为每一特定事件成功的概...

GPG的生成随机数的原理思考

江海志 7个月前 (03-14) 493浏览 0评论

“随机数”不等于“随便产生的数”。 用于密码学的“真随机数”必须满足其分布为平均分布(uniform random distribution)这个要求。而这个,在技术实现上是很难的,采样、启动噪声源都是导致随机bit产生的速度远远慢于“随便弄个数”的原因。 “伪随机”(pseudorandom)的字面意思是说,“看起来像真随机”。 学界已经有很多怎么把...

stack frame栈帧简介

stack frame栈帧简介

江海志 7个月前 (03-13) 536浏览 0评论

0x01 栈帧是什么 “IA32 programs make use of the program stack to support procedure calls”. “IA32程序使用程序栈帧来支持子程序调用”(出自CSAPP,即《深入理解计算机系统》) 个人理解,栈帧就是内存的一段数据,在内存栈区域,对子程序的数据进行一个临时保存。 什么是栈? 栈和堆类似,都是操作系统中...

程序或-内存区域分配(五个段)

程序或-内存区域分配(五个段)

江海志 7个月前 (03-13) 413浏览 0评论

一. 在学习之前我们先看看ELF文件。 ELF分为三种类型:.o 可重定位文件(relocalble file),可执行文件以及共享库(shared library),三种格式基本上从结构上是一样的,只是具体到每一个结构不同。下面我们就从整体上看看这3种格式从文件内容上存储的方式,spec上有张图是比较经典的:如上图: 其实从文件存储的格式来说,上面的两种view实际上是一样...

ELF文件格式解析

ELF文件格式解析

江海志 7个月前 (03-13) 471浏览 0评论

1. ELF文件简介 首先,你需要知道的是所谓对象文件(Object files)有三个种类: 可重定位的对象文件(Relocatable file) 这是由汇编器汇编生成的 .o 文件。后面的链接器(link editor)拿一个或一些 Relocatable object files 作为输入,经链接处理后,生成一个可执行的对象文件 (Executable file) 或...