欢迎大家访问博主的博客新家:IT博客达人网 (http://www.blogdaren.com)[耶]
  • 【Algorithm】使用SimHash进行海量文本去重

    manon 2016-2-24 19:23 数据结构和算法 抢沙发 934人打酱油
    【Algorithm】使用SimHash进行海量文本去重
    本文介绍的SimHash是一种局部敏感hash,它也是Google公司进行海量网页去重使用的主要算法。 1. SimHash与传统hash函数的区别 传统的Hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上仅相当于伪随机数产生算法。传统的hash算法产生的两个签名,如果原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只...
  • PHP二分法查找算法原理和代码实现

    manon 2014-9-28 23:34 数据结构和算法 抢沙发 1664人打酱油
    PHP二分法查找算法原理和代码实现
    二分法查找算法原理: 当数据量很大时适宜采用该方法。采用二分法查找时,数据需是排好序的。主要思想是:(设查找的数组区间为array[low, high])(1)确定该期间的中间位置K(2)将查找的值T与array[k]比较。若相等,查找成功返回此位置;否则确定新的查找区域,继续二分查 找。区域确定如下:a.array[k]>T 由数组的有序性可知array[k,k+1,……,...
  • 我是如何向老婆解释什么是MapReduce的?

    manon 2013-12-30 0:03 数据结构和算法 抢沙发 742人打酱油
    我是如何向老婆解释什么是MapReduce的?
    FROM:  http://blog.jobbole.com/1321/ 昨天,我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利,听众们都能够理解MapReduce的概念(根据他们 的反馈)。我成功地向技术听众们(主要是Java程序员,一些Flex程序员和少数的测试人员)解释了MapReduce的概念,这让我感到兴奋。在所有 辛勤的工作之后,我们在X...
  • UUID会重复吗?

    manon 2013-6-4 16:16 数据结构和算法 抢沙发 2351人打酱油
    UUID会重复吗?
    如果你可以去试图产生重复的,是可以的,但也没那么容易。 按照开放软件基金会(OSF)制定的标准计算,用到了以太网卡地址、纳秒级时间、芯片ID码等内容,大致可以理解如下(实际上不同实现所采用的具体规则还是有差异的): MAC地址:故意情况下可重复; 机器标识:Java下就是JVM标识,故意情况下可重复; 纳秒级当前时间:故意情况下可重复; 随机数:小概率重复; 自增序列数(或时钟序列):循环溢出时...