海运的博客

PHP CURL Keepalive连接重用

发布时间：January 4, 2015 // 分类：PHP // No Comments

PHP CURL默认支持keepalive连接复用，单个CURL注意要复用handle才可以：

<?php
   $ch1 = curl_init();
   curl_setopt($ch1, CURLOPT_URL, "https://www.haiyun.me/");
   curl_setopt($ch1, CURLOPT_HTTPHEADER, array(
    'Connection: Keep-Alive',
    'Keep-Alive: 300'
   ));
   curl_setopt($ch1, CURLOPT_FORBID_REUSE, 0);
   curl_setopt($ch1, CURLOPT_RETURNTRANSFER,1);
   curl_exec($ch1);

   curl_setopt($ch1, CURLOPT_URL, "https://www.haiyun.me/");
   curl_setopt($ch1, CURLOPT_RETURNTRANSFER,1);
   curl_exec($ch1);
   curl_close($ch1);

Multi_CURL无需复用handle即默认支持keepalive连接复用，当然也可复用handle，详情见：自用完美php异步并行 multi curl类

$master = curl_multi_init();
$done = curl_multi_info_read($master)
#删除handle
curl_multi_remove_handle($master, $done['handle']);
#复用删除的handle
curl_multi_add_handle($master, $ch);

GO协程同步及限制协程数

发布时间：January 3, 2015 // 分类：GO // No Comments

使用同步锁同步：

package main

import "fmt"
import "time"
import "sync"

func main() {
        var wg sync.WaitGroup
        //生成带缓存的chan
        var limit = make(chan struct{}, 10)

        for i := 0; i < 100; i++ {
                //写入chan，直到缓存写满阻塞，即限制协程数
                limit <- struct{}{}
                //同步计数加1
                wg.Add(1)
                go func(i int) {
                        time.Sleep(1000 * time.Millisecond)
                         fmt.Println(i)
                        //协程内任务完成读取chan，主协程可继续写入chan
                        <-limit
                        //同步计数减1
                        defer wg.Done()
                }(i)
        }
        //同步阻塞直到计数为0，即所有协程完成
        wg.Wait()
}

使用channel同步：

package main

import "fmt"
import "time"

var sync chan int;
func foo(i int) {
        fmt.Println(i)
        time.Sleep(time.Second) 
        sync <- 0 
}

func main() {
        count := 100
        sync = make(chan int, count) 

        for i := 0; i < count; i++ {
                go foo(i)
        }

        //等待所有协程完成
        for i := 0; i < count; i++ {
                <-sync
        }
}

Nginx [emerg] listen() to 0.0.0.0:80, backlog 511 failed (98: Address already in use)

发布时间：December 26, 2014 // 分类：Nginx // No Comments

Nginx更新后经常遇到这样的问题，解决方法：

fuser -k 80/tcp && /etc/init.d/nginx start
或
killall -9 nginx && /etc/init.d/nginx start

从全球开放DNS查询域名解析结果

发布时间：December 25, 2014 // 分类：DNS,网络工具 // No Comments

现在各大网站都使用了CDN根据的DNS查询服务器IP返回相应的IP，Dnsyo可以通过全球多个开放DNS服务器获取某个域名相应的DNS记录，当然DNS服务器要未使用edns-client-subnet。
使用EPEL源可直接安装Dnsyo：

yum install dnsyo

Dnsyo使用语法：
dnsyo [options] domain [type]
  type      #查询类型(A, CNAME, MX, etc.)
 
选项参数：
#自定义DNS服务器列表
  --resolvlist RESOLVLIST, -l RESOLVLIST
#debug输出模式
  --verbose, -v   
#简单输出，便于解析返回IP
  --simple, -s         
#扩展输出，DNS服务器和所在国家
  --extended, -x      
#查询线程数
  --threads THREADS, -t THREADS
#查询DNS服务器数量，默认随机500 -q=ALL所有
  --servers SERVERS, -q SERVERS
#查询DNS所在国家，如-c=CN
  --country COUNTRY, -c COUNTRY

使用示例：

dnsyo -q=ALL -c=CN -s www.qq.com A

PHP TF-IDF与余弦相似性计算文章相似性

发布时间：December 24, 2014 // 分类：PHP // 1 Comment

首先使用TF-IDF算法提取两篇文章的关键词，并合并成一个集合，
如关键词较多可使用堆取TOPK关键词。
然后计算每篇文章对于这个集合中的词的词频，即单词数/总词数，然后生成各自词频向量。
PHP计算相似度示例代码如下：

<?php
function similarity(array $vec1, array $vec2) {
  return dotProduct($vec1, $vec2) / (absVector($vec1) * absVector($vec2));
}

function dotProduct(array $vec1, array $vec2) {
  $result = 0;
  foreach (array_keys($vec1) as $key1) {
    foreach (array_keys($vec2) as $key2) {
      if ($key1 === $key2) $result += $vec1[$key1] * $vec2[$key2];
    }
  }
  return $result;
}

function absVector(array $vec) {
  $result = 0;
  foreach (array_values($vec) as $value) {
    $result += $value * $value;
  }
  return sqrt($result);
}

//文章词频向量
$v1 = array('我们' => 5, '设计' => 2,  '一个' => 1, '算法' =>0, '任意' => 0, '相似' => 1);
$v2 = array('我们' => 5, '设计' => 0,  '一个' => 3, '算法' =>0, '任意' => 0, '相似' => 1);
//计算相似度，值越大相似程度越高
$result1 = similarity($v1,$v2);
var_dump($result1);

参考：
http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html