Nginx更新后经常遇到这样的问题,解决方法:
fuser -k 80/tcp && /etc/init.d/nginx start
或
killall -9 nginx && /etc/init.d/nginx start
发布时间:December 26, 2014 // 分类:Nginx // No Comments
Nginx更新后经常遇到这样的问题,解决方法:
fuser -k 80/tcp && /etc/init.d/nginx start
或
killall -9 nginx && /etc/init.d/nginx start
发布时间:December 25, 2014 // 分类:DNS,网络工具 // No Comments
现在各大网站都使用了CDN根据的DNS查询服务器IP返回相应的IP,Dnsyo可以通过全球多个开放DNS服务器获取某个域名相应的DNS记录,当然DNS服务器要未使用edns-client-subnet。
使用EPEL源可直接安装Dnsyo:
yum install dnsyo
Dnsyo使用语法:
dnsyo [options] domain [type]
type #查询类型(A, CNAME, MX, etc.)
选项参数:
#自定义DNS服务器列表
--resolvlist RESOLVLIST, -l RESOLVLIST
#debug输出模式
--verbose, -v
#简单输出,便于解析返回IP
--simple, -s
#扩展输出,DNS服务器和所在国家
--extended, -x
#查询线程数
--threads THREADS, -t THREADS
#查询DNS服务器数量,默认随机500 -q=ALL所有
--servers SERVERS, -q SERVERS
#查询DNS所在国家,如-c=CN
--country COUNTRY, -c COUNTRY
使用示例:
dnsyo -q=ALL -c=CN -s www.qq.com A
发布时间:December 24, 2014 // 分类:PHP // 1 Comment
首先使用TF-IDF算法提取两篇文章的关键词,并合并成一个集合,
如关键词较多可使用堆取TOPK关键词。
然后计算每篇文章对于这个集合中的词的词频,即单词数/总词数,然后生成各自词频向量。
PHP计算相似度示例代码如下:
<?php
function similarity(array $vec1, array $vec2) {
return dotProduct($vec1, $vec2) / (absVector($vec1) * absVector($vec2));
}
function dotProduct(array $vec1, array $vec2) {
$result = 0;
foreach (array_keys($vec1) as $key1) {
foreach (array_keys($vec2) as $key2) {
if ($key1 === $key2) $result += $vec1[$key1] * $vec2[$key2];
}
}
return $result;
}
function absVector(array $vec) {
$result = 0;
foreach (array_values($vec) as $value) {
$result += $value * $value;
}
return sqrt($result);
}
//文章词频向量
$v1 = array('我们' => 5, '设计' => 2, '一个' => 1, '算法' =>0, '任意' => 0, '相似' => 1);
$v2 = array('我们' => 5, '设计' => 0, '一个' => 3, '算法' =>0, '任意' => 0, '相似' => 1);
//计算相似度,值越大相似程度越高
$result1 = similarity($v1,$v2);
var_dump($result1);
参考:
http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
发布时间:December 24, 2014 // 分类:PHP // 1 Comment
class Trie{
public $tree = array();
public function insert($str){
$count = strlen($str);
$T = &$this->tree;
//关联数组递归各个字符,无则新建
for($i = 0; $i < $count; $i++){
$c = $str[$i];
if (!isset($T[$c]))
$T[$c] = array();
$T = &$T[$c];
}
}
public function remove($chars){
if($this->find($chars)){
$count = strlen($chars);
$T = &$this->tree;
for($i = 0;$i < $count;$i++){
$c = $chars[$i];
if(count($T[$c]) == 1){
unset($T[$c]);
return true;
}
$T = &$T[$c];
}
}
}
public function find($chars){
$count = strlen($chars);
$T = &$this->tree;
//循环遍历各个字符,如无则返回false
for($i = 0;$i < $count;$i++){
$c = $chars[$i];
if(!array_key_exists($c, $T)){
return false;
}
$T = &$T[$c];
}
//否则返回找到
return true;
}
}
$t = new Trie();
$t->insert('str');
var_dump($t->find('str'));
更多:
https://github.com/fran6co/phptrie
http://kaiserleib.com/archives/63
http://www.cnblogs.com/endsock/p/3584161.html
发布时间:December 21, 2014 // 分类:PHP // No Comments
计算词频,即分词后计算文章的总词数和每个词的出现次数,词数较多可取TOPk
//$tf = 词出现次数 / 总词数
计算IDF,语料可使用百度/Google结果数:
//$idf = log( 总文档数 / 包含词的文档数, 2);
$idf = log( $total_document_count / $documents_with_term, 2);
计算TF-IDF,值越大分类能力越强:
$tfidf = $tf * $idf