计算词频,即分词后计算文章的总词数和每个词的出现次数,词数较多可取TOPk
//$tf = 词出现次数 / 总词数
计算IDF,语料可使用百度/Google结果数:
//$idf = log( 总文档数 / 包含词的文档数, 2);
$idf = log( $total_document_count / $documents_with_term, 2);
计算TF-IDF,值越大分类能力越强:
$tfidf = $tf * $idf
标签:none
发布时间:December 21, 2014 // 分类:PHP // No Comments
计算词频,即分词后计算文章的总词数和每个词的出现次数,词数较多可取TOPk
//$tf = 词出现次数 / 总词数
计算IDF,语料可使用百度/Google结果数:
//$idf = log( 总文档数 / 包含词的文档数, 2);
$idf = log( $total_document_count / $documents_with_term, 2);
计算TF-IDF,值越大分类能力越强:
$tfidf = $tf * $idf
标签:none