代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
CSharp
】
计算权重
作者:
善培
/ 发布于
2015/6/25
/
954
using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.IO; using System.Runtime.InteropServices; using System.Text.RegularExpressions; using System.Windows.Forms; namespace TFIDF { public partial class Form1 : Form { public Dictionary<int, Dictionary<string, int>> docs = new Dictionary<int, Dictionary<string, int>>(); public List<string> indexToTerm = new List<string>();//存放所有的词 public List<double> wordfreq = new List<double>(); public List<double> docfreq = new List<double>(); public Form1() { InitializeComponent(); } public bool preprocess(string path) { StreamReader sr = new StreamReader(path,Encoding.GetEncoding("GB2312")); int id = docs.Count; docs.Add(id, new Dictionary<string,int>()); string buff = sr.ReadToEnd().Trim(); List<string> words = buff.Split(new string[] { " " }, StringSplitOptions.RemoveEmptyEntries).ToList(); foreach (string word in words) {//按词遍历 if (docs[id].ContainsKey(word)) { //List<string> ss = new List<string>(); //ss.AddRange(docs[id].Keys); //if(ss.Contains(word)) docs[id][word] += 1; } else { indexToTerm.Add(word);//所有语料的词list docs[id].Add(word,1); } //MessageBox.Show(docs[id][word].ToString()); } sr.Close(); return true; } //计算tf public void comput_tf() { int i; int j; int pos = 0; int sum; for (i = 0; i < docs.Count; i++)//docs.count是文档数 { sum = 0; for (j = pos; j < pos + docs[i].Count; j++) { sum += docs[i][indexToTerm[j]]; } for (j = pos; j < pos + docs[i].Count; j++) { double tf = Convert.ToDouble(docs[i][indexToTerm[j]]) / Convert.ToDouble(sum); wordfreq.Add(tf); } pos += docs[i].Count; } } //计算idf public void comput_idf() { double idf; int i,j; int n; for (i = 0; i < indexToTerm.Count; i++) { n = 0; for (j = 0; j < indexToTerm.Count; j++) { if (indexToTerm[i] == indexToTerm[j]) { n = n + 1; } } idf = Convert.ToDouble(Math.Log(Convert.ToDouble(docs.Count) /Convert.ToDouble(n), 2)); docfreq.Add(idf); } } private void button1_Click(object sender, EventArgs e) { string filedir = "data"; List<string> list_weibo = Directory.GetFiles(filedir).ToList(); List<double> result = new List<double>(); foreach (string file in list_weibo) { preprocess(file); } comput_tf(); // for (int ii = 0; ii < wordfreq.Count; ii++) { MessageBox.Show(wordfreq[ii].ToString()); } comput_idf(); //for (int ii = 0; ii < docfreq.Count; ii++) { MessageBox.Show(docfreq[ii].ToString()); } for (int i = 0; i < indexToTerm.Count; i++) { //MessageBox.Show(indexToTerm[i]); double tfidf = wordfreq[i] * docfreq[i]; result.Add(tfidf); } for (int k = 0; k < result.Count; k++) { textBox1.Text += result[k]+" "; } } } }
试试其它关键字
计算权重
同语言下
.
文件IO 操作类库
.
Check图片类型[JPEG(.jpg 、.jpeg),TIF,GIF,BMP,PNG,P
.
机器名和IP取得(IPV4 IPV6)
.
Tiff转换Bitmap
.
linqHelper
.
MadieHelper.cs
.
RegHelper.cs
.
如果关闭一个窗体后激活另一个窗体的事件或方法
.
创建日志通用类
.
串口辅助开发类
可能有用的
.
C#实现的html内容截取
.
List 切割成几份 工具类
.
SQL查询 多列合并成一行用逗号隔开
.
一行一行读取txt的内容
.
C#动态修改文件夹名称(FSO实现,不移动文件)
.
c# 移动文件或文件夹
.
c#图片添加水印
.
Java PDF转换成图片并输出给前台展示
.
网站后台修改图片尺寸代码
.
处理大图片在缩略图时的展示
善培
贡献的其它代码
(
14
)
.
删除文件夹,指定文件夹,删除文件夹和所有文件,删除
.
查询字符串内有多少个指定字符
.
Node.js 连接池
.
如何检查cookie是否启用
.
取汉字拼音首字母含多音字及不常见的字
.
二分图最大匹配(hungary邻接表形式,邻接阵接口)
.
重命名文件
.
计算权重
.
配置文件读取
.
微信信息servlet端的处理
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3