向量,在数学中,指具有大小和方向的量。它们通常可以用
一条带箭头的线段表示:箭头所指,代表向量的方向;线段长度,
代表向量的大小。在数学问题中,我们往往会给向量一个基准:
坐标系。在不同坐标系中的同一个向量有着不相同的坐标,同一
个坐标系中的不同向量有着不同的坐标。任意两个不平行的向量,
都可以利用向量内积求出两向量的夹角,这种方法相信每一位做
过立体几何的高中生都铭记于心,而在实际应用中,这种方法有
着更重要的作用——分类。
一篇文章,是有一个个表意字符连缀而成,我们作为人,会
将这些连缀的字符用大脑理解为具体含义,根据其含义得出文章
所表达的内容与思想,再据此给文章贴上其对应的标签,给它合
适的分类,但是作为计算机,它无法理解这些表意字符,它所能
接收到的信息只有这些字符,所以计算机在进行分类时所使用的
方法就是 TF-IDF。
TF(Term Frequency)指词频,IDF(Inverse Document
Frequency)指逆向文件频率。它的主要思想是:如果某个词或
短语在一篇文章中出现的频率高,并且在其他文章中很少出现,
则认为此词或者短语具有很好的类别区分能力,适合用来分类。
简单来说,就是计算字符在文章中的重要性,并给它赋予相应的
权,权重大越重要越能作为区分文章的工具。举个例子:“的”
这个字在文章中往往出现最多,但是在其他文章中也很多出现,
因此认为“的”重要性小,而比如这篇文章中大量出现“数学”,
评论0