本研究的语料来自新闻联播,日常对话和文涛的头条新闻,它们分别代表正式的书面风格,口语风格和对话风格。 从预处理的语料库中选择句子长度,单词长度,词性(POS)和句子首字母词POS作为特征来生成文本向量,然后将其与PAM(围绕medoids进行划分)和Ward算法进行聚类。 聚类结果表明:(1)合理选择句子长度,词长,词性和词首词词性作为汉语定量文体特征。 (2)风格是一个两极分化的连续体,因为正式的书面风格和口语风格表现出双极性分布,而对话风格则介于口语风格之间和附近。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~