语言检测器
概述:
给定文本输入,可以检测其上使用的主要语言
实施细节:
用户在文本字段中写入文本,然后将其作为发布请求提交
后端收到发布请求
使用正则表达式或nltk(自然语言工具包)将文本拆分为标记
对于每种语言DAWG,我们都会检查其中的令牌数量。
我应该有一个类/函数来获取单词标记作为输入并返回一个排序的字典,其中包含语言和出现次数
API视图不应该知道我正在使用DAWG或其他数据结构。
DAWG出现次数最多意味着它的对应语言是主要语言
设计约束:
我应该能够通过仅添加文件路径和语言名称来添加对新语言的支持,而无需添加其他任何东西
设计选择:
数据结构:为了实现此系统,我选择使用DAWG(有向无环字图)。 此类别在源文本恒定(在我们的情况下为语言单词列表)的应用中特别有用,特别强调速度。 复杂性:海外商品会有n为单词的语言中的单词列表中的号码和m的给定字的长度
时间复杂
评论0
最新资源