NER-on-Wikipedia数据
问题陈述:
使用Wikipedia API报废数据以执行NER
在命名实体识别之前执行文本预处理
对报废的数据执行命名实体识别,并提取诸如城市,人员,组织,日期,地理实体,产品等实体。
样本输出:
在Streamlit App中显示带注释的文本,并以条形图形式在文本中显示每个标签的出现。
实施基于令牌的身份验证技术以保护API端点。
请使用Python和Flask完成此作业。 随意使用您认为合适的任何Python软件包。
代码和API端点应准备就绪,并可以托管在可公开访问的位置的某个位置,例如在AWS,Heroku,PythonAnywhere等上。
方法:
在这里,我使用spaCy和spacy_streamlit库对提取的数据执行NER。
首先将接受用户的输入(即他们想在维基百科上搜索的内容)
我使用Wikipedia API wi