学术论文创新贡献句识别研究主要集中在运用自然语言处理(Natural Language Processing, NLP)和深度学习技术,对学术论文全文本和MeSH主题词进行分析,以自动识别和抽取论文中的创新贡献句。这些贡献句通常蕴含了论文的创新点,如新理论、新方法、新技术、新成果和新应用等。这不仅是评价单篇论文创新性的关键步骤,也是实现学术文本创新贡献内容细粒度挖掘的基础。
为了达成上述目标,研究首先利用Pubmed上的论文全文本作为数据来源,抽取论文中的MeSH主题词。MeSH是美国国立医学图书馆编制的权威性主题词表,它能够提供与论文贡献描述内容密切相关的主题信息。接下来,研究采用半自动方式进行标注数据的抽取,然后基于Albert深度学习模型,进行贡献句的自动识别。
Albert深度学习模型是本研究的核心技术之一。Albert模型是一种优化版的BERT(Bidirectional Encoder Representations from Transformers)模型,它具有更少的参数量和更高效的训练速度,同时保持或提升了模型的性能。利用这样的模型可以有效识别出论文中的贡献句,提高识别的准确性。
学术论文创新贡献句识别研究的意义,在于为基于认知计算的学术论文评价提供理论和数据基础。认知计算模型能够模拟人类的认知过程,通过大量数据学习来理解、分析和处理信息,从而模拟人脑进行思考和决策。在学术评价领域,认知计算能够深入挖掘学术论文的潜在价值,从而实现更为精准的评价和指导科研方向。
此外,研究还关注了科技评价改革的最新动向。近年来,科技评价和改革受到广泛关注,改革的目的在于激发科技创新活力,破除科研评价中的“唯论文、唯职称、唯学历、唯奖项”等弊端。在这样的背景下,创新贡献句识别不仅能够更精准地评价学术论文的创新性,也为科研人员提供了正确的科研方向引导,有助于释放科研活力和创新潜力。
本研究还强调了MeSH主题词在抽取贡献句过程中的重要性。MeSH提供了自然信息,如词义、同义词、近义词以及可组配的副主题词等,这些信息对于准确识别文献内容的主题至关重要。利用这些主题词与论文贡献描述内容相结合,可以更有效地揭示论文的核心贡献要素。
学术论文创新贡献句识别研究通过运用先进的NLP和深度学习技术,以及权威的MeSH主题词库,实现了对论文创新贡献句的有效识别和抽取。这对于推动学术论文评价的自动化和智能化具有重大的理论和现实意义,有助于提高学术评价的效率和准确性,同时也为科研评价体系的改革提供了有力的技术支持和理论指导。