第一章 计算机中文信息处理技术概述
计算机中文信息处理技术是针对中文语言文字进行的一系列操作,旨在适应信息时代的需求。这一领域的研究始于20世纪70年代,结合了多学科知识,如计算机科学、语言学、信息论等。信息处理主要包括信息的接收、存储、转化、传送和发布等步骤。接收阶段涉及信息的感知、测量、识别和获取;存储则利用各种设备保存信息;转化是根据需求进行分类、分析、检索和综合;传送则通过计算机系统或网络实现信息传递;发布则是将信息以适当的形式展示出来。
中文信息处理,特别是汉字信息处理,具有特殊性,因为汉字是中国主导的文字,且包含众多民族的文字。随着信息量的爆炸式增长,人工处理信息变得困难,计算机成为了处理大量信息的有效工具。因此,计算机必须具备处理中文的能力,这催生了计算机本地化的需求,包括计算机的中文化和中文的计算机化,例如汉字编码、输入法和字库的开发。
中文信息处理的发展历程可以从20世纪50年代的俄汉翻译系统开始,经过汉字电报译码机,到70年代系统研究,再到80年代和90年代的繁荣与广泛应用。进入21世纪,随着技术进步,中文信息处理面临着更多挑战和机遇,如自然语言理解、机器翻译、自动文摘、文本分类、信息检索、抽取和过滤等领域持续发展。
中文信息处理系统由硬件和软件组成,硬件包括计算机、字库、输入设备(如键盘、手写板)和输出设备(如显示器、打印机)。软件部分则分为系统软件和应用软件。内容广泛,涵盖基础研究如自然输入、字库、输入法、内码,以及互联网本地化、中文嵌入系统等。
国际化的挑战在于字符集差异、简繁体问题、操作系统兼容性,以及如何平稳过渡。电子消费设备的中文化,如中文嵌入式操作系统和字库的优化,也是重要环节。
汉字作为中文的核心,具有独特的属性和特点。字汇量庞大,从甲骨文的3000余字到现代的7000通用字,常用的2500字就能覆盖97.97%的语料内容。字形、字频、字音、字义和词汇构成了汉字的复杂性和多样性,对信息处理提出了更高的技术要求。
总结来说,计算机中文信息处理技术是围绕中文语言文字进行的一系列技术开发和应用,包括汉字的输入、存储、输出、理解和处理,以适应现代社会对信息处理的需求。随着技术的不断发展,中文信息处理将在更广泛的领域发挥作用,推动信息社会的进步。