Letter Recognition Using Holland-Style Adaptive Classifiers
Machine rule induction was examined on a difficult categorization problem by applying a Hollandstyle classifier system to a complex letter recognition task. A set of 20,000 unique letter images was generated by randomly distorting pixel images of the 26 uppercase letters from 20 different commercial fonts. The parent fonts represented a full range of character types including script, italic, serif, and Gothic. The features of each of the 20,000 characters were summarized in terms of 16 primitive numerical attributes. Our research focused on machine induction techniques for generating IF-THEN classifiers in which the IF part was a list of values for each of the 16 attributes and the THEN part was the correct category, i.e., one of the 26 letters of the alphabet. We examined the effects of different procedures for encoding attributes, deriving new rules, and apportioning credit among the rules. Binary and Gray-code attribute encodings that required exact matches for rule activation were compared with integer representations that employed fuzzy matching for rule activation. Random and genetic methods for rule creation were compared with instance-based generalization. The strength/specificity method for credit apportionment was compared with a procedure we call "accuracy/utility." ### 使用Holland式适应性分类器进行字母识别 #### 概述 本文研究了通过应用Holland风格的分类系统来解决复杂字母识别问题的方法。该系统通过对20,000个独特的字母图像进行处理来进行机器规则归纳。这些图像由26个大写字母的不同商业字体随机扭曲而成,涉及多种字体类型,包括手写体、斜体、衬线体以及哥特体等。每个字符被总结为16个原始数值属性,以便于后续的分析与处理。 #### 研究重点 本研究的重点在于开发机器学习技术,用于生成IF-THEN形式的分类器。其中,“IF”部分是一组针对16个属性的具体值,“THEN”部分则是正确的类别(即26个字母中的一个)。具体来说,研究关注了以下三个关键方面: 1. **属性编码**:比较了需要精确匹配的二进制和格雷码编码与使用模糊匹配的整数表示。 2. **规则创建方法**:将随机和遗传算法生成规则的方式与基于实例的泛化进行了对比。 3. **信用分配**:评估了不同规则之间的贡献度分配策略,包括传统的强度/特异性方法与新提出的“准确率/效用”方法。 #### 属性编码 在属性编码方面,研究者对比了二进制和格雷码编码,这两种编码方式都需要规则完全匹配才能激活。与此相反,整数编码允许一定程度上的模糊匹配,从而提高了系统的灵活性和鲁棒性。例如,在二进制或格雷码编码中,若一个规则指定某个属性必须具有特定的值,则只有当输入数据完全符合这一条件时,该规则才会被激活。而在整数编码中,规则可能会根据输入值与预设值之间的接近程度来决定是否激活。 #### 规则创建方法 规则创建方法是另一个重要的研究领域。随机方法通常会生成一系列可能的规则,并从中选择最优解;遗传算法则通过模拟自然选择过程来优化规则集,它通过交叉、变异等操作逐步改进规则集合。而基于实例的泛化方法则是从已有的实例中推导出新的规则,这种方法通常能够更好地捕捉数据中的模式。 #### 信用分配 对于信用分配的研究,则是探讨如何更公平地评价各个规则对最终决策的贡献。传统的强度/特异性方法侧重于规则的准确性和适用范围,而新提出的“准确率/效用”方法则试图平衡规则的有效性和实用性。例如,在一个复杂的分类任务中,某些规则可能只适用于特定的小类样本,但在这些样本上表现得非常出色;而另一些规则虽然适用范围更广,但准确率相对较低。“准确率/效用”方法旨在通过综合考虑规则的准确率及其在整体分类任务中的作用来更合理地评估其价值。 #### 结论 通过使用Holland风格的适应性分类器进行字母识别的研究,不仅展示了如何有效地解决复杂分类问题,还为理解不同机器学习技术在实际应用中的优劣提供了深入洞见。通过细致的实验设计和对比分析,研究者们能够更好地理解各种机器学习策略的特点,并为未来的研究提供指导方向。
- runafteryou2015-04-13这个是对OpenCV的LetterRecognition_data资源的说明,很有参考价值,可以用来训练各种机器学习算法。
- 粉丝: 368
- 资源: 22
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助