【免费】16337233王凯祺1资源-CSDN文库

需积分: 0 36 浏览量 2022-08-03 17:43:53 上传评论收藏 615KB PDF 举报

这篇实验报告是关于使用机器学习方法处理Quora Question Pairs数据集的问题，目的是识别出重复的问题。报告由数据科学与计算机学院2016级的王凯祺完成，时间是2019年6月。实验中，王凯祺使用了macOS Mojave 10.14.5操作系统，并采用Python 3作为编程语言。具体到环境，他使用了一系列Python库，包括但不限于nltk、numpy、pandas、scikit-learn和xgboost等，这些都是在数据处理和机器学习中常用的工具。实验流程主要包括数据处理和模型训练两个主要步骤。数据处理是一个关键环节，因为原始数据包含了一些复杂的问题，比如相似但不完全相同的句子，这要求模型能够理解语义上的近似。在数据预处理阶段，作者参考了"The Importance of Cleaning Text"的Kernel，对文本进行了清洗，包括去除非ASCII字符，标准化单词，移除标点符号，删除停用词，以及可能的词形还原。这些步骤有助于减少噪声，使模型能够更专注于关键信息。在数据清洗后，模型需要面对的一个挑战是训练集和测试集之间的不平衡。训练集有404,290行，而测试集则有2,345,796行，这意味着模型需要在较少的样本中学习到足够多的模式，以便在大规模的测试集中有效地识别重复问题。这种情况下，模型的泛化能力成为了一个重要的考量因素。在处理Quora问题对时，作者提到了一个具体的例子，说明了问题相似度计算的局限性。例如，"What is the step by step guide to invest in share market in india?" 和 "What is the step by step guide to invest in share market?"这两个问题虽然只相差" in India"，但含义却不同。因此，模型需要能够理解上下文和语义的细微差别，而不仅仅是基于词汇的相似度。此外，报告中还可能涉及了特征工程、模型选择、训练过程和评估指标等内容，但这些信息没有在提供的部分中给出。通常，特征工程可能包括词袋模型(Bag of Words)、TF-IDF、词向量(Word Embeddings)等技术来转化文本数据。模型选择可能会涉及多种机器学习算法，如朴素贝叶斯(Naive Bayes)、支持向量机(SVM)或深度学习模型如LSTM。评估指标可能是准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数(F1-Score)，用于衡量模型在识别重复问题上的表现。由于提供的信息有限，无法详细讨论模型构建和评估的细节，但可以推测，王凯祺可能使用了诸如TF-IDF或者词向量来表示问题，然后通过某种机器学习模型（如XGBoost）训练一个分类器来预测问题对是否重复。在评估过程中，他可能对模型的性能进行了交叉验证，并分析了错误案例，以改进模型效果。

资源详情

资源评论

资源推荐

机器学习 Quora Question Pairs 实验报告

数据科学与计算机学院计算机科学与技术 2016 级

王凯祺 16337233

2019 年 6 月 12 日

1 使用的系统 + 编码语言 + 环境说明

操作系统：macOS Mojave 10.14.5

代码语言：Python 3

环境说明：

1 pip3 freeze

1 boto==2.49.0

2 boto3==1.9.162

3 botocore==1.12.162

4 certifi==2019.3.9

5 chardet==3.0.4

6 cycler==0.10.0

7 docutils==0.14

8 gensim==3.7.3

9 idna==2.8

10 jmespath==0.9.4

11 joblib==0.13.2

12 kiwisolver==1.1.0

13 matplotlib==3.1.0

14 nltk==3.4.1

15 numpy==1.16.4

16 pandas==0.24.2

17 pyparsing==2.4.0

18 python-dateutil==2.8.0

19 python-Levenshtein==0.12.0

20 pytz==2019.1

21 requests==2.22.0

22 s3transfer==0.2.1

23 scikit-learn==0.21.2

24 scipy==1.3.0

25 seaborn==0.9.0

26 six==1.12.0

27 sklearn==0.0

28 smart-open==1.8.4

29 urllib3==1.25.3

30 xgboost==0.90

2 简单的流程图

2.1 数据处理方法

2.1.1 观察数据特征

训练集共

404

290

行、

列，每行包含

、问题

1 id

、问题

2 id

、问题

、是否重复

（标签）。

测试集共 2, 345, 796 行、3 列，每行包含 id 、问题 1、问题 2。

大致看了几个问题，就觉得处理起来挺棘手的。比如“What is the step by step guide to invest in

share market in india?”和“What is the step by step guide to invest in share market?”是不重复的两

个问题，但它们之间只差了一个“in India”。这直接导致一个问题，如果我们只根据两个句子的相似

度来判定是否重复，这样的问题组合就会被判为重复。再比如，“How can I be a good geologist?”和

“What should I do to be a great geologist?”是重复的，我们要让机器自己学到“How”和”What shoud

I do” 是同一个意思。这必须要有相当数量的同类样本才能学到的。

在如此大量的测试集面前，却只有这么点训练集。我觉得很难从训练集中提取到太多有用的东

西，然后应用到测试集中。

2.1.2 数据清洗

我参考了一个名为 The Importance of Cleaning Text 的 Kernel（https://www.kaggle.com/currie32/the-

importance-of-cleaning-text），对输入数据进行清洗。

清洗主要做的任务是：

• 将非 ascii 字符全部删去，规范化单词，如将“’re”替换为“are”。

• 删除标点符号。

• 删除停词，如 is、the、a 。

• 将单词处理成原型。

主要代码：

1 def text_to_wordlist(text, remove_stop_words=True, stem_words=False):

2 # Clean the text, with the option to remove stop_words and to stem words.

3 global stops

4 text = re.sub(r"[^A-Za-z0-9]", " ", text)

5 text = re.sub(r"what’s", "", text)

6 text = re.sub(r"What’s", "", text)

7 text = re.sub(r"\’s", " ", text)

8 text = re.sub(r"\’ve", " have ", text)

9 text = re.sub(r"can’t", "cannot ", text)

10 text = re.sub(r"n’t", " not ", text)

11 text = re.sub(r"I’m", "I am", text)

12 text = re.sub(r" m ", " am ", text)

13 text = re.sub(r"\’re", " are ", text)

14 text = re.sub(r"\’d", " would ", text)

15 text = re.sub(r"\’ll", " will ", text)

16 text = re.sub(r"60k", " 60000 ", text)

text = re.sub(r"

e g ", " eg ", text)

18 text = re.sub(r" b g ", " bg ", text)

19 text = re.sub(r"\0s", "0", text)

20 text = re.sub(r" 9 11 ", "911", text)

21 text = re.sub(r"e-mail", "email", text)

22 text = re.sub(r"\s{2,}", " ", text)

23 text = re.sub(r"quikly", "quickly", text)

24 text = re.sub(r" usa ", " America ", text)

25 text = re.sub(r" USA ", " America ", text)

26 text = re.sub(r" u s ", " America ", text)

27 text = re.sub(r" uk ", " England ", text)

28 text = re.sub(r" UK ", " England ", text)

29 text = re.sub(r"india", "India", text)

30 text = re.sub(r"switzerland", "Switzerland", text)

31 text = re.sub(r"china", "China", text)

32 text = re.sub(r"chinese", "Chinese", text)

33 text = re.sub(r"imrovement", "improvement", text)

34 text = re.sub(r"intially", "initially", text)

35 text = re.sub(r"quora", "Quora", text)

36 text = re.sub(r" dms ", "direct messages ", text)

37 text = re.sub(r"demonitization", "demonetization", text)

38 text = re.sub(r"actived", "active", text)

39 text = re.sub(r"kms", " kilometers ", text)

40 text = re.sub(r"KMs", " kilometers ", text)

41 text = re.sub(r" cs ", " computer science ", text)

42 text = re.sub(r" upvotes ", " up votes ", text)

43 text = re.sub(r" iPhone ", " phone ", text)

44 text = re.sub(r"\0rs ", " rs ", text)

45 text = re.sub(r"calender", "calendar", text)

46 text = re.sub(r"ios", "operating system", text)

47 text = re.sub(r"gps", "GPS", text)

48 text = re.sub(r"gst", "GST", text)

49 text = re.sub(r"programing", "programming", text)

50 text = re.sub(r"bestfriend", "best friend", text)

51 text = re.sub(r"dna", "DNA", text)

52 text = re.sub(r"III", "3", text)

53 text = re.sub(r"the US", "America", text)

54 text = re.sub(r"Astrology", "astrology", text)

55 text = re.sub(r"Method", "method", text)

56 text = re.sub(r"Find", "find", text)

57 text = re.sub(r"banglore", "Banglore", text)

58 text = re.sub(r" J K ", " JK ", text)

60 # Remove punctuation from text

61 text = ’’.join([c for c in text if c not in punctuation])

剩余19页未读，继续阅读

评论收藏

内容反馈

whph

粉丝: 28
资源: 305

16337233王凯祺1

评论0

最新资源

16337233王凯祺1

评论0

16337233_王凯祺1

16337233王凯祺实验一1

16337233王凯祺实验九1

16337233_王凯祺_数据库实验1

16337233王凯祺721

16337233王凯祺实验三1

16337233王凯祺实验四1

16337233王凯祺911

16337233王凯祺121

16337233王凯祺实验十1

16337233王凯祺实验六1

16337233王凯祺实验七1

16337233王凯祺311

16337233王凯祺1211

16337233王凯祺421

16337233王凯祺221

16337233王凯祺511

16337233(王凯祺)数据库系统实验21

16337233_王凯祺_pro3_v1.01

16337233_王凯祺_第3次作业1

16337233_王凯祺_控件布局实验1

16337233_王凯祺_pro4_v1.02

16337233_王凯祺_pro2_v1.01

16337233_王凯祺_期末作业1

16337233_王凯祺_动画实验1

16337233(王凯祺)数据库系统实验51

16337233_王凯祺_实验七报告1

16337233(王凯祺)数据库系统实验11

最新资源