没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
26页
我很爱阅读。甚至可以说有些狂热。曾经有些日子,我仔细阅读了上百篇的文章。尽管如此,我还是经常发现自己读不完搜索到的信息。我总是怀疑自己错过了一些有趣的事情,从而导致知识库中永远存在一些空白!如果你患有类似的症状,不要害怕,因为在本章中,我要揭露一个简单的窍门,帮助你找到想要阅读的所有文章,同时让你避免在大量不感兴趣的内容上浪费时间。在这一章的结尾,你将学会如何构建一个能理解你对新闻喜好的系统,并每天向你发送一个私人定制的新闻通讯。。。。。。
资源推荐
资源详情
资源评论
创建自定义的新闻源
我很爱阅读。甚
至可以说有些狂热。曾经有些日子,我仔细阅读了上百篇的文章。尽
管如此,我还是经常发现自己读不完搜索到的信息。我总是怀疑自己错过了一些有趣的事
情,从而导致知识库中永远存在一些空白!
如果你患有类似的症状,不要害怕,因为在本章中,我要揭露一个简单的窍门,帮助
你找到想要阅读的所有文章,同时让你避免在大量不感兴趣的内容上浪费时间。
在这一章的结尾,你将学会如何构建一个能理解你对新闻喜好的系统,并每天向你发
送一个私人定制的新闻通讯。
下列是我们将在本章涵盖的内容。
•使用 Pocket 应用程序创建监督训练的集合。
•利用 Pocket API 来获取故事。
•使用 embed.ly API 来提取故事主体。
•自然语言处理的基础。
•支持向量机。
•IFTTT 与 RSS 源以及 Google 表单的集成。
•建立每日的个性化新闻通讯。
5.1 使用 Pocket 应用程序,创建一个监督训练的集合
在我们可以创建自己对新闻稿的喜好模型之前,需要用于训练的数据。这些训练数据
5.1 使用 Pocket 应用程序,创建一个监督训练的集合
113
将被输入到我们的模型中,以教导该模型区分我们感兴趣的和不感兴趣的文章。为了构建
这个语料库,我们需要标注大量与这些兴趣相关的文章。对于每篇文章,我们将其标记为
“y”或“n”。这将指示该文章是否应该出现在发送给我们的每日摘要中。
为了简化这个过程,我们将使用 Pocket 应用程序。Pocket 是一个允许你保存故事以供
稍后阅读的应用程序。你只需安装浏览器扩展插件,然后当希望保存故事的时候,单击浏
览器工具栏中的 Pocket 图标。这篇文章就被保存到了你的个人资料库。对于我们的目的而
言,Pocket 一个强大的功能是它还能够保存你所选择的标签。我们将使用此功能,将感兴
趣的文章标记为“y”,而不感兴趣的文章标记为“n”。
5.1.1 安装 Pocket 的 Chrome 扩展程序
我们在这里使用 Google Chrome,其他浏览器应该类似。对于 Chrome,进入 Google App
Store,然后查找 Extensions 部分,如图 5-1 所示。
图 5-1
单击蓝色的 Add to Chrome 按钮。如果你已经有一个 Pocket 账户了,那么请登录,如
果你还没有账户,请继续注册(免费)。一旦完成,你应该可以看到浏览器右上角的 Pocket
图标。图标将变灰,不过一旦有你想要保存的文章,就可以单击它。文章保存之后,它就
会变成红色。
如图 5-2 所示,在右上角可以看到灰色的图
标。当图标被单击时,它变为红色,表示文章已
经被保存。
现在有趣的部分开始了!开始保存所有你看到的文章。对于有趣的那些打上“y”的
标签,对于无趣的那些打上“n”的标签。这需要一点工作量。监督学习最终结果的好坏
取决于你的训练集,所以你需要标记数百篇文章来获得好的效果。如果在保存某篇文章
时你忘记给它打标签了,那么你可以去这个网站对其进行标记:
http://www.get.pocket.com。
图 5-2
114
第 5 章创建自定义的新闻源
5.1.2 使用 Pocket API 来检索故事
现在你已经很勤奋地将文章都保存到了Pocket,下一步是检索它们。为了实现这一点,
我们将使用Pocket API。你可以在https://getpocket.com/developer/apps/new
注册一个新账户
①
。如图 5-3 所示,单击左上角的Create New App并填写详细信息以获取你
的API密钥。请务必选择所有的权限,这样你才可以添加、更改和检索文章。
图 5-3
一旦填写完毕并提交,你将收到 CONSUMER KEY。你可以在左上角的 My Apps 下到
它。看上去就如图 5-4 的截屏所示,不过显然你会得到一个真正的密钥。
①译者注:这个账户是使用 API 的开发者账户,和之前保存文章的普通账户有所不同。
5.1 使用 Pocket 应用程序,创建一个监督训练的集合
115
图 5-4
一旦设置完毕,你就可以进入到下一步,进行授权的设置。我们现在就开始。它要求
你输入用户密钥和重定向的网址。重定向网址可以是任何链接。这里我使用自己的 Twitter
账户。
import requests
auth_params = {'consumer_key': 'MY_CONSUMER_KEY', 'redirect_uri':
'https://www.twitter.com/acombs'}
tkn = requests.post('https://getpocket.com/v3/oauth/request',
data=auth_params)
tkn.content
这将产生如图 5-5 的输出。
该输出将包含你下一步所需的编码
①
https://getpocket.com/auth/authorize?request_token=some_long_code&redire
。将
以下内容放在浏览器的地址栏中。
①译者注:图 5-5 中 some_long_code 所代表的部分。
图
5-5
116
第 5 章创建自定义的新闻源
ct_uri=https%3A//www.twitter.com/acombs①
这里我们将使用图 5-6 的输出编码
如果你将重定向的 URL 更改为你自己的网址,请务必对其进行编码。对于此有一些可
用的资源。一个选择是使用 Python 的 urllib 库,另一个选择是使用免费的在线资源。
此时,你应该会看到一个授权屏幕。继续并批准授权,然后我们就可以进入下一步。
usr_params = {'consumer_key':'my_consumer_key', 'code':
'some_long_code'}
usr = requests.post('https://getpocket.com/v3/oauth/authorize',
data=usr_params)
usr.content
②
进入检索故事的环节。
图 5-6
首先,我们检索标记为“n”的故事。
no_params = {'consumer_key':'my_consumer_key', 'access_token':
'some_super_long_code',
'tag': 'n'}
no_result = requests.post('https://getpocket.com/v3/get',
data=no_params)
no_result.text
上述代码生成图 5-7 的输出。
图 5-7
注意在这里,我们通过所有标记为“n”的文章获得了一个很长的 JSON 字符串。其
中有若干个主键,不过现在我们只对 URL 感兴趣。我们将依据此,继续创建一个 URL
的列表。
①将链接中的 some_long_code 替换为你获得的编码。
②这里的输出编码 some_super_long_code 是虚构的,只是用于示意。
剩余25页未读,继续阅读
资源评论
好知识传播者
- 粉丝: 496
- 资源: 4204
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- MyBatis动态SQL是一种强大的特性,它允许我们在SQL语句中根据条件动态地添加或删除某些部分,从而实现更加灵活和高效的数据
- MyBatis动态SQL是一种强大的特性,它允许我们在SQL语句中根据条件动态地添加或删除某些部分,从而实现更加灵活和高效的数据
- MyBatis动态SQL是一种强大的特性,它允许我们在SQL语句中根据条件动态地添加或删除某些部分,从而实现更加灵活和高效的数据
- 关于mybatis的一些相关资源
- 关于mybatist的一些相关资源
- uni-app实战社区交友类app开发&带视频教程
- mybatis动态sql的一些相关资源
- 隐马尔可夫模型在期货市场的应用_曾琦裕 (1).caj
- 极域解控和极域反控!!!
- 安卓android-serialport-api 串口demo源代码.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功