from __future__ import absolute_import, division, print_function, unicode_literals
import tensorflow_datasets as tfds
import tensorflow as tf
def encode(lang1, lang2):
lang1 = [tokenizer_pt.vocab_size] + tokenizer_pt.encode(
lang1.numpy()) + [tokenizer_pt.vocab_size+1]
lang2 = [tokenizer_en.vocab_size] + tokenizer_en.encode(
lang2.numpy()) + [tokenizer_en.vocab_size+1]
return lang1, lang2
MAX_LENGTH = 40
def filter_long_sent(x, y, max_length=MAX_LENGTH):
return tf.logical_and(tf.size(x) <= max_length,
tf.size(y) <= max_length)
def tf_encode(pt, en):
return tf.py_function(encode, [pt, en], [tf.int64, tf.int64])
BUFFER_SIZE = 20000
BATCH_SIZE = 64
examples, metadata = tfds.load('ted_hrlr_translate/pt_to_en', with_info=True, as_supervised=True)
train_examples, val_examples = examples['train'], examples['validation']
#tokenizer_en = tfds.features.text.SubwordTextEncoder.build_from_corpus(
# (en.numpy() for pt, en in train_examples), target_vocab_size=2 ** 13)
#tokenizer_pt = tfds.features.text.SubwordTextEncoder.build_from_corpus(
# (pt.numpy() for pt, en in train_examples), target_vocab_size=2 ** 13)
tokenizer_en= tfds.features.text.SubwordTextEncoder.load_from_file('./vocab_filename')
tokenizer_pt = tfds.features.text.SubwordTextEncoder.load_from_file('./vocab')
# 使用.map()运行相关图操作
train_dataset = train_examples.map(tf_encode)
# 过滤过长的数据
train_dataset = train_dataset.filter(filter_long_sent)
# 使用缓存数据加速读入
train_dataset = train_dataset.cache()
# 打乱并获取批数据
train_dataset = train_dataset.padded_batch(BATCH_SIZE, padded_shapes=([40], [40])) # 填充为最大长度-90
# 设置预取数据
train_dataset = train_dataset.prefetch(tf.data.experimental.AUTOTUNE)
# 验证集数据
val_dataset = val_examples.map(tf_encode)
val_dataset = val_dataset.filter(filter_long_sent).padded_batch(
BATCH_SIZE, padded_shapes=([40], [40]))
没有合适的资源?快使用搜索试试~ 我知道了~
tensorflow2.0 中英翻译 对文本的预处理(文本转换为文本向量 tfds.features.text.SubwordT...
共1个文件
py:1个
需积分: 48 19 下载量 11 浏览量
2020-08-09
23:24:21
上传
评论
收藏 983B RAR 举报
温馨提示
把中英文翻译的数据 转化为模型可以接受的格式
资源推荐
资源详情
资源评论
收起资源包目录
process_data.rar (1个子文件)
process_data.py 2KB
共 1 条
- 1
资源评论
辰溪0502
- 粉丝: 169
- 资源: 14
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 现场评定检查表——建筑外墙、屋面保温和建筑外墙装饰.docx
- 现场评定检查表--气体灭火系统.docx
- 消防第三方技术服务模拟验收抽查记录表.doc
- 现场评定检查表——总平面布局.docx
- 消防验收过程服务--现场记录表.doc
- 消防第三方技术服务现场交底监督记录表.doc
- 向日葵被控端绿色精简运行版
- 学生心理档案表.docx
- 验收确认单表格.docx
- 阳宅净宅表文.docx
- 医疗废弃物建设项目环境风险简单分析表.docx
- 原材料检测报告.docx
- 造林补助实施方案小班一览表、造林补助(新增部分)分行政村(国有林场)任务落实情况表.xls
- 造林补助(新增部分)分行政村(国有林场)任务落实情况表.docx
- 肢体残疾标准.docx
- 职工工伤与职业病致残等级分级表十级.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功