环球 有高出 15 亿人利用 Facebook,用户来自差别 国家和文化配景 ,说着数百种语言。这让很多 Facebook 用户在交换 时显得颇为困难。于是 Facebook 推出了即时翻译功能,让你用44种语言发帖。
环球 有高出 15 亿人利用 Facebook,但此中 只有一半说英语。别的 一半利用 其他几百种语言举行 交换 ,这让很多 Facebook 用户在交换 时显得颇为困难。
但这种环境 正在改变。假如 你在刷 Facebook 的时间 看到了一条外文帖子,Facebook 就会给你一个提示:你可以即时翻译这篇帖子。而从本日 开始,很多 Facebook 还可以选择在发帖的时间 将本身 的帖子翻译成 44 种其他的语言,如许 你的帖子就能在表现 在其他语言利用 者的信息流上时就会以他的语言表现 。这是 Facebook 第一次公开测试其「多语发帖」功能,其目标 是让环球 用户都能更方便地跟朋侪 交换 。「这就是我来到 Facebook 的缘故起因 ,」主导 Facebook 即时翻译功能的土耳其人 Necip Fazil Ayan 说。
[!9!]
利用 Facebook 主页的名流 和贸易 团体也可以利用 这个即时翻译功能。每天 ,有高出 5000 个贸易 团体和名流 的主页在 Facebook 上以各种语言发布高出 10000 篇帖子,而这些帖子将会展示在约莫 7000 万用户的信息流里,此中 有三分之一用户不利用 英文。Ayan 关注了巴西球星小罗纳尔多的 Facebook 主页,小罗会在发布帖子时同时利用 葡萄牙语、西班牙语和英语。「我只能看到英语,」Ayan 说。
Facebook 不停 都在研究其平台上的即时翻译功能,因此,Facebook 的体系 知道怎样 将「生快」翻译成西班牙语的「Feliz cumpleaños 」,而谷歌翻译就无法正确 地翻译出「生快」。本年 早些时间 ,Facebook 的体系 知道了一些法语利用 者在说英语中的「wow」时,会以法语发音「uau」代替 ,以是 体系 在翻译时就会正确 地将「usu」翻译成「哇哦」。
另一方面,假如 用户本身 人工翻译帖子的话,这将会给 Facebook 翻译体系 的呆板 学习增长 大量数据,让这个翻译体系 更加聪明 。
Facebook 团队近来 在其博客上发表了一篇文章,表明 了这种多语言发帖功能是怎样 实现的:
Facebook:打造用多语种发帖的更好方法
人们在 Facebook 上交换 和分享时会采取 很多 种差别 的语言。全天下 有 50% 的人不讲英语,而且大多数人只会说一种语言。正因云云 ,我们不停 在思考 ,有没有什么办法可以消除 Facebook 上碰到 的语言停滞 。
Facebook 上很多 主页都有来自各种文化配景 的关注者,他们说着差别 的语言,而主页君常常 想要在他们之间分享信息。从前 ,他们常常 会用差别 的语言创建多条帖子,然后用 post targeting 为每个帖子选择特定的受众。尚有 的人将用多种语言写的差别 版本的信息串成一篇长帖,但这种方法并不抱负 ,由于 人们必要 查察 一大段长文本才华 找到本身 明白 的部分 。而为每种语言的关注者单独编辑信息的方式 ,则会淹灭 额外的管理时间和精力 。
有了这个多语言编辑器后,主页君和其他人就能用多种语言编辑帖子,而每个关注者会只看到本身 认识 的语言版本。如许 ,各种关注者都能更方便地与他们关注的品牌主页或个人举行 交换 。
从本年 年初开始,全部 主页都可以利用 该编辑器。如今 均匀 每天 利用 编辑器的主页约莫 为 5,000 个 ,编辑帖子次数到达 10,000 次,这些帖子每天 的阅读量共计 7,000 万次,此中 欣赏 由某种第二语言翻译的帖子数量 到达 2,500 万次。我们非常冲动 ,这个工具正在资助 越来越多的 Facebook 用户与他们说差别 语言的朋侪 举行 联结 。
编辑器体验:利用 呆板 翻译创建多语种帖子
创建 编辑器组件的过程相对直接。作者在创建一个新帖子后,可以选择是否用其他语言编辑该帖。作者可以通过下拉菜单指定他们盼望 采取 的语言。编辑器组件利用 React 提供额外的文本地区 ,Flux 则用来处理 惩罚 变乱 ,维持状态,大概 相应地升级 UI (用户界面)。在创建帖子的同时,多语言数据就会传送到服务器。
我们正在测试一项资助 作者创建多语言帖子的预填写功能,在该功能下,根据第一语言编辑的信息,利用 呆板 翻译技能 可以预填写用另一种语言编辑的信息。作者可以在这个翻译文本的底子 上编写本身 的翻译内容,也可以利用 呆板 提供的翻译版本。呆板 翻译的这些内容由呆板 学习模子 天生 ,而呆板 学习模子 已经举行 过了几十万或上百万次的各种语言之间的互译练习 。Facebook 其他地方的翻译生乐成 能利用 的是同一个体系 ,比如 帖子和批评 旁边出的 「See Translation (见翻译)」功能等。
储存多语言帖子:级联(Concatenation) VS 作者翻译
构建多语言编辑器过程中,最困难的部分 之一就是存储过程。由于 存储过程会影响观看和编辑的过程和体验。现存的 Facebook 代码都基于一个假设,即帖子内容是只含有一种语言的单条信息。因此我们必要 改变该假设,才华 精确 地处理 惩罚 含有多语言的帖子。
为此我们想出了两种大概 可行的办理 方案:
级联(concatenation)和作者翻译(author translation)。
第一种级联方法中,帖子中用全部 语言编辑的信息都会存储在帖子的 TAO 对象上,同时元数据的对象会包罗 每条信息的字符范围信息。用这种方法编辑帖子时,还必要 记录 字符范围,以及每个范围的变革 轨迹。假如 要思量 Facebook 上全部 利用 过的字符设置,这个过程大概 会非常有难度。
第二种作者翻译方法中,我们会将第一条信息存储在帖子对象 上,并为每种别的 的语言单独创建 TAO 对象,我们将这些额外的对象称为「作者翻译」。由于 从概念上讲这些对象都是作者提供的原始帖子的翻译内容。这种编辑方法更加直接,作者可以或许 选择在一篇帖子中同时编辑全部 的语言版本。因此,我们决定利用 作者翻译。
然后我们必要 确保,就验证逻辑和处理 惩罚 逻辑而言,处理 惩罚 后的每条翻译内容都像一篇帖子。这就必要 研发通用接口,将存储过程的细节从验证逻辑中抽离出来。这种分离可以使原始帖子和作者翻译之间的更换 更加轻易 。我们还思量 了一个题目 ,如那边 理 惩罚 一篇多语言帖子中的跨语言 mention (提到或人 )。为了进步 同等 性,我们决定,作者翻译不能包罗 原始帖子中没有的 mention 。我们还实现了原始帖子上的一些多语言帖子元数据的缓存,以便加快 时查察 明白 过程。
我们还必须包管 ,编辑器可以或许 妥善支持每种范例 的帖子。由于 包罗 差别 的状态更新,照片,视频,分享内容等的帖子,大概 会有差别 的代码实行 流。而且,代码还在敏捷 演化的代码库中连续 不绝 地变革 。为了管理这些跨底子 办法 的依靠 性,我们为多语言编辑器支持的每种范例 的帖子都开辟 了严格 的集成测试。我们与产物 运营和支持团队一起积极 ,探求 对大多数产物 利用 案例来说,什么举动 能产见效 果 ,盼望 可以或许 确保多语言帖子得到妥善生存 。
你的关注者会看到什么 : 选择用哪种语言表现 帖子。
末了 一个困难 是,选择哪种语言表现 帖子。得到的反馈是,大多数页面还是 方向 于向用粉丝们最认识 的语言表现 帖子,给用户最轻松顺畅的体验。以是 我们决定让多语种帖子的围观者望见 他们最认识 的语言。比方 ,假如 一个多语种帖子用英语和西班牙语发出来,那么英语用户望见 的是英语,而西班牙语用户望见 的是西班牙语。我们根据用户设置的语言偏好和用户地点 地区 ,以及他们在帖子中最常用的语言(利用 淳厚 贝叶斯分类器来确定体系 可以或许 辨认 的跨语言文本的概率分布),来决定出与帖子最相干 的版本对关注者可见。假如 发帖者和围观者利用 的语言差别 ,那么我们就默认用发帖者的语言表现 ,围观者可以点击「see translation(看翻译)」工具条来选择本身 的语言。
我们根据服务器上传的反馈,选出对围观者来说最好的信息,然后上传到客户端。这种方式包管 了在差别 平台上的体验同等 ,省去了修改手机设置的贫苦 。由于app更新必要 一些时间,用了这种方法后,迭代也更快了,同时也支持跨平台和旧app版本。
下一步
多语种发帖才刚刚起步。很多 页面和偕行 已经开辟 出到达多语种用户方法—为了改变这中模式,让我们的工具更好用,我们会不绝 迭代更新我们的产物 计划 ,为发帖者及其粉丝们提供最好的体验。
我们还筹划 利用 多语种发帖来改善我们的呆板 翻译的练习 数据,并向小语种用户开放这个工具,来美满 我们的呆板 翻译体系 。这让我们离在Facebook上冲破 语言停滞 又近了一步。
怎样 利用 多语种编辑器:假如 你是测试团队的成员,可以在账户设置的语言设置上启用多语种编辑器。网页用户可以在这里(
本文由呆板 之心编译出品,原文来自Facebook Code
发表评论
共有[ 0 ]人发表了评论