gpu服务器租用推荐的简单介绍
有鱼爱电影 2025-05-10 15:30 32 浏览 0 评论
人工智能学家
美国时间9月27日gpu服务器租用推荐,谷歌宣布推出谷歌神经网络机器翻译系统(GNMT),采用神经网络机器翻译(NMT)技术大幅提升机器翻译的水平,《麻省理工学院技术评论》杂志MIT TR 报道称“几乎与人类无异”。
结果是让人耳目一新的。翻译界同行Michael Zhang在其微信公众号“译言千金”做了一次谷歌翻译引擎新老版本和人工翻译的对比gpu服务器租用推荐:下文的“GT1”代表2016年3月份GT机译结果;“GT2”代表2016年10月中旬GT机译结果。
老版本的谷歌译文是让人gpu服务器租用推荐你熟悉的“机器文”:词是对的,整句需要你在脑子里调整语序后再理解。新版本的译文和人说话的语序几乎一样,和人工翻译没有大区别。
触手可及的体感变化触动了用户和媒体的心弦:它就是我们通常认为的那个会说人话的人工智能,科技的力量很颠覆,至少“颠覆了翻译行业”。
谷歌引擎到底进步了多少gpu服务器租用推荐?谷歌在发表的论文中列举了几个语向的翻译错误下降率。
其中英语到西班牙语下降了87%,英文到中文下降了58%。
“错误率下降”是怎么回事?我的同事,商鹊网CTO魏勇鹏在接受雷锋网的记者采访时解释了谷歌是如何做的:
比如汉译英。谷歌随机从中文维基百科挑选500个句子,让基于统计的老引擎PBMT、基于神经网络的GNMT和熟练译员各自做一次,译文质量打分从0到6分不等,6分为满分。结果就是老引擎得分3.694,新引擎得分4.263,人工翻译得分4.636。
错误率计算方式为:
魏勇鹏提到:“一、从3.6提升到4.2,和从4.2提升到4.6,这两个所需要付出的努力程度,后者可能是前者的10倍以上都不止,但Google就简单的线性计算为缩小了60%的差距。二、中英的人工翻译,得到的评分也就只是4.6,比英西的人工翻译要低得多,这点说明用来作为基准的‘人’未必是靠谱的,以它为基准来评估也未必靠谱。”
加拿大国家研究委员会NRC多语言处理研究组陈博兴研究员在他的微信朋友圈发文给了一个评价:
“谷歌所做的事情是将这两年学术界神经网络机器翻译的多种最新技术做了一个整合集成,利用他们强大的工程能力和计算能力,搭了一个很好的系统。他们最好的单系统比我利用开源训练的系统在同一个数据集上要好了大概3个多BLEU值。【注:BLEU标准是美国商务部下属的国家标准与技术研究所NIST举办的一项机器翻译研究水平评测,其原理是比较机译结果和人译结果的相似度,完全一致得分为100(当然不同的人的翻译很难“完全一致”,所以得分100为理想值)。2008年NIST的英文-中文的机器翻译评测结果,谷歌翻译得分41.42。】3个多BLEU的差距,如果由人来判断,仔细看的话,是能感觉到的,但是也就是一个小的进步,谈不上突破什么的。
“对于他们(谷歌发表)的文章,我觉得有两个遗憾的地方:1.所采用的技术都是之前发表过的,没有全新的技术(对google的要求自然要高一点,呵呵)。2. 如果我们有那么大的计算和工程能力以及那么多人力可以投入,即使只是整合已有技术,我觉得我们可以做得更好,比如我会加上清华大学刘洋他们首先采用的最小风险训练方法来进行训练,等等。”
陈老师提到的刘洋在接受媒体采访时淡淡地说:“谷歌做的其实是把目前学术界的一些技术集成在一起。谷歌本身的数据、运算能力,还有工程师水平都非常高,所以他们通过集成做了一个非常强的系统,这个系统和传统方法相比有比较显著的提高。但媒体的报道有点夸张,并不能说机器翻译已经接近人的水平,或者完全取代人。谷歌这项工作还达不到 ‘颠覆性突破’ 这种程度。”
专业人士的评价和普通用户的体感不完全一致。于是懂行的有心人找出了一些有趣的谷歌翻译案例。加拿大博芬翻译公司的赵杰打算寒假回深圳过年,在网上查询找到一家合适的酒店,各种条件都不错,但是看到价钱时含糊了,“The price is quite high”。老赵找到酒店的原版中文介绍,原文是“性价比相当高”,谷歌给的译文把意思给弄反了。
谷歌新翻译引擎在妥当处理原文译文语序的同时,出现了一些莫名其妙的问题。如下图:
引擎把“美美”翻成了“美国和美国”,而一个标点或者一个近义词的改变,会让它的译文发生很大的变化,甚者译文会意思迥异。相比之下,采用统计原理训练的有道翻译则把“我想美美地睡一觉”和“我要美美地睡一觉”给出了同样的英文译文。
“谷歌的新引擎的错误无法追溯。”中科院自动化所的张家俊副研究员说,多层神经网络的算法模型的计算过程是一个黑盒子,人无法理解和解释程序自动学习的过程。“谷歌的新引擎在语言流利性有大幅度提高,但是在原文忠诚度上没有明显变化。”张家俊说。
通俗化的话来讲,统计型翻译引擎的基础数据是双语对齐的词、短语和句子,数据对齐的精度越高翻译质量也越高。但是数据精度越高,也意味着在实际应用中命中的概率也越低。过去以谷歌的强大计算能力和最多的语言数据,也无法在穷尽各种语境、各种词句上可以再上一个台阶,谷歌的统计型翻译引擎的BLEU值好几年维持在40+的水平而无法明显提高。
神经网络的算法不再依赖人对语言的理解(词、短语和句子的对齐译法),在很多语种中把词切分到字母的层级(即Subword),比如词根、后缀等,对原文各个词之间的关系也计算得更加细致。谷歌新翻译引擎的神经网络达到了八层,计算的过程耗费了巨大的计算能力。这有赖于谷歌自己开发专门面向深度学习的TPU处理器,其单位耗电量的性能达到GPU和FPGA的10倍,且不外卖。
“神经机器翻译NMT系统是个好东西,但相对传统统计机器翻译SMT来说,系统部署所需硬件投入至少涨十几倍。举个例子,抛开翻译性能而言,像采用我们最近组装的支持4块GPU的服务器,NMT系统在这样一台价值4万多元的服务器上运行速度和吞吐,才接近于SMT系统在3000多元的PC机上的性能。假设用户为了满足大规模吞吐和翻译工作的话,比如需要100台机器的话,基于小牛翻译SMT版本只需要投入30多万硬件,但满足同样的性能如果采用小牛翻译NMT系统可能需要投入400多万硬件。真的期待硬件成本继续下降,才能真正让小牛翻译NMT系统真正走入中小企业啊。”小牛翻译的创始人、东北大学朱靖波教授感慨道。
谷歌新引擎的发布让机器翻译行的专业人士达成了一致:神经网络算法的翻译引擎取代传统引擎是行业趋势。但“取代”是抛弃还是迭代?这是一个重大的问题,它意味着诸多传统机器翻译研究学者和行业从业者如何跨入下一步?
张家俊在10月下旬发表了一篇论文,公布了他做的一项研究。他使用了一些传统词典的双语数据支持神经网络的翻译引擎。由于算法的不同,这些词典的词对齐数据无法直接被神经网络的引擎使用。佳俊找到一些使用这些词的公开语句,利用传统引擎翻译成英文,再把这些新生成的数据作为神经网络引擎的源数据。在训练后的翻译引擎测试数据中,如果有100个低频词被词典覆盖,接近80个可以得到正确译文,匹配度接近80%。
“把现有的词典都照你的方法处理成神经网络引擎的语料,它最后的词的准确度就能大幅度提高吗?”笔者问张老师。家俊说:“不是的。我给的数据是传统翻译引擎的译文,有很大的噪音,因此不能说数据越多效果越好。”
张家俊说传统研发的积累,让他得以在新旧引擎之间找到了一些可以继承并创新的方法,为神经网络翻译引擎的进步提出补缺的新思路。
陈博兴研究员说:“机器翻译在可以预见的未来取代不了人工翻译。尤其是现在的人工翻译的市场跟机器翻译的市场基本上不重合,人工翻译对准的是高端市场,要求很精准的翻译需求,而机器翻译则是1,要求不那么精准的翻译情景,比如旅游,比如网页浏览,比如信息监控等等。2,机器翻译帮助专业翻译人员提高效率。如果中国对外交流的程度达到欧美现在的程度,那么中国的高端翻译市场将会是无比巨大的。有志于从事翻译的同学,放心大胆地进来吧。”
“举例来说,理想的法律翻译是100分,实际工作达到95或98分就很好了,80分、85分、95分的质量,收入/报酬的差别不是以五个百分点计算,而是以倍数计算。PE(注:译后编辑,一种新的翻译工作模式,译员基于机器翻译的结果进行校对编辑优化)如果没有能力提升那几个百分点,那和机器翻译没啥差别,报价、收入一样上不去。”微博上的一个资深法律译者,@readthinker99 对译后编辑的看法。
神经网络翻译引擎NMT对翻译行业的好处是它给出的结果更符合人的叙述习惯,可用的部分更多,而从事译后编辑的译员可以更专注在垂直的专业术语短语上给出好的翻译,是一举两得效率提高成本降低的好事情。
后记:
大赌注
面对神经网络计算的黑盒子,身在实际研究和开发中的专家基本上都和陈博兴先生持相同态度:机器翻译离理解人类语言还很远,可见的时间里跨语种的深入交流需要借助有专业外语能力的人工帮助。因为神经网络的深度学习方式和基于统计的机器翻译算法一样,都没有涉及到语义的理解。无论现在神经翻译引擎读起来有多接近人的话语,这个软件其实“不理解”它计算出来的译文的意思。
人类对自己身认知过程的运转机制,还处于很浅层的研究阶段,脑科学还无法还原大脑在思考一个问题的生理过程。英国物理学家、认知学家戴维·多伊奇教授的看法是:“因为在其核心里有一个悬而未决的哲学问题:我们还不了解创造性如何运作。”所以人类也就无法复制创造的过程。这几乎是人对自身认知、对人工智能AI的最清醒的一个出发点,但是神经网络研究者给了另外一条路径。
清华大学的韩锋老师给一本译著《重新定义智能》作序著文《让“人脑”走下神坛》,该文写于Alphago与李世石大战的过程中。其主要论点是,物理研究已经知道事物或系统有自相似性,基于一种重整化群的方法,使用神经网络的算法和够大的计算能力,可以计算出有计算机智能的逻辑,并得以解释对象,比如Alphago战胜了李世石。(具体阐述过程请参见原文)
韩老师的点出了大部分机器翻译专家面对的一个隐藏问题:他们认为以可靠的能力和认知,机器无法理解人。但是谁也不能确认下一步神经网络会算出什么?那么韩锋老师提出来得可能性不能被证伪。霍金、马斯克说的机器威胁人类,也同样不能被证伪。
真有趣啊。AI时代,人类认知学的大家伙,拥有大数据的公司都在面对、觊觎或担心有一个潘多拉的盒子被打开。更多的人则充满热情和信心、欣喜地准备迎接新的AI的进步,并计算现有的数据和能力,在那一天能做什么。万一没实现呢,我们也不会失去未来。
(本文得到了我的同事魏勇鹏、胡日勒的专业支持)
本文来自:邹剑宇
【重磅】未来科技学院前沿科技趋势学习班 (2017第一期)报名
每一次人类社会的重大技术变革都会导致新的科学革命,互联网与人工智能对于人类的影响已经远远超过了大工业革命。人工智能、互联网、脑科学、虚拟现实、机器人、生物基因等领域正在相互融合,形成一股强大的洪流,对人类社会的各个领域产生巨大的影响。
一日千里的科技进展,层出不穷的新概念,使企业家,投资人和社会大众面临巨大的科技发展压力,前沿科技现状和未来发展方向是什么?社会大众,企业家和投资家如何应对新科学技术带来的挑战?
在科学院大数据与知识管理重点实验室,泰智会,人工智能学家的支持下,未来科技学院邀请国内和国际著名科学家、科技企业家讲授人工智能、互联网、脑科学、虚拟现实、机器人,3D打印、生物基因等领域的基本原理和未来发展趋势。欢迎投资界、企业界,科研机构的人士参加。
未来科技学院第一期前沿科技趋势学习班将在2017年2月下旬(暂定2月24日-26日)在北京中关村举办。线下集中学习三天,之后学员将通过未来科技学院的线上平台进行更多前沿科技讲座学习和答疑互动。集中学习期间,将举办未来科技交流酒会,加强学员以及专家之间的沟通交流。
未来科技学院第一期学员将受邀加入未来科技学院的“未来科技创新促进会”,共享未来科技学院的高端科学家、企业家和投资人资源,共同解决企业和投资过程中遇到的科技问题;参与前沿科技未来发展重大课题研究;参加未来科技学院组织的讲座、参观和会议;选择投资未来科技学院孵化的前沿科技创新创业项目。
点击这里查看-未来科技学院前沿科技发展趋势学习班详细介绍
或点击本文左下角”阅读原文”查看详细介绍
相关推荐
-
- 腾讯云wordpress建站教程ppt的简单介绍
-
很多上班族由于自身工资不是很高腾讯云wordpress建站教程ppt,所以都利用上班做兼职赚钱,但是又不知道上班族兼职做什么好 ,这里小编告诉大家,上班族兼职做什么好,上班族兼职有哪些好的赚钱项目腾讯云wordpress建站教程ppt?...
-
2025-09-14 11:30 有鱼爱电影
-
- 关于seo优化是什么工作的信息
-
(麥樂蔸作品) “做一份工作,做一份喜欢seo优化是什么工作的工作就是很好seo优化是什么工作的创业。”从认识运营开始 从大的框架下来看待运营:一切为了提升网站的知名度,不断的服务于用户,从事以网站为中心的各个维度的经营状态...
-
2025-09-14 09:30 有鱼爱电影
-
- 有源码怎么用宝塔搭建网站的简单介绍
-
PHP作为全球最普及有源码怎么用宝塔搭建网站的互联网开发语言之一有源码怎么用宝塔搭建网站,随着互联网行业正向更加智能化的Web3.0时代迈进,对于PHP技术人才的需求将会更加紧迫。因此,越早学习并掌握这门技术,就意味着越快的成为紧缺型人...
-
2025-09-14 08:30 有鱼爱电影
-
- 查询域名的ipv6地址的简单介绍
-
雷锋网按:近日吴恩达发文将在4月底离职百度。几乎在同一时间,百度也宣布进一步深度整合,将包括NLP、KG、IDL、Speech、BigData等在内的百度核心技术,组成百度AI技术平台体系(AIG),并任命百度副总裁...
-
2025-09-14 06:30 有鱼爱电影
-
- 关于苹果cms插件怎么添加权限的信息
-
随着时代苹果cms插件怎么添加权限的变化苹果cms插件怎么添加权限,微分销已经成为今年最火爆的销售平台,成为企业的销售利器,越来越多的企业建设分销商城,大家都知道分销商城最重要的就是粉丝,但是仍然有很多企业或个人不知道该怎么们吸粉,今天...
-
2025-09-14 04:30 有鱼爱电影
-
- 网站icp备案是什么意思的简单介绍
-
网贷监管细则落地,到底是山重水复疑无路,还是柳暗花明又一村,不同网站icp备案是什么意思的平台有不同的境遇。今天,我们先来看看监管细则这把出鞘的剑。 此次监管细则主要明确了五个方面。 1、明确“网贷”机构是信息中介而不是信用中介...
-
2025-09-14 03:30 有鱼爱电影
-
- 独立站建站教程自学网免费 自学网cad免费教程
-
很多时候运营人想搭建一个自己独立站建站教程自学网免费的网站独立站建站教程自学网免费,但又不懂技术,不知道如何下手。网上虽然有无数的教程,但新手甄别起来费事费力,很多教程的内容已经过期不适用了,当你按照教程实践的过程中遇到问题不知道怎么办...
-
2025-09-14 02:30 有鱼爱电影
-
- 服务器怎么搭建的的简单介绍
-
Matrix是少数派的全新产品服务器怎么搭建的,一个纯净、小众的写作平台,服务器怎么搭建的我们主张分享真实的产品体验,有实用价值的互联网领域经验、思考。欢迎忠于写作,喜好分享的朋友参与内测。我们会不定期挑选Matrix最优质的文...
-
2025-09-14 00:30 有鱼爱电影
-
- 包含域名ip查询sitecsdnnet的词条
-
网站被K,这是许多站长烦恼的事情域名ip查询sitecsdnnet!怎么样判断网站是否被百度K站?网站被K该怎么样应对? 深圳赢销网络公司小编指导域名ip查询sitecsdnnet:网站被k其实是较为寻常的问题,对于新手seo站长来说...
-
2025-09-13 23:30 有鱼爱电影
-
- 关于苹果cms官方采集资源站的信息
-
驿马创咖(微信公众号;ymackh):专注于网络营销.创业项目.资源整合,引流技术,网赚技术营销课程 微信公众号提供;营销软件,脚本,网赚项目,营销课程,网络技术等优质内容,让你快速学到各种快速见效的营销方法苹果cms官方采集资源...
-
2025-09-13 11:30 有鱼爱电影
你 发表评论:
欢迎- 一周热门
- 最近发表
- 最新留言