微软英库拼音输入法背后的技术和故事

来源:百度文库 编辑:超级军网 时间:2024/05/03 11:11:50
微软英库拼音输入法开发团队自述,“我们为什么要开发一个新的中文输入法”。

人们可能会疑惑:既然微软已经有了一款输入法产品(微软拼音输入法),为什么微软亚洲研究院还要做这款叫做“英库拼音输入法”的新输入法呢?更何况是在输入法市场貌似”天下已分、大局已定”的情况下。

  答案其实也很简单,那就是我们认为中文输入法的症结实际远未解决。随着互联网时代的崛起,我们已经越来越多地发现,中文用户在网络时代使用语言交流的习惯和趋势在悄然发生重大的变化,而这也催生了一些传统的中文输入法无法满足的使用需求。此外,再加上自然语言处理领域的研究突破,我们相信迎来下一代中文输入法核心技术的时候终于到了。

  先说网络时代产生的新的用户需求。例如我们注意到,中文用户使用英语的频率逐年增高,中英混杂的使用也在迅速增多。如今,大约有3.25亿中国人在学习英语。到2025年,会说英语的中国人预计将超过全世界其他地方的英语母语使用者人数的总和。

  然而,虽然有如此多的人在学习和使用英语,我们却发现中文输入法软件里面能够提供有效和友好的英文输入辅助功能的少之又少。我们认为,对于中国用户来说,利用输入法来辅助英文输入是最佳方案,因为我们已然对输入法这个东西很熟悉,而且经由输入法,我们可以在背后利用上很多相关的技术。

  另一方面,英文世界的语言也在急速发生变化,有语言跟踪系统估计大约每98分钟就有一个英文新词被创造出来。这些词大多根本就没有常见的中文对应翻译。而在一些专业领域这一现象显得尤其明显,举个例子,软件技术书籍。你随便拿起一本软件技术书籍都可以看到一摞英文术语。如今英语已经是中国人日常用语的一部分,在很多领域,甚至是必不可少的。既然如此,难道我们的中文输入法不应该跟上中英混合的趋势,提供更好、更流畅、新鲜和准确的中英混合输入体验吗?

  除此之外,促使我们做英库拼音输入法的还有一个很重要的原因。如今我们在线沟通的时候,我们会发现,沟通的内容早已经超越了简单的文本,进而包含图片、视频、音乐、地图等等“富媒体”内容。上百万的网络用户每天在交流、发微博、写博客,甚至在文档中使用这些非文本类内容。而值得注意的是,这些内容往往是经由搜索而来。

  那么,既然如此,为什么当我们需要粘贴发送它们的时候,总得离开当前输入的上下文,跑过去打开一个浏览器,输入网址,输入搜索关键字,完了之后再把搜索的结果(图片、地图等等)拷贝粘贴回来呢?这一通来去完全影响了输入的流畅体验,打断了我们宝贵的注意力。为什么我们不能直接在输入法里面完成这整个的流程呢?

  这种无需离开上下文的流畅体验正是高效输入的灵魂。现在我们已经知道,主流的输入法都有所谓的“云候选词”,也就是说每个输入框都相当于是搜索框,既然如此,为什么不把搜索的内容从纯文本拓展到其他形式的富媒体内容呢?想象一下,一旦这个成为现实,整个互联网上可搜索的内容都将在你的指尖上。

  除了上面提到的这些因素之外,我们还相信,输入法的核心技术本身也将迎来一个新的纪元:更精准、数据更相关、而且更快。就我们而言,我们对两个核心技术领域很感兴趣:一是通过新的算法来驱动输入法的核心引擎,另一个就是通过新的网络挖掘技术来提升数据的新鲜度和质量。借助微软亚洲研究院顶尖的自然语言处理研究成果,我们相信我们的输入法有着得天独厚的竞争优势。

  输入法和创新

  那么,为什么微软亚洲研究院要做一款新的输入法?首先我们对于任何技术挑战都有兴趣,而从零开始打造一款先进的输入法并在一年内发布,对我们而言正是这样一项挑战。此外,好奇心是我们的源动力,我们对于是否能解决我们观察到的当今输入法面临的种种问题充满了好奇,并愿意尝试利用新颖的技术、过硬的工程能力和创新的点子来解决这些问题。我们所设想的输入法触及计算机科学中的众多研究领域:自然语言处理、网络搜索和数据挖掘、人机交互、语音处理、机器学习、云计算,图像和媒体,等等。

  当我们把目光投向输入法的历史和现状,我们注意到输入法的创新亦难免面临“创新者的窘境”(由哈佛商学院的Clayton M. Christensen提出)。其背后的原因是,在一款成功的输入法软件背后是极为复杂的技术,而且软件越创新也越有可能成功。然而,“创新者的窘境”指出:随着时间推移,成功的、成熟的和复杂的产品最终将获得巨大的用户量,软件的版本经过多年的迭代,其中必然积累各个层面的技术复杂性,在此之上重新创新将不可避免地带来大的风险和代价。因而实际发生的往往是所谓的“持续创新”。我们认为当今市场上的输入法创新大多属于此类。

  已成功者必须轻装上阵从零开始,着眼产品而非市场,才能最终成为解决“创新者的窘境”的良方,而这种努力如果成功,所带来的成果便被称为“破坏性创新”(disruptive innovation)。后者正是我们做英库拼音输入法项目的本意:基于研究、跳脱出产品周期约束、着眼新颖解决方案和新的用户痛点。

  成果

  到目前为止,英库拼音输入法项目的成果很令人振奋。我们的自然语言处理研究人员从本质上重新建模了中文输入,我们将输入理解为从拼音到汉字的一个翻译过程,跟英文到中文的翻译类似。这一切入角度使得我们可以运用微软亚洲研究院耕耘十多年的统计机器翻译领域的方法来解决中文输入问题。

  另外英库拼音输入法包含中英混输和英文辅助模式。它内置有对机器翻译、单词对齐,以及必应词典(前身为英库词典)所独有的“phonetic search”功能(例如敲“fiziks”能够搜到“physics”,就如同英文的“拼音”一样)。这些功能的渊源可以追溯到我们研究院十多年来在中英自然语言处理方面的技术研究储备。

http://tech.sina.com.cn/it/csj/2013-01-25/08418014659.shtml微软英库拼音输入法开发团队自述,“我们为什么要开发一个新的中文输入法”。

人们可能会疑惑:既然微软已经有了一款输入法产品(微软拼音输入法),为什么微软亚洲研究院还要做这款叫做“英库拼音输入法”的新输入法呢?更何况是在输入法市场貌似”天下已分、大局已定”的情况下。

  答案其实也很简单,那就是我们认为中文输入法的症结实际远未解决。随着互联网时代的崛起,我们已经越来越多地发现,中文用户在网络时代使用语言交流的习惯和趋势在悄然发生重大的变化,而这也催生了一些传统的中文输入法无法满足的使用需求。此外,再加上自然语言处理领域的研究突破,我们相信迎来下一代中文输入法核心技术的时候终于到了。

  先说网络时代产生的新的用户需求。例如我们注意到,中文用户使用英语的频率逐年增高,中英混杂的使用也在迅速增多。如今,大约有3.25亿中国人在学习英语。到2025年,会说英语的中国人预计将超过全世界其他地方的英语母语使用者人数的总和。

  然而,虽然有如此多的人在学习和使用英语,我们却发现中文输入法软件里面能够提供有效和友好的英文输入辅助功能的少之又少。我们认为,对于中国用户来说,利用输入法来辅助英文输入是最佳方案,因为我们已然对输入法这个东西很熟悉,而且经由输入法,我们可以在背后利用上很多相关的技术。

  另一方面,英文世界的语言也在急速发生变化,有语言跟踪系统估计大约每98分钟就有一个英文新词被创造出来。这些词大多根本就没有常见的中文对应翻译。而在一些专业领域这一现象显得尤其明显,举个例子,软件技术书籍。你随便拿起一本软件技术书籍都可以看到一摞英文术语。如今英语已经是中国人日常用语的一部分,在很多领域,甚至是必不可少的。既然如此,难道我们的中文输入法不应该跟上中英混合的趋势,提供更好、更流畅、新鲜和准确的中英混合输入体验吗?

  除此之外,促使我们做英库拼音输入法的还有一个很重要的原因。如今我们在线沟通的时候,我们会发现,沟通的内容早已经超越了简单的文本,进而包含图片、视频、音乐、地图等等“富媒体”内容。上百万的网络用户每天在交流、发微博、写博客,甚至在文档中使用这些非文本类内容。而值得注意的是,这些内容往往是经由搜索而来。

  那么,既然如此,为什么当我们需要粘贴发送它们的时候,总得离开当前输入的上下文,跑过去打开一个浏览器,输入网址,输入搜索关键字,完了之后再把搜索的结果(图片、地图等等)拷贝粘贴回来呢?这一通来去完全影响了输入的流畅体验,打断了我们宝贵的注意力。为什么我们不能直接在输入法里面完成这整个的流程呢?

  这种无需离开上下文的流畅体验正是高效输入的灵魂。现在我们已经知道,主流的输入法都有所谓的“云候选词”,也就是说每个输入框都相当于是搜索框,既然如此,为什么不把搜索的内容从纯文本拓展到其他形式的富媒体内容呢?想象一下,一旦这个成为现实,整个互联网上可搜索的内容都将在你的指尖上。

  除了上面提到的这些因素之外,我们还相信,输入法的核心技术本身也将迎来一个新的纪元:更精准、数据更相关、而且更快。就我们而言,我们对两个核心技术领域很感兴趣:一是通过新的算法来驱动输入法的核心引擎,另一个就是通过新的网络挖掘技术来提升数据的新鲜度和质量。借助微软亚洲研究院顶尖的自然语言处理研究成果,我们相信我们的输入法有着得天独厚的竞争优势。

  输入法和创新

  那么,为什么微软亚洲研究院要做一款新的输入法?首先我们对于任何技术挑战都有兴趣,而从零开始打造一款先进的输入法并在一年内发布,对我们而言正是这样一项挑战。此外,好奇心是我们的源动力,我们对于是否能解决我们观察到的当今输入法面临的种种问题充满了好奇,并愿意尝试利用新颖的技术、过硬的工程能力和创新的点子来解决这些问题。我们所设想的输入法触及计算机科学中的众多研究领域:自然语言处理、网络搜索和数据挖掘、人机交互、语音处理、机器学习、云计算,图像和媒体,等等。

  当我们把目光投向输入法的历史和现状,我们注意到输入法的创新亦难免面临“创新者的窘境”(由哈佛商学院的Clayton M. Christensen提出)。其背后的原因是,在一款成功的输入法软件背后是极为复杂的技术,而且软件越创新也越有可能成功。然而,“创新者的窘境”指出:随着时间推移,成功的、成熟的和复杂的产品最终将获得巨大的用户量,软件的版本经过多年的迭代,其中必然积累各个层面的技术复杂性,在此之上重新创新将不可避免地带来大的风险和代价。因而实际发生的往往是所谓的“持续创新”。我们认为当今市场上的输入法创新大多属于此类。

  已成功者必须轻装上阵从零开始,着眼产品而非市场,才能最终成为解决“创新者的窘境”的良方,而这种努力如果成功,所带来的成果便被称为“破坏性创新”(disruptive innovation)。后者正是我们做英库拼音输入法项目的本意:基于研究、跳脱出产品周期约束、着眼新颖解决方案和新的用户痛点。

  成果

  到目前为止,英库拼音输入法项目的成果很令人振奋。我们的自然语言处理研究人员从本质上重新建模了中文输入,我们将输入理解为从拼音到汉字的一个翻译过程,跟英文到中文的翻译类似。这一切入角度使得我们可以运用微软亚洲研究院耕耘十多年的统计机器翻译领域的方法来解决中文输入问题。

  另外英库拼音输入法包含中英混输和英文辅助模式。它内置有对机器翻译、单词对齐,以及必应词典(前身为英库词典)所独有的“phonetic search”功能(例如敲“fiziks”能够搜到“physics”,就如同英文的“拼音”一样)。这些功能的渊源可以追溯到我们研究院十多年来在中英自然语言处理方面的技术研究储备。

http://tech.sina.com.cn/it/csj/2013-01-25/08418014659.shtml
超大有谁用过这个“英库拼音输入法”?比起搜狗和QQ拼音来如何?
求解毒…
今后在win8平台上用engkoo一段时间。┏ (゜ω゜)=☞
风君子 发表于 2013-1-25 11:19
超大有谁用过这个“英库拼音输入法”?比起搜狗和QQ拼音来如何?
目前我在用,感觉很不错,很干净的输入法, 没有广告,联想功能和搜狗差不多,也能打出 ┏ (゜ω゜)=☞走你
装了两三个月,不怎么用,前两天删了。打字有一些联网的小功能,比如打地名能出来一个地图截屏,另外有一款win8风格皮肤不错。
没用过,不过我一直都是用微软拼音,不喜欢其他的,比如搜狗,太花俏了.....
已经删掉了,还是搜狗好。另外有进程常驻。
在等正式版。其实这输入法不错,给人的感觉是,真的是用心做了。不过跟我的习惯有一点点冲突,我是喜欢把某些高频率的词固定首位,但是目前来说它好像还没这个功能或者不打算把这个功能集成到里面去。虽说它能够自动根据上下文自己选择合适的词,但是我认为还是会有误差,既然目前还没达到那个高度,为何不直接让用户自己选择而要交由冷冰冰的机器选择呢?再者,隐约觉得这好像有点被绑架的感觉?还有的就是在自定义词库方面,要是能够兼容搜狗或者QQ等输入法的自定义词库就好了虽然我认为这个可能性几乎为零。毕竟对于用户来说,每换一种输入法都要重新输入自己已经定义的词确实比较郁闷。例如刚开始我是用的搜狗,后来觉得广告多了,捆绑的东西多了,就转而使用QQ的,后来觉得QQ的还不是太适合自己,上网又找了紫光,最后又看到了英库……(目前暂时还是用的搜狗去广告版)不过,对英库这款输入法,我是删除了再安装再删除了再安装(这个确实是我太纠结了),最后把它当做备用输入法,尝试去适应它,不过嘛,还是处在磨合期当中。最后就是皮肤什么的。英库的皮肤实在是太少了。简洁什么的其实我并不是太在意,我在意的是界面的字是否清晰,所以要是能够自定义字体的大小、颜色以及背景的颜色那就完美了。
最后希望这款输入法能够越做越好!
沁蓝 发表于 2013-1-25 19:41
在等正式版。其实这输入法不错,给人的感觉是,真的是用心做了。不过跟我的习惯有一点点冲突,我是喜欢把某 ...
搜狗输入法智慧版无广告
要不是被搜狗逼着,微软谷歌能用心做好拼音输入法么?腾讯百度会跟着屁颠屁颠山寨么

搜狗,有功啊
WantSeeMean 发表于 2013-1-25 20:11
搜狗输入法智慧版无广告
噢,谢谢提醒,有空又折腾下
搜狗的广告很好去除的
是WIN8自带的输入法吗?我觉得win8自带的中文拼音也不错啊。
五笔很简单,不用挑什么版本
英库不太清楚,我只知道一库一库。。。
沁蓝 发表于 2013-1-25 19:41
在等正式版。其实这输入法不错,给人的感觉是,真的是用心做了。不过跟我的习惯有一点点冲突,我是喜欢把某 ...
昨晚试了一下,感觉没有宣传的那么好,在智能联想方面明显不如搜狗,试过很多款拼音输入法,还是用搜狗2.0,删除了它的升级模块,目前来说还是最满意的。
风君子 发表于 2013-1-26 17:23
昨晚试了一下,感觉没有宣传的那么好,在智能联想方面明显不如搜狗,试过很多款拼音输入法,还是用搜狗2. ...
嗯嗯,所以说等正式版出来嘛。希望能够改进咯。