语音技术对图书馆的影响

 

(美)卢邦国

 

引言

  图书馆这一学科是随着人们的基本需要而产生的,这一需要就是记忆我们自己的和别人的思想。为了这个目的,我们使用语音这种人际交流的奇妙媒介,以表达我们的思想。遗憾的是,言词一旦说出口,就立刻消失于空气之中,这是我们大家都十分明白的事情。在我们的大部分历史中,只有人的头脑这另一种奇妙的媒介,才能够将声音捕捉到记忆之中。但是这种精神的记忆至多只能维持几十年,少的只能维持几个月。

  为了克服精神记忆的局限性,捕捉住语音,我们必须找到另一种更为持久的媒介。于是,我们发明了书面语言,它们可以被刻在粘土书板、牛骨、青铜器、竹简以及任何可以铭刻的东西上。经过一系列的发展,我们发明了今天人们所知到的图书。Librarianship(图书馆事业)这个词的词根就来源于拉丁文 Libre (图书)。

  关于从语音到文字、如今又回到语音这样一种激动人心的发展,我想借此机会谈谈我的一些想法。由于计算机化语音技术的最新进展,这一发展又得以更进一步。第一,我想讨论一下我们用以记录文字的技术工具,并且比较一下作为输入文字信息手段的键盘和话筒。然后,我想介绍我对一种汉语语音输入系统的使用体会,以此作为当今语音技术的一个例子。最后,我打算设想一下语音技术的未来影响;我相信,它将改变有文化的含义,激发起图书馆事业的一次革命。

记录工具的演化

  正如我在前面所说的那样,图书馆事业这个词与图书直接相关。图书直接与知识相关,它包括了各种文字记录。在人类的历史中,我们发明了越来越好的工具,以越来越快的速度生产越来越多的文字记录。

  如果我们按照我们所使用的书写工具来划分历史的话,我们现在可以说是键盘的时代。不管人们使用何种语言,我们最近的文字记录大多数都是通过键盘所产生的。人们所使用的qwerty键盘特别有效,其名称来源于键盘左手上方的六个字母键q、w、e、r、t、y。自从1868年打字机发明以来,qwerty键盘统治了整个西方世界。逐渐地,qwerty键盘进入了不使用拉丁字母的地区,只是形式略有改变。在今天的市场上,无论是铅笔、接触式屏幕、条形码,还是鼠标器和电子笔,在书写多于若干个句子的文字时,都不如键盘更受人欢迎。

  比键盘更快的媒介只有言语。但是我们不可能象阅读图书那样浏览录音的言语,也不可能象在计算机数据库上那样随意检索录音的言语。为了快速浏览或随意检索,我们必须现将言语转换成文字。因此,在用于记录的方面,我们一般比较喜欢采用文字。正如我们祖先发明书面语言来象征语音一样,每当我们在处理语音信息的过程中遇到困难时,就将语音转换为文字。

  随着计算机语音技术的不断发展和价格的不断下降,我们有了越来越多的语音系统。根据权威人士的乐观评论,在不久的未来,计算机就可以逐字识别正常速度的语言[1]。直接向计算机口授要比键盘输入快得多。从逻辑上讲,直接读入计算机不是比用键盘输入单词更为有效么?除了输入速度更快以外,语音输入可以使双手解脱出来,做除了打字以外的其它事情。

  第二个问题是:如果我们将语音数字化,我们在处理时是否仍然想要把语音转换为文字呢?为什么我们不直接考虑语音呢?正如我已经指出过的那样,口语是整理思想的声音系统,书面语言则是代表这些声音的(表音的)或代表事物形状的(表意的)可见形式。

  计算机可以接受训练,适应用户用汉语普通话讲出的词组的语音。但它也存在一些局限性:

 每个人都必须训练计算机,使之能够识别他(她)的语音。如果没有这样的训练,他(她)就不可能通过话筒达到精确的效果。

 操作员必须用键盘在屏幕上选择同音字。人的双手并没有完全脱离键盘。人们必须用一只手来握住话筒,用另一只手来控制键盘。人们还必须使用、箭头键等等非文字的键。然而有些标点符号却可以通过语音来输入。

 对于一种新产品而言,1,500美元的价格并不算太昂贵,但是对于Taicom系统向用户所能提供的服务而言,这就不算便宜了。只要30美元的一个键盘是一种更为有效的接口设备。(新系统的成功会导致竞争。也许,人们已经在试制价格更便宜的系统。)

 同音字表是根据普通话构造的。尽管计算机可以识别普通话中任何同音词,但是不熟悉普通话的用户还是会感到难以确定同音词。

  Taicom系统是许多其它系统的先驱。它还没有充分利用语音数据处理的潜力。迄今为止,它只能模仿旧的技术话筒模仿键盘,扬声器模仿阴极射线管屏幕和墨水。该系统还使用一种打印机。事实上,它不可能使用户摆脱键盘,甚至还可能引起人们的鄙视。然而不管怎样,技术揭示了一种值得进一步发展的潜力将声音加入社会的记忆中。

语音技术的未来影响

  显然,如果以Taicom系统作为一个例子的话,在信息处理方面,当今的语音技术还不如文字技术那么复杂。与文字处理器处理印刷的文字相比,语音系统处理口语单词不那么有效。但是,这方面的技术已日趋普及。人们只要花上几千美元,就可以购买到一个很好的用于微机的语音设备。最近,新开发的MIDI(乐器数字接口)系统标志着口语单词处理的可能性,它可以将音乐和语音作数字化处理。人们也可以用99美元购买到声音合成系统,将它联上现有的微机。

Taicom系统

  为了回答这些问题,为了展示当今的技术,我想介绍由台湾Taicom公司生产的一种汉字语音输入系统。我之所以选择这一系统,是因为它是同类产品中唯一使用微机的一种,市场上也没有其它立即可以得到的系统。可能有些专利性的秘密研究正在进行之中[2],但是我对此并不了解。

  下面,我描述一下Taicom系统。它由一块带语音芯片的接口板组成,与一个话筒相连接。将这块接口板插入微机(我用的是486DX计算机)以后,它就可以识别397种四声的声音。每一个用户必须训练计算机,使之能识别他(她)的大约1,300种声音和声调的组合。用户每发出一个声音,计算机就会显示出一组与之相适应的字。计算机根据这个音的声母或韵母来匹配,产生出一系列字供用户选择。例如,“tong”这个音会产生出一系列以“t”作为声母,以“ong”作为韵母的字。从这一系列字中,用户通过键盘来选择正确的声音和声调。程序自动改进显示字符的精确性。用户输入得越多,显示就越是精确。

  程序中还有一个词典,用户可以通过声音来检索多字词组。例如,相继发出的“pu-tong-hua”这几个音只能产生出普通话这个词,不可能有其它同音词。程序中还有指令等其它模块,我没有对它们进行过充分的尝试。但是,阅读该系统的手册以后,我深深地感觉到了它在图书馆中应用的可能性。我所描述的一些事实,可能会有助于我们了解Taicom语音输入系统的优点和弊端。

  该系统的优点为:

 声-文输入不需要汉字的表音分析。

 不需要精确的发音。即使发音有所偏差,系统也能识别。

  现在,计算机制造商们正在生产多媒体的系统,使之包括声音和图形的功能。

  语音识别技术的发展落后于声音合成技术的发展。诸如Taicom这样的系统仍然很少,而且价格昂贵。目前,对于图书馆员来说,语音输入并不如键盘输入那么实用。诸如Taicom这样的现今的语音技术仍然需要用一个键盘,键盘仍然是熟练的操作员作偏爱的设备。qwerty键盘不仅优于语音输入,而且还优于其它形式的键盘。尽管后来又有一些新设计的键盘,它们更易学习、操作更快、使用更方便,但是古老的qwerty式键盘仍然从一个公司传到另一个公司,从一个国家传到另一个国家,如今已经进入了所有计算机制造商的装配线。键盘还将在以后较长的一段时间内继续被人们使用。但是,语音技术的问题远远不止是效率的问题,它关系到扩展我们管理社会记忆能力的问题。

  语音和言语比书写的文字更接近于人类的心灵。对于具有普通智力的人而言,在儿童时期学会书写之前,就已经学会了使用语音通讯系统。识字这种阅读和书写一种语言的能力,是要经过若干年的正规训练才能学会的。学者们有时只会用某种语言阅读,但却不会说这种语言;然而即使在这个时侯,读者也会在阅读时默默地拼读单词。当人们遇到一个新的汉字时,往往会临时想出一个音,以便于记忆。同样,打字员在敲打键盘时,也会默读所要打的内容。也就是说,口语可以脱离文字独立存在,而文字在没有口语时却不能很好地发挥其作用。在人类的历史中,口语产生很长时间以后才出现印刷的文字。书写文字发明的主要目的在于,它可以使人们的思想脱离大脑的记忆而独立地存在,而不至于被人们遗忘,或者随某个人的死亡而消失。书面的文字和其它视觉的记录可以超越时间和空间而存在。在几千年的历史中,书面语言一直是社会记忆的主要媒介。

  如果我们可以同处理文字一样有效地记录和处理语音,以语音为形式的社会记忆就会成为可能。语音社会记忆的用户不需要通过若干年的学校教育来掌握阅读或书写的本领。例如,汽车修理工不需要阅读印刷的技术手册,他只要使用一种可以随意检索内容的语音手册即可。这位修理工可以一面用他的双手修理引擎,一面向手册口授检索内容或聆听手册的指示。又如,图书馆员在阅读一部图书是时可以用一个话筒和一副耳机来与计算机交流。要达到聆听语音计算机和向语音计算机口授的目的,用户还需要接受一定的训练。接受这种教育的时间可能要比识字的时间短。关键在于:说话比写字更为直观,聆听比阅读更为直观。

  在近几十年内,语音技术的发展日趋加速。个人计算机兼容设备的价格已经开始下降,苹果公司进入语音市场而使之更为活跃。数字化的语音已十分常见,声音将被用来产生文字。文字将被转换为声音,也可以用声音的形式保存下来。正如书面的文字被转换成ASCII代码一样,口语单词也将被代码化,而后作为声音来处理。MIDI系统是一个很好的例子,它表明了序列处理器可以同文字处理器处理文本一样地处理音符。不久以后,人们将感到有必要采用人声来作为法律文件,因为与指纹和签名相比,人的声音更容易被唯一确定。 我们的耳朵可以辨别许多在手迹中会消失的人声的变体。 例如,我们难以猜出一个作家的情绪,但是却马上就可以辨别一个演说家的感情。测谎议只不过是通过语音探测情绪的初步尝试而已。能够分析情绪的计算机的诞生指日可待。

  最后,汉语语音处理中有一个特别的方面。汉语有许多口语方言,但只有一种书面语言。因此,语音技术可以作为所有汉语方言的联系纽带。用一种方言讲出来的话可以用代码或文本的形式记录下来,然后再被翻译成其它口语方言。

  正如文字可以被打印在纸上一样,计算机化的语音可以永久保存。同书写的手稿可以编辑一样,计算机化的语音可以进行加工。计算机化的语音也可以在几分钟内建立索引,这和计算机的文本文件也是一样的。总之,在记录人类思想的方面,计算机化的语音数据可以具有同印刷文字一样的特点。它们的不同之处在于人们用以产生它们的感官:一者用双手,另一者用嗓音;人们感受它们的方式也不同:一者是视觉,另一者是听觉。在社会记忆这个方面,我们已经使用了几千年的文字;现在,我们即将把语音加入其中。我们准备从模式识别的时代跨入语音识别的时代。人类的思想应当并且将要以形象和声音的形式,甚至用其它手段保存下来,从而我们将能够充分利用我们的所有感官。语音技术的最大冲击将是我们对有文化的理解。有文化不再仅仅意味者阅读和书写的能力,而且还包括说和听的能力。有了语音图书馆以后,人们就可以在更小的时侯就开始使用社会记忆。语音技术的到来是纸张发明以来最大的文化事件。


注释

[1] 苹果计算机公司已宣布,它将生产一个语音系统,可以识别自然且流畅的英语口语。这种计算机不用为识别某一特定的人的语音而接受训练,它可以识别任何人的语音。在本文写作时,关于这一系统的信息很少共诸于众。

[2] 参见 Naikan Liu 的硕士论文: An Experimental Voice Operated Word Processor; Chico, California; California State University, Chico, 1990, p. 39.


(卢邦国(Karl Lo) 美国加利福尼亚大学圣地亚哥分校国际关系和太平洋问题研究生院图书馆)

《九十年代图书馆现代技术国际研讨会论文选集》(Library in the 90's: Selected Papers of the International Symposium on the Latest Development in Technologies of Library Service),万国学术出版社(International Academic Publishers)1994年,第137-140

转主页 / Back to HomePage