首先我們需要了解信息是如何傳播的。
事實(shí)上,即使現(xiàn)在的通信方式比之原始社會先進(jìn)得多,而從傳播原理上講,卻是并沒有差別的,即
將信息源所要傳播的信息進(jìn)行編碼,接收者從信息通道獲得編碼后的信息并將其解碼,從而獲得信息源所要傳播的信息。
信息經(jīng)過了編碼——傳播——解碼,實(shí)現(xiàn)了信息的傳播。
我們可以認(rèn)為,任何一種語言都是一種對信息的一種編碼的方式,而語言的語法規(guī)則便是編解碼的算法。當(dāng)我們將一個所要表達(dá)的信息通過一種語言表達(dá)出來之時,便已經(jīng)進(jìn)行了一次編碼,而編碼的結(jié)果便是這種語言表達(dá)的一串文字。信息接收者如果懂得這種語言,那么他便可以將這串文字解碼,從而獲得這串文字所代表的信息。這便是人類語言的本質(zhì)。
我們要研究智能問題,那么首先就要面對以下問題:
問題一:計(jì)算機(jī)能否處理自然語言。
計(jì)算機(jī)科學(xué)之父阿蘭圖靈(Alan Turing)在他的一篇論文中提出了一種驗(yàn)證機(jī)器是否有智能的方法,這種方法也被稱為圖靈測試(Turing Test):
讓人和機(jī)器進(jìn)行交流,如果人無法判斷自己交流的對象是人還是機(jī)器,就說明這個機(jī)器有智能。
當(dāng)然,計(jì)算機(jī)能否處理自然語言,無論是真實(shí)情況還是出于假設(shè),這個答案必然是能,這是研究下去的前提。
問題二:計(jì)算機(jī)如何處理自然語言。
對于這個問題,人們的第一反應(yīng)便是,計(jì)算機(jī)像人類一樣處理自然語言,換句話說,便是讓計(jì)算機(jī)理解自然語言,再深入一層,便是計(jì)算機(jī)擁有如人類大腦一般的智能。那么這種想法是否可行?
從二十世紀(jì)五十年代到七十年代,研究智能的科學(xué)家都抱著這種想法,然而二十年的成果幾近為零。如何理解自然語言,在于分析語句和獲取語義。
分析語句,如“我看書。”以文法規(guī)則重寫出來,便是
句子→主謂賓句號
主語→名詞 謂語→動詞 賓語→名詞 句號→。
名詞→我 動詞→看 名詞→書
我們可以看到,即使是如此簡單的一句話,也需要八條文法規(guī)則,那么如果是一個更為復(fù)雜的句子,如“一向自信的他一直認(rèn)為他自己做的一切都是無可辯駁的?!逼渲械奈姆ㄒ?guī)則便復(fù)雜得多了。
那么這其中便出現(xiàn)了一個無法解決的問題,想要通過文法規(guī)則覆蓋所有自然語言的語法規(guī)則,數(shù)量至少達(dá)到十萬以上,而且為了語義準(zhǔn)確,還必須說明每個規(guī)則規(guī)定的使用環(huán)境,到最后每增加一個新句子,就要加入一些新的文法規(guī)則。
即便假設(shè)上面的問題能夠解決,在獲取語義上也出現(xiàn)了另一個無法解決的問題。那就是無論在哪一種自然語言里,要理解一個句子的意思,往往要聯(lián)系上下文,這個問題直接導(dǎo)致了自然語言處理研究的停滯。
所以,讓計(jì)算機(jī)理解自然語言至少目前是不可行的。學(xué)者們也就將該想法稱為“鳥飛派”,即以為模仿鳥便能造出飛機(jī),而不需要知道空氣動力學(xué)。
那么計(jì)算機(jī)是如何處理自然語言的呢?
答案是使用基于統(tǒng)計(jì)的方法,即為自然語言上下相關(guān)的特性建立數(shù)學(xué)模型。一開始因?yàn)橛?jì)算能力不足和數(shù)據(jù)量少的問題,基于統(tǒng)計(jì)的方法智能處理簡單的自然語言,但近幾十年來,計(jì)算機(jī)的硬件更新和數(shù)據(jù)量的不斷增加,讓通過統(tǒng)計(jì)模型完成精確復(fù)雜的句法分析變得越加可行。