更新時間:2023-10-31 11:13:44作者:佚名
大數據及其相應技術早已對社會知識體系及思維方法形成重大影響?;谶@一技術對唐代文學精典文本進行深度而高效的剖析,可使文學研究步入更宏觀的視野,提升研究推論的精準性、穩定性及可驗證性,促生新的研究理念、方法與范式。信息革命以來,古籍文獻數據化積累和知識庫建設卓有成效。浩如煙海的古籍,可以組成大小不等的任意文本集合,具有不同維度的數據特點。對它們進行基于字詞、語句、篇體等方面的統計,可以獲得不同于紙本閱讀的認知。
對古籍進行散點透視
微軟與耶魯學院借助其共同開發的數據庫對公元1800—2000年出版的近520萬冊書籍的詞組和詞組的使用頻度進行統計,任意詞或短語在過去數百年典籍中的出現頻度與變化趨勢得以清晰呈現。這一詞頻統計器廣泛應用于如探求名物的變遷沿革、話題的熱度變化、人物或群體的影響力等研究。
同樣,大數據時代下新的技術和研究思路為填補紙質古籍在結構化整理、大量資料凝聚排列、關系立體化勾連呈現等方面的不足提供了可能性。我們借助《國學寶典》數據庫收錄的超一萬種逾22億字的歷朝古籍精湛數據,在其中篩選出最為核心的精典近百部,對其從用字量、用字比(TTR_H)、字頻等不同角度進行統計,將時代與文體來源廣泛的文獻曾經人不曾構想過的方法進行關聯比較,獲得了一系列涉及漢語史、文體學、知識考古學、蒙學研究、近代文白變革等諸多領域與交叉學科的重大命題與發覺,是“數字映射精典,技術更新人文”的有效例證。
橫向概覽從漢代到明代典籍數據,首先可以關注到的是單部精典總字數和用字量的漸增趨勢。其實,后者與文獻的物質形態的變化發展直接相關,前者不僅受中古漢語雙音化等自身發展誘因的影響之外,同樣與漢朝至中古以來總體書籍量的下降及社會的知識好尚有關。用字量排行靠前的首先是知識性工具書與承當認字教材功能的蒙學讀本,如《爾雅》(3360字)、《水經注》(4490字)、《古文觀止》(3863字)等。唐代以降,士人漸漸注重學術與社會觀點的積累以及人生精華的總結,故而其論著常有優厚淵博的知識性特質?!熬刻烊酥H,通古今之變”的《史記》與“言其大也,則燾天載地;說其細也,則淪于廣漠”的《淮南子》用字量分別為4730字與3900字,在參與統計的上古至中古文獻中非常突出,已可與清代短篇志怪小說作品媲美(四大名著和《聊齋志異》用字量在3931~4936字之間)。
僅借助數據自身不能完成“智慧型”轉化,比數據更重要的是闡明數據的形式。不僅將統計剖析與精典論題相關聯,數據的切分與降維也是至關重要的基礎環節。一項精典研究案例是,將《紅樓夢》以四十回為單位進行文本切分,最后一部份在用字量方面的明顯不同正好旁證關于作者的疑問。但是,以用字量直接評判作品質量或閱讀難度又會墜入機械的統計剖析思維。諸如統計中居首的幾部小說文獻,其體量大、涉及內容廣、雅諺語體并包等誘因共同提高了用字量。同樣,受常用漢字總數限制,文獻篇幅的降低反倒會造成用字比增長。故而統計中引入估算語言學常用的TTR_H模型以修正用字比,最終結果顯示,用字比最高者皆為蒙學讀本:《千字文》(1)、《百家姓》(0.986)、《三字經》(0.894)、《聲律啟蒙》(0.857)??梢?,編繪者有意識地在有限的篇幅和內容難度中降低用字量,讓學童能比較密集地習得盡可能多的漢字。蒙學讀物的編撰者選字標準是哪些,是當時常見精典文獻中的高頻字,還是日常生活中的常用字,還是有別的標準?這些選擇是以何種形式完成的?那些都是值得進一步探究的話題。
從用字特點偵測精典命題
字頻統計中,考慮到虛字和實字的不同屬性和詮釋功能,兩者一般被分別估算。助詞在漢語史等領域的研究中常常被作為特點數據使用,同時也是作品風格比對的標志性參數,助詞的使用比重本身便構成不同作者間的風格標示?!拔褰洝敝?,參照后世“文筆之辨”,《詩》為有韻之文,因此與其他幾部書相比,高頻詞中詞義比重更大,古人“實字多則健,虛字多則弱”的小品文觀點或發軔于此。以高頻字的虛實映射“文筆之辨”的方式可推及后世,普遍而言,在散文與作曲等文體中,詞義作為高頻詞的機率小于詩歌文體。
作為“五經”中成書年代最早的《尚書》,其虛字運用特點同樣保存了上古漢語的流變痕跡?!渡袝分蓄l次居首者是極具上古色調的助詞“惟”,這除了與其中許多篇目的記言性質有關,也彰顯了初期漢語與后來“之乎者也于”時代的分野。以相同視角審視近古作品,可以窺探漢語史上的另一重大改革。對話是小說中的重要元素,抒發說話行為的代詞自然享有高頻地位,在《三國演義》與《聊齋》中彰顯為“曰”,而《西游記》和《水滸傳》中則彰顯為“道”,這是后一組作品文言色調減小的重要標志。而真正的白話變革發生在《紅樓夢》身上,“的”首次代替句型功能相同的“之”而入選,成為第二高頻詞?!都t樓夢》中居首的高頻詞是另一個極具白話特點的助詞“了”,這也是《水滸傳》中的第一高頻詞。
與實詞相反相成的詞義是文獻內容和主題的映射,其背后涉及反映觀念史變遷的重大命題。同樣以“五經”為例,《詩》《書》《禮》《易》《春秋》中的第一高頻詞義分別為“我”“王”“人”“象”“子”。《詩經》具有最強的主體抒情色調,恰如《毛詩序》所謂“以一國之事,系一人之本”。《尚書》為上古三代帝王典、謨、訓、誥、誓、命等文獻記載,以記錄“王”之言行為核心。孔子以“克己復禮”來約束人,“禮”是人內在品質的外化,因而談“禮”不基于人則會喪失根基?!跋蟆弊鳛椤吨芤住返脑u析對象是不言自明的?!肮耪哜覡奘现跆煜乱?,仰則觀象于天,俯則觀法于地,觀蟲鳥之文與地之宜,近取諸身,遠取諸物,于是始作《易》八卦,以垂憲象?!薄墩f文解字序》中的這段話,說明“象”不僅是《周易》的關鍵,也是漢字造字觀念及中華文化思維的彰顯?!洞呵锸酚洝分惺孜桓哳l字為“子”,其中包含第三人稱雙數與諸候國君稱謂雙重意義。前者是《春秋》敘事的核心所在,孔子作《春秋》,正是為了以微言大義記錄“禮樂征討自諸候出”的特別時代古代文學排名,作為紀傳體正史,各諸候國君臣的秩序與道德選擇構成了其潛在的經線。
用數據來表征“詩分唐宋”
錢鐘書《談藝錄》以“詩分唐宋”開篇,影響甚廣。此說實承續前人而至,南宋嚴羽詩論便有“本朝人尚理,唐人尚意興”之說。唐宋詩之別在于體格性分,相對較為神妙。通過量化剖析,可對其語言層面的特點做出細致掌握。通過對《全宋詞》五萬七千余首和《全宋詞》二十五萬四千余首的詞頻統計顯示,高踞前十位的高頻詞分別為:不知、何處、萬里、千里、不見、不可、白云、今日、春風、不得(《全宋詞》);不知、春風、平生、不可、萬里、千里、人間、不見、十年、何處(《全宋詞》。下文中詞頻位序將在括弧中注出,故不再一一說明)。
將統計擴充至前一百位,有關唐宋詩風之辨的許多命題都還能在語詞的皺褶中被展開。作為嚴羽論斷的例證,在前一百位中,元曲里駢文尚意的寫景語匯更居前列,如排行第7的“白云”與第11的“明月”,雖只是詞匯片斷,唐人氣象儼若可見。作為參照,這兩個隱喻在《全宋詞》詞頻統計中分別降至19與23位。嚴羽“本朝尚理”的觀點同樣能在統計數據中獲得旁證:宋詞中“平生”(第3位)、“人間”(第8位)等哲思人生的“理語”排位較明代(分別高踞第30、13位)又有上升。另一點值得玩味的是,宋人雖崇尚自守慎獨、內求于心的理學,詩中卻不乏唐人所很少講到的“功名”(36)、“富貴”(78),而元曲中常見的“惆悵”(15)、“相思”(22)等與“理語”相對的“情語”在宋詞詞頻列表中跌出了前一百位。
宋詞側重空間,而元曲側重時間。敻絕的宇宙意識和浩渺的空間,從《全宋詞》詞頻前五位中(不知、何處、萬里、千里、不見)可見一斑。臺灣漢學家吉川幸次郎曾提出,元曲是凝望著人生貴重頓時的燃燒,所打量的只是對象的頂點。而元曲是時間性的,作家視人生為漫長的持續。以語詞的統計來評判這一觀點,元曲排序最高的時間詞是“今日”(8),時空與情感凝注于此一點,而元曲中居首的是“十年”(9),從而是“今日”(12)與“百年”(20)。吉川將“燃燒與持續”的說法推動至隱喻選用的對比方面,晚霞是燃燒的景色,雨是持續的景色,于是有了“唐人寫晚霞宋人寫雨”的精典論斷。詞頻統計恰也驗證了這點,《全宋詞》詞頻穩居前列的“落日”(55)、“日暮”(59)、“夕陽”(69),在元曲中都排在九十位以后。
不同于信息爆燃的現代,傳世文獻中的精典文本邊界是相對清晰的,但是其體量對于專注于某一選題或領域的研究者仍然無法全體把握。基于大數據技術的唐代文學精典文本剖析,既著眼于精典文獻,又以海量的基礎文獻為基礎,希望在較短時間內用高效、全面的數據挖掘,來進行確切有效的文本剖析。傳統古典學研究中的推論多通過個人有限閱讀過程中的觀察、思索、領悟等方法獲得,這類方法常常具備一定的主觀性乃至先驗色調。大數據的凝聚和估算剖析方式的運用,才能使既出人意表又允執厥中的推論“自動涌現”。
借助大數據將往年被分裂和隔絕的事物重新聯接,改變了我們對文獻、文本、知識的認識路徑和掌握尺度。僅從字/詞頻統計這一大數據手段的微小切面入手,我們便已初步獲得了以一種新方法偵測經史、語言學、文學等領域文獻的體驗。與用不同技術手段、不同結構化方法、不同顆粒度構建的集成式文獻知識庫相比,以上工作其實只是一份小嘗試。相信隨著統計數據的累積、疊加和映射,古籍和傳統文化研究一定就能煥發出更多生機和活力。
(作者:劉石,系國家社科基金重大項目“基于大數據技術的唐代文學精典文本剖析與研究”首席專家、清華學院院長古代文學排名,尹小林,系首都師范學院中國詩詞研究中心專職研究員)