狠狠做深爱婷婷久久一区,欧美日韩国内,久久麻豆精品传媒,久久久一区一区二区,色鬼伦理片,99视频精品久久,久久精品国产久久久久久,久久久伦理电影一区二,磁力天堂河北彩花

新聞中心

EEPW首頁 > 智能計算 > 設(shè)計應(yīng)用 > 檔案人員借助大語言模型大規(guī)模破譯手寫文獻

檔案人員借助大語言模型大規(guī)模破譯手寫文獻

作者: 時間:2026-05-15 來源: 收藏

核心要點

  • 通用(LLM)已超越專業(yè)手寫識別軟件,在準確率、速度、成本上全面領(lǐng)先。

  • LLM 可快速歷史檔案、私人手稿、賬簿等,解鎖海量塵封文獻,助力學(xué)術(shù)研究與家族溯源。

  • 專業(yè)工具商 Transkribus 正集成 LLM,行業(yè)范式從 “專用模型” 轉(zhuǎn)向 “通用 AI”。

當(dāng)我在肯塔基州伯里亞學(xué)院檔案館翻閱貝爾?胡克斯(bell hooks)私人日記時,本以為能直接讀到她未經(jīng)修飾的私密思緒,結(jié)果卻陷入困境:她的草書字跡密集、筆畫纏繞,在我眼中幾乎一模一樣,而且還有多年的日記需要整理。我只能逐頁拍照,用 ChatGPT 轉(zhuǎn)錄內(nèi)容。沒想到這個方法效果很好,而我也并非檔案館里第一個發(fā)現(xiàn)這一點的人。

幾十年來,AI 研究者一直致力于讓計算機可靠識別千變?nèi)f化的手寫體。上世紀 60 年代,人們曾預(yù)言機器很快就能輕松讀懂手寫文字;但現(xiàn)實是,這個難題催生了數(shù)十年的專用研究與完整商業(yè)產(chǎn)業(yè)。深度學(xué)習(xí)先驅(qū)、圖靈獎得主 Yann LeCun在 80 年代發(fā)表手寫數(shù)字識別開創(chuàng)性成果,證明在受控環(huán)境下的可行性;但真實檔案館的復(fù)雜文獻,一直是另一回事。

如今這一界限正在被打破。通用雖非完美,卻已足夠?qū)嵱?/strong>:曾需要古文字學(xué)訓(xùn)練、定制軟件、數(shù)周人工辨識的手寫頁,現(xiàn)在幾秒內(nèi)就能生成可用轉(zhuǎn)錄文本。大量保存完好卻難以查閱的檔案,終于變得可檢索,為學(xué)者、普通人開啟前所未有的研究可能。

一、大規(guī)模:從一戰(zhàn)檔案到 AI 驗證

加拿大威爾弗里德?勞里爾大學(xué)歷史教授、生成式 AI 項目協(xié)調(diào)馬克?漢弗萊斯(Mark Humphries)耗時十年,數(shù)字化了1000 萬頁加拿大一戰(zhàn)撫恤金檔案。這些檔案由數(shù)百名職員、軍官書寫,字跡各異,無法訓(xùn)練專用識別模型,查找單個信息如同大海撈針。

2023 年 GPT-4 發(fā)布后,漢弗萊斯開始用它處理手寫檔案,初版結(jié)果雖粗糙,卻優(yōu)于以往所有通用工具。團隊耗時兩年系統(tǒng)驗證,2025 年 5 月發(fā)表于《歷史方法》期刊:在 18–19 世紀英文信件、法律文書、日記測試中,LLM 在準確率、速度、成本上全面超越專業(yè)手寫識別軟件 Transkribus。

  • Transkribus(未訓(xùn)練文檔):字符錯誤率約8%

  • LLM 最優(yōu)方案:錯誤率降至2% 以下、速度快50 倍、成本僅為1/50

Transkribus(全球 150 + 高校 / 檔案館在用)已宣布集成 LLM,順應(yīng)行業(yè)趨勢。漢弗萊斯說:“這正是我們一直期盼的工具?!?/p>

漢弗萊斯認為,AI 領(lǐng)域通用方法終將超越專用方案(理查德?薩頓 2019 年觀點):LLM 訓(xùn)練數(shù)據(jù)海量,在無人工標注下,自動習(xí)得手寫體與文本的映射關(guān)系,無需針對特定字跡單獨訓(xùn)練。

二、學(xué)術(shù)革命:解鎖塵封的歷史敘事

莉安?萊迪(Lianne Leddy)(威爾弗里德?勞里爾大學(xué)副教授、加拿大原住民歷史研究主席)借助 AI,追蹤北美原住民女性的歷史軌跡:皮毛貿(mào)易日志、洗禮記錄、婚姻登記散落在加拿大各地檔案館,幾乎全由男性職員書寫,極少關(guān)注原住民女性。

傳統(tǒng)研究需人工翻閱數(shù)千份文檔,篩選零星線索;女性姓名常為法語 / 英語 / 蘇格蘭語的音譯變體,或僅標注 “某人之妻”。萊迪說:“傳統(tǒng)方式需耗費畢生精力,AI 徹底改變研究規(guī)模?!?/p>

三、機構(gòu)落地:從高校到央行

  • 北卡羅來納大學(xué)教堂山分校:用 AI 轉(zhuǎn)錄黑奴祖先溯源相關(guān)特藏文獻,表格類文檔(賬簿)識別突破(Gemini 表現(xiàn)優(yōu)異)。檔案員杰基?迪恩:“表格處理是關(guān)鍵飛躍?!?/p>

  • 費城聯(lián)邦儲備銀行:用 LLM 提取歷史車輛注冊、房產(chǎn)契約數(shù)據(jù),以往成本極高、無法規(guī)模化,如今開啟全新經(jīng)濟研究維度。

  • Archive Pearl:加拿大開發(fā)非營利 AI 工具,支持批量上傳數(shù)百頁手寫文檔,幾分鐘生成純凈轉(zhuǎn)錄,目標推動學(xué)術(shù)民主化。加州大學(xué)圣克魯茲分校歷史學(xué)家本杰明?布林(Benjamin Breen):AI 對本科生、家族研究者幫助最大,同時解鎖古拉丁語、古英語等難讀文獻。

四、技術(shù)溯源:從楊立昆到現(xiàn)代 AI

Yann LeCun 80 年代研究手寫識別時,神經(jīng)網(wǎng)絡(luò)尚屬小眾,算力、數(shù)據(jù)均不足。他回憶:“當(dāng)時對手寫體興趣不大,只是剛好有數(shù)據(jù)(郵編、人口普查表)?!?0 年代初,他提出整行識別 + 語言模型糾錯架構(gòu),成為現(xiàn)代手寫識別基礎(chǔ)。

如今Yann LeCun認為手寫識別基本解決,轉(zhuǎn)向通用人工智能研究;但歷史文獻等復(fù)雜場景仍需優(yōu)化,速度、可靠性持續(xù)提升。

五、未來展望:AI 賦能人文研究

漢弗萊斯團隊開發(fā)Archive Pearl(測試版),面向全球?qū)W者,拖拽上傳、批量轉(zhuǎn)錄,讓小眾文獻觸手可及。他說:“技術(shù)應(yīng)成為大眾工具,而非少數(shù)人的特權(quán)?!?/p>



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉
石屏县| 广丰县| 双鸭山市| 饶阳县| 盐亭县| 扬州市| 板桥市| 金昌市| 蕲春县| 武威市| 古浪县| 潍坊市| 合川市| 黔东| 乌拉特中旗| 靖远县| 多伦县| 西乌珠穆沁旗| 萝北县| 旬邑县| 宁南县| 乐昌市| 白银市| 汤原县| 饶河县| 柳林县| 永春县| 化州市| 咸阳市| 呈贡县| 台南市| 彭州市| 平阴县| 合肥市| 永和县| 揭东县| 高要市| 烟台市| 浙江省| 杭锦旗| 阿坝|