設為首頁(yè)加入收藏

微信關(guān)注
官方微信號:南方財富網(wǎng)
加關(guān)注獲取每日精選資訊
搜公眾號“南方財富網(wǎng)”即可,歡迎加入!
APP下載會(huì )員登錄網(wǎng)站地圖

企業(yè)財報密集披露,合合信息文檔解析技術(shù)提升大模型“理解力”

2024-08-27 15:46 互聯(lián)網(wǎng)

  財務(wù)報告是公眾和投資者了解企業(yè)經(jīng)營(yíng)狀況的主要信源之一。步入8月中下旬,上市公司進(jìn)入了中報披露高峰期。據東方財富Choice數據統計,截至8月中旬,A股有超過(guò)1700只個(gè)股公布了2024年半年度業(yè)績(jì)預告,海量的財報的對于金融行業(yè)從業(yè)者而言,產(chǎn)生了巨大的工作量。

  隨著(zhù)人工智能技術(shù)的深入發(fā)展,部分企業(yè)和個(gè)人開(kāi)始嘗試用大模型進(jìn)行財務(wù)報表。針對大模型“理解力”薄弱,數據讀取錯誤等問(wèn)題,合合信息大模型“加速器”方案優(yōu)化升級了PDF文檔技術(shù),將非結構化的PDF內容轉換為結構化數據,提高大模型圖表類(lèi)數據提取準確性和版面理解能力,助力大模型實(shí)現從“泛讀”到“精讀”的能力跨越。

  PDF是主流的電子格式之一。文檔技術(shù)可將PDF、圖片等多種格式的為 Markdown 或 JSON 格式的文檔,并以一種對大模型友好的方式呈現。

  文檔技術(shù)是大模型理解和處理文檔的前提,相關(guān)能力的缺失,會(huì )導致大模型在理解版面不同區域的內容排列順序、要點(diǎn)時(shí)遇到障礙,影響大模型的“理解力”,財務(wù)報表中的關(guān)鍵信息可能會(huì )丟失或被誤解,使得模型生成的答案不夠精準,無(wú)法正確回答用戶(hù)的查詢(xún)。

  “人類(lèi)閱讀文章時(shí)可以自然地判斷版面元素的作用,但機器要經(jīng)歷層層拆解的過(guò)程才能‘讀懂’文章。”據合合信息技術(shù)團隊成員介紹,財報、年報多以PDF格式為主,其中包含著(zhù)各類(lèi)復雜表格、圖表、證照等元素。大模型現階段存在的文檔能力缺陷主要體現如下方面:文檔識別失敗率高,面對復雜版面,無(wú)法正確,獲取標題、分塊、圖表等。在這種情況下,大模型常表現為細節信息提供答案失敗或回答錯誤;邏輯結構不完整也是問(wèn)題之一,段落語(yǔ)義劃分錯誤,會(huì )導致大模型回答不全面或出現總結性偏差的狀況。

  圖 1:合合信息PDF文檔技術(shù)在大模型表格中的效果

  據了解,合合信息PDF文檔技術(shù)具備多文檔元素識別、版面能力,可以識別文檔中的段落、公式、頁(yè)眉、頁(yè)腳等多種元素,并進(jìn)行對應的處理。在應對財報中常見(jiàn)的無(wú)線(xiàn)表、合并單元格、不規則行距、跨段、跨頁(yè)等障礙時(shí),該技術(shù)也能做到準確還原各類(lèi)表格結構。

  為了讓大模型像專(zhuān)業(yè)人士一樣閱讀,PDF文檔技術(shù)可對各類(lèi)學(xué)術(shù)文獻進(jìn)行版面元素的識別及閱讀順序的判定。該技術(shù)不僅能夠準確定位文檔中的關(guān)鍵信息段落,還能根據PDF文檔的布和格式,推斷出人類(lèi)閱讀時(shí)的順序,而非機械地判定為從左至右排序,避免把完整的段落文字“攔腰斬斷”,真正做到了“所見(jiàn)即所得”。

  圖 2:合合信息PDF文檔技術(shù)對雙欄論文的效果

  合合信息技術(shù)團隊成員表示,上市公司年報頁(yè)數大多集中在200至300頁(yè)的范圍內,一個(gè)熟練的師可能在幾天到一周的時(shí)間內完成對年報的基本,PDF文檔工具最快能在1.5秒完成百頁(yè)文檔的,按8小時(shí)為一天工作時(shí)間計算,工具可幫助大模型在一日內對數千家企業(yè)的年報數據進(jìn)行精準。隨著(zhù)無(wú)紙化辦公、數字化趨勢發(fā)展,PDF文檔技術(shù)有望被應用于更廣泛的場(chǎng)景。

   廣告
最近中文字幕高清免费大全8