🧙♂️本文簡述:最新資訊,合合信息掃描全能王實現古彜文識别,對文化的發展起到傳承作用,本篇給大家講解一下
🧙♂️上一篇文章: 年度總結-你覺得什麽叫生活?
🦹有任何問題,都可以私聊我,在文章最後也可以加我的wx。感謝支持!
🦹我認爲人人都可以學好編程,我願意成爲你的領路人!
文章目錄
- 👨🎓前言
- 一、古彜文的深度探索
- 1.古彜文簡介
- 2.古彜文傳承坎坷之路
- (1)古彜文原籍獲取難
- (2)古彜文原籍保存難
- (3)古彜文原籍翻譯難
- 二、AI實現古籍傳承
- 1.國内文字識别技術的探索
- 2.古彜文識别的難點
- 3.合合信息開辟國産古文字識别技術新征程
- 三、古彜文識别的意義
- 四、👩🎓總結
👨🎓前言
随着社會的進步與文化傳承的發展,新時代的年輕人展現出無比強烈的文化自信。中華文化源遠流長、一脈相承,在這個強調文化自信的時代,我們不得不更加重視文化傳承的曆史任務,而今天,文化傳承的接力棒已經交到的新一代年輕人的手中。但是古文字文化傳承方面的工作目前還有待提升,其原因就在于在探索古文字釋義的過程中有諸多困難,即使有大量的古文字書籍供人們閱覽,但是大部分人對這部分文化少有研究,因此使得古文字文化的傳承困難重重。而随着AI文字識别技術的發展,該項技術對古籍的數字化已經有了突破性的進展,這使得人們有更便捷、更先進的工具去探索古文字的秘密!本篇給大家介紹一家企業——合合信息,聯合上海大學、華南理工大學團隊針對現有的西南彜志、雲貴一帶古彜文字符開展統一編碼,并于近期發布了業内首個古彜文基礎編碼數據庫。旗下的掃描全能王“智能高清濾鏡”功能,也高效解決古彜文圖像電子化的問題。。本篇給大家介紹:合合信息-掃描全能王實現古彜文識别技術。
一、古彜文的深度探索
1.古彜文簡介
彜文簡介: 彜文指的是雲南、貴州、四川等地的彜族人使用的文字,是彜族千百年來使用仍通行的表意文字。彜文産生于新石器時代到鐵器時代之間,經曆了文字發展的必經階段,彜文典籍的内容涉及範圍非常廣泛,天文、地理、政治、經濟、軍事、醫學、算術、地形、地貌、生物、農牧等無所不泰,其中蘊含着大量的生産與生活的技能智慧,是彜族人民開發利用所在地自然資源的經驗總結和科學的結晶。
區别于上述現代意義上的彜文,今天我們所謂的“古彜文”指的是在民間流通使用的原生态彜文,根據《滇川黔桂彜文字集》,這些文字多達87046字。有學者認爲,古彜文的起源距今至少數千年,是世界上最古老的文字之一。
2.古彜文傳承坎坷之路
随着曆史進程的不斷前進,古籍的存在也變得越來越少。部分了解古彜文的長者也相繼去世,這使得古彜文的研究工作變得難上加難。
(1)古彜文原籍獲取難
古彜文原籍的獲取非常不易,這與彜族人民的風俗文化息息相關,彜族祭司(布摩)通常不願意外借祖傳書籍,認爲外借書籍是可恥的行爲,所以研究者要想通過研究古彜文原籍來豐富和拓展古彜文資料是非常困難的。然而在一些研究者和專業人士的努力下,一些持有古彜文原籍的人會願意轉讓部分典籍,同時也有一些緻力于推廣傳統文化、已消除禁忌理念的人士願意轉讓經書,這才使得研究者們能有更多的古彜文原籍用以研究.。
(2)古彜文原籍保存難
首先,受一些環境等不可控因素的影響,古彜文典籍在保存的過程當中十分不易,雖然在曆史發展的過程中彜族人民創造出“封底裹卷裝”等方式來保存古籍,但是能完好無缺保存下來的古籍卻十分稀少,大部分古籍在流傳的過程中或多或少都有殘缺,識别起來較爲艱辛。其次,部分古籍會有殘缺、粘滞等問題,需要研究者進行分頁、粘貼、重新拼接等,這對工作人員的研究進度造成極大阻礙。
(3)古彜文原籍翻譯難
一般的古籍翻譯時間在一到兩年之内,具體時長又會根據古籍的難度和文字量不同而定。但是建國之初由羅國義、王興友兩位先生進行漢譯的《西南彜志》(共26卷)卻花了十年的時間完成翻譯工作,此後王運權、王仕舉等先生又花了17年才完成修訂校正工作,可見古彜文原籍翻譯工作十分艱難。不僅如此,古彜文的某些字符可以對應多個解釋,多個字符對應一個解釋,并且它的字符具有多樣性和複雜性,沒有統一的規範形式,因此在翻譯的過程中會出現詞句不通順等情況。
二、AI實現古籍傳承
1.國内文字識别技術的探索
- 摸索階段(1979-1985年):在這個階段,國内的一些研究者開始對漢字識别方法進行探索和嘗試。這一階段的研究主要基于對數字、英文和符号的識别研究,并開發了少量的模拟識别系統和軟件。
- 研究開發階段(1986-1988年):這個階段是漢字識别技術的研究高潮期,也是印刷體漢字識别技術研究的豐收期。總共有11個單位進行了14次印刷體漢字識别的成果分析鑒定,這些系統對樣張識别能達到高指标,可以識别宋體、仿宋體、黑體、楷體,識别的字數最多可達6763個,字号從3号到5号,識别率高達99.5%以上,識别速度在286微機條件下能夠達到10~14字/秒。然而,這些系統對真實文本的識别率卻比較低,主要原因是系統對印刷體文字不同形狀發生變化(如文字模糊、筆劃粘連、斷筆、黑白不均、紙質質量差、油墨反透等等)的适應性和抗幹擾性較差。
- 落地實用階段(1989年至今):自1986年印刷體漢字識别(文字識别)掀起高潮以來,部分高校與企業研制并開發出了實用化的印刷體漢字識别網絡系統。這一階段中,除了對文字的識别,研究者們還開始關注表格的自動識别錄入、名片識别、通用票據識别、圖文混排及多語種混排分析、文檔版面分析與識别、古文字識别等。随着技術的不斷成熟,越來越多的文字OCR識别場景得以落地使用。
2.古彜文識别的難點
随着AI技術的成熟,古文字識别也通過AI技術變得更加方便、簡單,但是對于古彜文來講,依然有以下幾種難點:
- 古彜文在不同地區間具有差異性,彜族人民主要分布和活動于雲南、貴州、四川地區,盡管他們之間的字符大同小異,但是又由于地理位置、風俗文化等因素的影響,使得不同地區間部分相似字符具有不同含義。
- 古彜文原籍的保存具有殘缺性,由于部分地區的保存原籍的技術并不完善,因此大多數樣本有殘缺、遮擋、模糊、褶皺、黴斑污漬、墨色深淺等問題,使得AI技術在識别古彜文字符的過程中無法精确且完整地表達出字符的含義。
- 古彜文的數據量具有不完整性,古彜文的數字化進程還處于探索階段,針對于古彜文的還沒有預留的Unicode編碼區段,同時也沒有公開且統一的數據集,相關的數據和資料十分地缺乏,導緻大模型的訓練缺少可用資料,同時AI學習需要一個相對固定的編碼,這成爲AI古彜文識别的最大障礙。
3.合合信息開辟國産古文字識别技術新征程
合合信息的掃描全能王是最爲出色的産品之一,智能文字識别技術是合合信息核心技術之一,主要由智能圖像處理、基于深度學習的複雜場景文字識别,自然語言處理三大核心模塊組成。其中,合合信息的智能圖像處理技術,能夠對樣本進準識别,即使是有部分遮擋、陰影、指紋或反光等問題, 該項技術也能夠對文檔圖像進行精準的矯正處理,從而有效識别文字信息。其次,合合信息的複雜場景文字識别技術可适應多語言、多版式、多樣式等複雜場景,以進行文字提取,并結合領先的NLP技術,對識别出的結果進行語義理解。
智能識别技術的實現離不開圖像處理爲基礎,通過智能掃描引擎AI-Scan的支持,實現了對信息的自動識别、分類和提取的功能,從而實現圖像感知與場景化決策。對于圖像中光照、陰影、顔色和傾斜角度等問題,掃描全能王能夠隻能地決策如何優化文檔的圖像,使用深度學習模型來識别和理解圖像的内容,再根據圖像感知的結果,從而進行通識性、場景化的判斷。
古文字識别技術的探索一直都是艱辛的,而合合信息另辟蹊徑通過與上海大學、華南理工大學共同推進的“原生态古彜文”研究項目,以四字節編碼系統爲基礎,标注異體字、變體字、誤用字和混用字,以此精确建立彜文古籍電子數據庫,爲機器學習建立豐富數據樣本庫。針對現有的《西南彜志》之前沒有統一編碼的問題,合合信息對古彜文字進行了統一編碼,對古彜文數字化進程以及未來文字傳播起到極大推動作用,此舉爲國内首創。AI訓練數據量較之前也有了極大提高,同時樣本量7萬6千字符訓練,能夠有效識别相關古彜文,AI識别古彜文技術逐步成熟發展。
三、古彜文識别的意義
文化傳承讓人們能夠對過去的文化成就有更爲深入的了解和認識,從而更好地塑造自己的文化身份和認同感。古彜文作爲我國特有文化遺産,是國内文化的瑰寶,是中國文化必不可少的部分,學習古彜文不僅是彜族人民的專屬,更是我們深入了解彜族文化的中介,這有利于豐富我國文化的多樣性,增強各個民族文化間的交流,促進民族文化大繁榮。
古彜文作爲彜族文化的重要載體,是我們了解彜族文化的重要的工具。通過對古彜文的研究,能夠爲我們學習彜族文化提供強有力的支撐,豐富傳統文化的内容,并将有關于彜族的數據資料和史實建立在對古彜文字研究的基礎之上。因此,古彜文的傳承不僅是對彜族文化的保護,更是對彜族文化的弘揚和發展的促進。
四、👩🎓總結
雖然合合信息對古彜文AI識别的技術尚處于初期階段,但是這也對古彜文數字化進程的發展起到重要的推動作用,相信通過技術的不斷完善,古彜文的識别會變得更加便捷、高效、準确。願國産AI識别技術越來越先進,爲我國的文化傳承事業提供堅實的保障!
最後,在中秋佳節,我在這用古彜文向大家表示衷心的祝福,祝大家:喜樂安康,岑靜無妄!