99视频这里只有国产中文精品_日韩黄色电影免费在线观看_中文字幕欧美日韩视频一区在线观看_91精品免费播放_日本一卡二卡三卡视频免费在线观看_消息称老熟妇乱视频一区二区_欧美福利在线播放网_91久久国产亚洲精品超碰热_欧美久艹在线观看视频_JULIA早起邻居胸罩太松

校園招聘信息
請以中國出版集團的校招通知為準(zhǔn)
全站> > 人工智能技術(shù)解決方案> 自然語言處理算法

自然語言處理算法

全部 多語言機器翻譯解決方案 自然語言處理算法 知識圖譜 語音識別 大數(shù)據(jù)技術(shù)平臺

方案概述

中譯語通長期致力于自然語言處理技術(shù)的研發(fā)和應(yīng)用,采用循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、條件隨機場、支持向量機、隨機森林等先進機器學(xué)習(xí)技術(shù),結(jié)合千億級全球多語言文本語料數(shù)據(jù)資源,構(gòu)建了精準(zhǔn)高效的多語自然語言處理算法,包括分詞、詞性標(biāo)注和命名實體識別、敏感性分析、情感分析、自動摘要、關(guān)鍵詞抽取、文本分類、文本質(zhì)量評估、熱點聚類、事件要素抽取、知識圖譜構(gòu)建等各個層面,能夠為深度分析全球跨語言文本提供一站式信息處理解決方案。目前平臺可以支持30多種語言的處理,提供10多類算法及65種算法服務(wù)。

方案咨詢:2030nlp@gtcom.com.cn

應(yīng)用服務(wù)

  • 分詞及詞性標(biāo)注
  • 分詞是指按照語法規(guī)范,將字序列組合成詞序列。詞性標(biāo)注是指給定詞序列,找出最可能的詞性序列。 分詞是自然語言處理的基本單位,分詞及詞性標(biāo)注是各種NLP算法的基礎(chǔ)。我們提供面向各種應(yīng)用場景的定制化統(tǒng)計分詞算法,可滿足多語言需求。分詞及詞性標(biāo)注算法主要針對中、日、韓等沒有明顯詞邊界或詞邊界可進一步細(xì)化的語種,將以字串出現(xiàn)的句子或短語轉(zhuǎn)化為詞串。
  • 命名實體識別
  • 命名實體識別是信息提取、問答系統(tǒng)、語義理解、機器翻譯等應(yīng)用的重要工具,在自然語言處理中具有基礎(chǔ)性作用。我們采用統(tǒng)計機器學(xué)習(xí)方法,利用大規(guī)模語料庫進行訓(xùn)練,在中、英文多種應(yīng)用場景中,取得了較好的效果。
  • 情感分析
  • 文本情感分析算法能夠自動分析識別出篇章中表達的觀點或態(tài)度情感傾向,并給出能夠表達情感的極性和強度的情感傾向度指標(biāo)。 情感分析算法用于情感極性的分析,在監(jiān)控、話題監(jiān)督、口碑分析等領(lǐng)域具有不可替代的作用。本情感分析算法采用深度學(xué)習(xí)模型,在十萬級人工標(biāo)注語料基礎(chǔ)上訓(xùn)練而成。
  • 關(guān)鍵詞提取
  • 關(guān)鍵詞提取算法用于文本主旨的提取,幫助用戶快速獲取核心內(nèi)容。本關(guān)鍵詞提取算法綜合了多種機器學(xué)習(xí)方法和大量的語料資源,目前支持中、英、日、韓、俄、葡、西、法、德、阿等10個語種,并可以利用開放數(shù)據(jù)快速生成其它語種的關(guān)鍵詞提取工具。
  • 文本摘要
  • 自動文摘算法指自動生成一篇簡單連貫的短文,表達出原始文獻中的核心內(nèi)容。實現(xiàn)將原文信息的高效壓縮,輔助用戶高效閱讀。我們采用一種基于數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)方法,該方法適應(yīng)互聯(lián)網(wǎng)大數(shù)據(jù)的特點,具有不受領(lǐng)域限制、計算效率高、生成速度快、摘要長度可控制等優(yōu)點,能夠滿足搜索引擎、智能問答等應(yīng)用需求。
  • 語種識別
  • 語種識別算法是指自動判定輸入文本的語言種類。 我們基于N-Gram和貝葉斯理論研發(fā)了一套支持幾十種語言的語種識別技術(shù),其中重點對中文簡體、中文繁體、英、日、韓、俄、葡、西、法、德、阿等語種的識別進行了優(yōu)化,提升了識別準(zhǔn)確度。
  • 文本分類
  • 文本分類算法是指按照一定的分類體系或標(biāo)準(zhǔn),自動為文本標(biāo)記所屬類別。文本分類算法能將非結(jié)構(gòu)化信息按照給定分類體系,是海量數(shù)據(jù)應(yīng)用和管理的基礎(chǔ),應(yīng)用場景十分廣泛。我們參照《GB/T 20093-2013 中文新聞信息分類與代碼》二級分類體系,在此基礎(chǔ)上結(jié)合數(shù)據(jù)和產(chǎn)品特點進行歸并、映射,形成既符合行業(yè)標(biāo)準(zhǔn)又滿足用戶行為習(xí)慣的分類標(biāo)準(zhǔn)。文本分類算法目前支持中、英兩個語種
  • 敏感性判定
  • 敏感性判定算法主要用于敏感信息的過濾,包括反動、色情、暴力等多種類別。我們以統(tǒng)計機器學(xué)習(xí)模型為基礎(chǔ),利用人工標(biāo)注的大規(guī)模語料資源,結(jié)合基于語言學(xué)知識和詞向量構(gòu)造的多語敏感詞詞典,實現(xiàn)了統(tǒng)計與規(guī)則相結(jié)合的敏感性分析系統(tǒng)。敏感性判定算法目前支持中、英兩個語種。
  • 文本質(zhì)量評估
  • 文本質(zhì)量評估算法主要用戶互聯(lián)網(wǎng)挖掘數(shù)據(jù)的過濾和清洗,提高信息質(zhì)量,提升用戶體驗。文本質(zhì)量評估算法采用機器學(xué)習(xí)、智能識別等技術(shù),能夠有效識別包含亂碼、代碼、腳本等噪聲數(shù)據(jù)和行文隨意、語法混亂的灌水?dāng)?shù)據(jù)。
  • 事件要素提取
  • 事件要素提取算法能夠?qū)⒎墙Y(jié)構(gòu)化的自然語言文本進行結(jié)構(gòu)化,可用于新聞事件的深度分析與挖掘。我們采用一種無監(jiān)督學(xué)習(xí)方法,無需大規(guī)模人工標(biāo)注語料即可提取出文本篇章中最核心的時間、地點、人物、事件特征等信息,更符合大數(shù)據(jù)時代開放數(shù)據(jù)處理需求。
  • 多語言詞向量
  • 詞向量是深度學(xué)習(xí)中常用的一種詞語表示方法,既能表達詞本身又能表達與其他詞語的語義關(guān)聯(lián)。 詞向量技術(shù)是將自然語言詞匯進行高效量化表達的一種重要方式。我們采用神經(jīng)網(wǎng)絡(luò)模型,在大規(guī)模平行語料庫的基礎(chǔ)上,以中文或英文為核心橋接語言,利用單語語料以及句子對齊語料為訓(xùn)練數(shù)據(jù),構(gòu)建了多語詞向量庫。能有效解決多種跨語言任務(wù),包括多語言文本分類、多語言文本聚類、多語言情感分析,以及跨語言檢索引擎。

聯(lián)系我們