乐竞官网-乐竞(中国)一站式体育服务






    1. 咨询热线:021-80392549

      乐竞官网-乐竞(中国)一站式体育服务 QQ在线 乐竞官网-乐竞(中国)一站式体育服务 企业微信
      乐竞官网-乐竞(中国)一站式体育服务
      乐竞官网-乐竞(中国)一站式体育服务 资讯(xùn) > AI挖掘技(jì)术 > 正文

      自然语言处理(NLP)的一般处理流程!

      2020/05/253643

      自然语言处理(lǐ)(NLP)的一般处理流(liú)程!

      自然语言处理(NLP)的(de)一般处理(lǐ)流程!


      1. 什么是NLP

      自然语言(yán)处(chù)理 (Natural Language Processing) 是人工智能(AI)的一个子领(lǐng)域(yù)。自然语言处理是研究在人与(yǔ)人(rén)交互中以(yǐ)及在人(rén)与(yǔ)计算机交互中的语言(yán)问(wèn)题的一门学科。为了建设和完善语言(yán)模型,自(zì)然语言处理建立计算框架,提出相应的(de)方法来不断的(de)完善设计各(gè)种实用系(xì)统,并探讨这些实用系统的评测方法。

      2. NLP主要研(yán)究方向

      信息抽取:从给定文本(běn)中(zhōng)抽取重要(yào)的(de)信息,比(bǐ)如时间、地点、人(rén)物、事件、原因、结(jié)果、数(shù)字、日期、货币、专有名词等等。通俗说(shuō)来,就是要了解谁在什么时候、什么原(yuán)因、对谁、做了什么事、有(yǒu)什么结(jié)果(guǒ)。

      文本生成:机器像人一(yī)样使用自然语言进行表达和写作。依据输入(rù)的不同,文(wén)本生成技(jì)术主(zhǔ)要(yào)包括数据到文本生成和(hé)文本到文本生成。数据到文(wén)本生成是指将包含键值对的数据转(zhuǎn)化为自然语言文本;文本(běn)到文本生成对输入文本进(jìn)行转化和处(chù)理从而产生新的文本。

      问答系统:对(duì)一个自然语言表达的(de)问题,由问答系统给出一个(gè)精准(zhǔn)的答案。需要对自然语言查询(xún)语句进行某种程度的(de)语义(yì)分析,包括实体链接、关系识别(bié),形成逻辑表(biǎo)达式,然后到知识(shí)库中查找(zhǎo)可能(néng)的候选(xuǎn)答(dá)案并通过一个排序机制(zhì)找出(chū)最佳的答(dá)案。

      对(duì)话系统(tǒng):系统通过一系列的对话(huà),跟用户进行聊天、回答(dá)、完成某(mǒu)一项任务。涉及到用户(hù)意图理解、通用(yòng)聊天(tiān)引擎、问答引擎(qíng)、对话管理等技术。此(cǐ)外,为(wéi)了体现上下文相关,要具备(bèi)多轮(lún)对话能力(lì)。

      文本挖掘:包括文本聚(jù)类、分类、情(qíng)感分析以(yǐ)及对(duì)挖掘(jué)的信息和知(zhī)识的可视化、交(jiāo)互式(shì)的表达界面。目前主(zhǔ)流的技术都(dōu)是基于(yú)统计机(jī)器学习的。

      语音识别和生成:语音(yīn)识别是将输入计算机(jī)的语音符(fú)号识别转换成书面语表示。语音生(shēng)成又称文语(yǔ)转换、语音(yīn)合成(chéng),它(tā)是指将书面(miàn)文本自动转换成对应的语音表征。

      信息过滤:通过计算机系统自动识别和过滤(lǜ)符(fú)合特(tè)定(dìng)条件的文档信息(xī)。通(tōng)常指网络有害信息的自动识(shí)别和过滤,主(zhǔ)要用于信息安全和防护(hù),网络内容管(guǎn)理等。

      舆情分(fèn)析:是指收集和(hé)处理海量信息,自动化地对网络舆情进(jìn)行(háng)分析,以实现及时应对网络(luò)舆情的(de)目的。

      信息检索:对大规模的(de)文档进行索引。可简(jiǎn)单对文档中(zhōng)的(de)词汇,赋之以(yǐ)不同的权重来(lái)建立索引,也可建立更加(jiā)深(shēn)层的索引。在查询的(de)时候,对输入(rù)的查询表达式比如一个(gè)检(jiǎn)索词或者一个句子进(jìn)行分析,然后在(zài)索引里面查(chá)找匹(pǐ)配的候选(xuǎn)文档,再根(gēn)据(jù)一个(gè)排(pái)序机制把候选文档排序,最后输出排序得分(fèn)最高的文档。

      机(jī)器(qì)翻(fān)译:把输入的(de)源语言(yán)文本(běn)通过自动翻译获得另外一种语言的文本。机(jī)器翻译从最早的(de)基于规则的方(fāng)法到二十年前的基于(yú)统(tǒng)计的方法,再到今天的基于(yú)神经(jīng)网络(编码-解码)的方法,逐渐形成(chéng)了一(yī)套比较严谨的方法体系。

      3. NLP的发展(zhǎn)

      1950年前:图灵测(cè)试 1950年前(qián)阿兰·图灵图灵测试:人和机(jī)器进(jìn)行交流,如果人(rén)无法判断自己交流的对象(xiàng)是(shì)人还是(shì)机器,就(jiù)说明这个机器(qì)具有智能。

      1950-1970:主流:基(jī)于规则形(xíng)式语言理(lǐ)论

      乔姆斯基,根据数学(xué)中的公理化方(fāng)法研究自然语言,采用代(dài)数和集合(hé)论把(bǎ)形式语言定义为符号的序列。他试图使用有限的规则描述无限(xiàn)的语言现象,发现人类普遍的语(yǔ)言(yán)机制,建(jiàn)立(lì)所谓的普遍(biàn)语法。

      1970-至今:主流:基于(yú)统计 谷(gǔ)歌(gē)、微软、IBM,20世纪70年代,弗(fú)里(lǐ)德(dé)里克·贾里(lǐ)尼克及(jí)其(qí)领导的IBM华生实(shí)验室将(jiāng)语音识别率从70%提(tí)升到90%。 1988年(nián),IBM的彼得·布朗提出了基于统计的机器(qì)翻译(yì)方(fāng)法。 2005年(nián),Google机(jī)器翻译打败基(jī)于规则的Sys Tran。

      2010年以后:逆袭(xí):机器学习

      AlphaGo先后战胜(shèng)李(lǐ)世石、柯洁等,掀起人工(gōng)智能(néng)热潮。深度学习、人工神经网(wǎng)络成为热词。领域:语音识别、图像识(shí)别、机器翻译、自动驾驶、智(zhì)能家居。

      4. NLP任务的一般步骤

      下面图(tú)片看不清楚的,可(kě)以百度(dù)脑图查看(kàn),点击链接


      5. NLP、CV,选哪(nǎ)个?

      NLP:自然语言处理,数据是文本。

      CV:计算机视(shì)觉,数据是图(tú)像(xiàng)。

      两者(zhě)属(shǔ)于(yú)不同(tóng)的(de)领域,在遇到这个问题(tí)的时候,我也是犹豫了很久,想了很多,于是(shì)乎得出一个(gè)结论:都是利用(yòng)深度学习去解决现实世界存在的问题,离开(kāi)了(le)CV,NLP存活不了;离(lí)开了(le)NLP,CV存活不了。两者就像兄(xiōng)弟姐妹一样,整个“家(jiā)庭”不能分割但个体又存在差异!

      NLP/CV属于(yú)两个不同(tóng)的研究领域,都是(shì)很好(hǎo)的领域(yù),可(kě)以(yǐ)根据自己的爱好作出适合(hé)自己的选择,人工智能是(shì)一个多学科交叉的(de)领域,需要的(de)不(bú)仅仅是单方面的能力,而是多方(fāng)面的能力。对于每个人来(lái)说都有自己的侧重点,选择自己擅长的领域里持续(xù)深耕,就会有所成就!

      关键词: AI挖掘技术(shù)




      AI人(rén)工智能网声明:

      凡资讯来源注明为其他媒体来源的信(xìn)息,均为转(zhuǎn)载自其他媒体,并不代表本网站赞同其(qí)观点(diǎn),也不代表本网站对其真实性负责。您若对该(gāi)文章内容有(yǒu)任何疑问或质疑,请立即与网站(www.longyan.14842.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系(xì),本(běn)网站将迅速给您回(huí)应并做处理(lǐ)。


      联系电话(huà):021-31666777   新(xīn)闻、技术文章投(tóu)稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

      工博士人工智能网
      乐竞官网-乐竞(中国)一站式体育服务
      扫描(miáo)二维码关注微信
      扫码反馈

      扫一扫,反馈当前页面

      咨询反馈(kuì)
      扫(sǎo)码关注

      微信(xìn)公(gōng)众(zhòng)号

      返回顶部(bù)

      乐竞官网-乐竞(中国)一站式体育服务

      乐竞官网-乐竞(中国)一站式体育服务