乐竞官网-乐竞(中国)一站式体育服务






    1. 咨(zī)询热(rè)线(xiàn):021-80392549

      乐竞官网-乐竞(中国)一站式体育服务 QQ在线 乐竞官网-乐竞(中国)一站式体育服务 企业微信(xìn)
      乐竞官网-乐竞(中国)一站式体育服务
      乐竞官网-乐竞(中国)一站式体育服务 资讯 > AI挖掘(jué)技术 > 正(zhèng)文

      自然(rán)语言处理入门教程

      2020/05/253518

      自然(rán)语言处理入(rù)门教程(chéng)

      自然语言(yán)处(chù)理(NLP)是计(jì)算机(jī)科学领域和人工(gōng)智能领域中的(de)一个分支,它与计算机和人类之间使用自(zì)然语(yǔ)言进行互动密切(qiē)相关。NLP的最终目标是使计算机能够(gòu)像人类一样理解语言。它是虚(xū)拟助手、语音(yīn)识别、情感分析(xī)、自动文本摘要、机器翻译(yì)等的(de)驱动力。在这篇文章(zhāng)中,你将(jiāng)学习到自然语(yǔ)言(yán)处理的基础知识,深入了解到它的一些(xiē)技(jì)术,了解(jiě)到NLP如何从深度(dù)学习的最新进展(zhǎn)。

      1.简介

      自然语言处理(NLP)是计(jì)算机科学、语言学和机器(qì)学习的交叉点,它关注(zhù)计算机与人(rén)类之间使用自然语言中的沟通交流。总之,NLP致力于让(ràng)计算机能够理解和生成人类语言。NLP技术应用于多(duō)个领(lǐng)域,比如天猫精灵和Siri这样的语(yǔ)音助手,还(hái)有机器翻译和(hé)文本过(guò)滤等。机(jī)器学(xué)习是受NLP影响最深(shēn)远(yuǎn)的领域之一,尤为突出的是深度学习技术。该领(lǐng)域分为以下三个(gè)部分:

      1.语音识别:将口语(yǔ)翻译成文本(běn)。

      2.自然语言(yán)理解(jiě):计算机理解人类的能力。

      3.自然语言生成:计算机生成自然语言。

      2.为什么NLP很难

      人类语(yǔ)言有其特(tè)殊性。人类(lèi)语言专门用于传达讲话(huà)者和写作者的意(yì)思,即使小孩(hái)子能够很(hěn)快学会,它依(yī)然是一个(gè)复(fù)杂(zá)的系统。它的(de)另(lìng)一个显著之(zhī)处(chù)在于它完全与(yǔ)符号(hào)有关(guān)。Chris Manning(斯坦(tǎn)福教授)表示(shì),它是一个离散的(de)、象(xiàng)征性的、绝对的(de)信号系统(tǒng),这意味着人们可以(yǐ)通过使用(yòng)不同的(de)方式传达相同的含义,比如演(yǎn)说,手势,信(xìn)号(hào)等。人类大脑对这些符(fú)号的编码是持续的激活模式,在这个模式中,符号通过声音(yīn)和视觉的(de)连续信号实现传输。

      由于其复杂性,理(lǐ)解人(rén)类语言被认为是一项艰巨的任(rèn)务。例如(rú),在(zài)句子(zǐ)中排列(liè)单词(cí)有无数种不同的方法。此外(wài),一个单词可以(yǐ)有多种含义,并(bìng)且正确解释句子(zǐ)需要恰当的语(yǔ)境信息(xī)。每(měi)种语言或(huò)多或少都是独特且(qiě)含糊的。比如:“The Pope’s baby steps on gays”,这句话显然有两种截(jié)然不(bú)同的(de)解释,这(zhè)是(shì)反映NLP中的困难之处的一个很好的例(lì)子(zǐ)。

      随着计(jì)算机对(duì)语(yǔ)言(yán)的理(lǐ)解愈渐完美,将会产生可以处理互联网上(shàng)全(quán)部信息的人(rén)工智(zhì)能(AI),继而产生强人(rén)工智能(AGI)。

      3.句法和语义分析

      句(jù)法分析(xī)和语义(yì)分析(xī)是理解自然语(yǔ)言的两(liǎng)种主要方(fāng)法。语言是一组意义的语句(jù),但是什么使语句有意义呢?实际上,你可(kě)以将有效性分为两(liǎng)类:句法和语(yǔ)义。术语“句法”是指文本的(de)语法(fǎ)结构(gòu),而术语“语义”是指(zhǐ)由它(tā)表达的含义。但是,句法上正确(què)的语句不必在语义(yì)上正(zhèng)确。只需(xū)看看下面的(de)例子。语(yǔ)句“cow kow supremely”在语(yǔ)法上是有效的(主语-动词(cí)-副词(cí)),但没有任何(hé)意义。

      句法分析:

      自然语言处理(lǐ)入(rù)门教程(chéng)

      句(jù)法分析,也称(chēng)为(wéi)语法(fǎ)分析(xī)或(huò)解(jiě)析,是(shì)通(tōng)过遵循(xún)正式语法(fǎ)规(guī)则来分析(xī)自然语言的过程。语法规(guī)则适用于单词和词组,而(ér)不是单个单词。语法(fǎ)分(fèn)析(xī)主要为文本分配(pèi)语(yǔ)义结(jié)构。

      语义分析:

      我们(men)理解他人的语(yǔ)言(yán)是一种无意识的过程,依赖于直觉和对语言本身(shēn)的认识。因此(cǐ),我(wǒ)们理解语言的方(fāng)式很大程度上(shàng)取(qǔ)决于意义(yì)和语境。计算(suàn)机却不能依赖上(shàng)述方法,需要采(cǎi)用不同的途(tú)径。 “语义(yì)”这个词是一个语言术(shù)语,意思与(yǔ)意义或逻辑相近。

      因此,语义分析是理解单词、符号和语句结(jié)构的含义和解释(shì)的过(guò)程,这使计算机能够以人类(lèi)的方式理解部分涉及意义和语境(jìng)的自然语言。为(wéi)什么(me)说只能部分理解(jiě)呢(ne)?是因为语义(yì)分析是(shì)NLP中最棘手的部分(fèn)之一,仍未完全(quán)解(jiě)决(jué)。例如,语音识别技术(shù)已非常成熟,并且工(gōng)作近乎(hū)完美,但仍然缺乏在自(zì)然语言理解(例如(rú)语义)中(zhōng)的熟练程度。手(shǒu)机基本上可以理解我(wǒ)们(men)所说的内容,但通常无法用它(tā)做任何事情,因为它(tā)不了解其背(bèi)后(hòu)意义。

      4.理解文本的(de)技巧

      下面我(wǒ)们将讨论(lùn)多(duō)种用于自然语言处(chù)理的现行技术(shù)。

      什么是解析?首先(xiān),让我们看一下词典释义:

      解析—“将句子分(fèn)解为其组(zǔ)成部分,并阐述(shù)各部(bù)分的句(jù)法角色。”

      实际上解释(shì)的已(yǐ)经(jīng)非常到位,但它可以(yǐ)更全面一些(xiē)。解析是指计算机对句子的(de)形(xíng)式分析(xī),其结果是一个解析树,这个解析树(shù)可以可视化(huà)地显示(shì)句子成分之(zhī)间的(de)句法(fǎ)关系,用于进一步处理和理解。

      在下面你(nǐ)可以看到句子“The thief robbed the apartment”的(de)解(jiě)析树,以及由它传达的三种不同信息类型的描述(shù)。

      自然语言处理(lǐ)入门教程

      我先看单(dān)个单词正(zhèng)上方的字母,它们用于显示每个(gè)单词的词性(xìng)(名(míng)词-N,动词-V和(hé)限(xiàn)定词-DT)。我们再看解(jiě)析树(shù)中更高(gāo)的层级,一些单(dān)词进行层(céng)次分(fèn)组组成短语。例如,“the thief”是一个名(míng)词短语(NP),“robbed the apartment”是一个(gè)动词短语(VP),这些短语一起形成一个句子(S),在树中(zhōng)标记在(zài)更高的层级。

      这些短语(yǔ)以(yǐ)名词为(wéi)主体,包含一个(gè)或多个单词,可(kě)能还包含描述(shù)性词语、动词或副词,简言之,就是把把名词和与其相关的单词组合在一起。

      从(cóng)解析(xī)树中还能看出,单词的表述结构(gòu)影响其在句中的(de)语(yǔ)法关系。例如,在此结构中,“thief”是“robbed”的主(zhǔ)语。

      结合结(jié)构来看,动词“robbed”,上方标有“V”,更上一级标有“VP”;主语“thief”,上(shàng)方标(biāo)有N和“NP”,通(tōng)过“S”联系在一起。这就(jiù)像主(zhǔ)语—动词关系的模板,同样还有许多其他类型的关系(xì)。

      词干提取(qǔ):

      词干提(tí)取是一种来自形(xíng)态学和信(xìn)息(xī)检索的技(jì)术,在NLP中用于预处理和效率提(tí)升。但(dàn)是,我们首先看一下词典中(zhōng)的(de)释义:词(cí)干 — “起源于或由其引(yǐn)起。”

      基本(běn)上,“词干提取”是将单词进行缩减得到词(cí)干的过程,而“词干”的实际(jì)意义是是在删除单词的所有(yǒu)的(de)前(qián)缀(zhuì)后缀之后保留(liú)的(de)一(yī)部分(fèn)。例如,“touched”,它的词干是“touch”,同(tóng)时(shí)“touch”也(yě)是“touching”等(děng)词(cí)的(de)词干。

      为什么需要(yào)词干?因(yīn)为我(wǒ)们会遇(yù)到不同(tóng)的词汇变形,而实际上它(tā)们具有相(xiàng)同的词干和意义(yì)。举例来说(shuō):

      # I was taking a ride in the car

      # I was riding in the car.

      这两个句子(zǐ)意思是一(yī)致的,ride和riding的用(yòng)法也是(shì)相同的。

      词汇表中所有的单词有不同的注释,其中还包括大量实际意义(yì)相(xiàng)同的单词,要存(cún)储(chǔ)它(tā)们,需(xū)要一个庞(páng)大数据库,但是通过词干(gàn)提取,仅关(guān)注单词的(de)词干,可以很好地解(jiě)决这个问题。现行的(de)通用算(suàn)法之一是1979年的“Porter Stemming Algorithm”(波特词干算法(fǎ)),非常(cháng)使(shǐ)用便捷。

      文字(zì)分割:

      NLP中的文(wén)本分割是(shì)将文本转换为有意义的单元的过程,可以是单词、句子(zǐ)、也可以是(shì)不同(tóng)的主题或潜在(zài)的(de)意图等。在文本分割中,文本根(gēn)据不同语种被分割为(wéi)成份单(dān)词,由(yóu)于(yú)人(rén)类语言的复杂性(xìng),通常比(bǐ)较难。举个例子(zǐ),在英语中利用空格来分隔(gé)单词,相对高效实用,但是也有像“ice box”这类词语的例外,ice和box这两(liǎng)个由空(kōng)格隔开的词合并(bìng)一(yī)起(qǐ)使用才有(yǒu)原本(běn)含(hán)义的,所以人们(men)有时把它写作“ice-box”,那么就给文字分割带(dài)来了难题(tí)。

      命名实体识(shí)别:

      命名实体识(shí)别(NER)用于确(què)定文本中哪些词条属于(yú)命名实(shí)体,这(zhè)些词条可以(yǐ)被定位并归(guī)入预定义的类别,类(lèi)别的范围包括人(rén)名,组织(zhī),地点,还有货币价值和百分比(bǐ)。

      看下面的例子:

      NER之前:Martin bought 300 shares of SAP in 2016.

      NER之(zhī)后:[Martin]Person bought 300 shares of [SAP]Organization in [2016]Time.

      关系抽取:

      关系提取采(cǎi)用“命名(míng)实体识别(bié)(NER)”的(de)命名实体(tǐ),并识别它们之间的语(yǔ)义关(guān)系。这可能意味着它能(néng)够发现文本(běn)中词语之间的关联性(xìng),例如谁与谁(shuí)结(jié)婚,某人在哪个公司工作等(děng)。这个问(wèn)题也可以(yǐ)转换(huàn)为分类问题(tí),然后为每种关系类型(xíng)训练机器(qì)学习模型。

      情感分(fèn)析:

      通过情感分(fèn)析,我们(men)想要确定例如说话者或(huò)作者关于文档,互动(dòng)或事件的态度(dù)(例如情绪(xù))。因此(cǐ),需(xū)要理(lǐ)解文本(běn)以预测潜(qián)在意图(tú)是(shì)一种自然语言处理问题。情绪主(zhǔ)要分为(wéi)积极,消极和中性两(liǎng)类。通过使用情感分析,我们希(xī)望根据他撰写的关于产品的评(píng)论来预(yù)测客户(hù)对产品的看法和态度。因此,情感分析广泛(fàn)应用(yòng)于评论,调(diào)查,文档等等

      如果你对使用Python中的某些技术感兴(xìng)趣,可(kě)以查看我创建的Python的自然语言工(gōng)具包(NLTK)的Jupyter Notebook。你还可以查看(kàn)我的博客文章,了解如何使用Keras构(gòu)建神经网络,我将(jiāng)训练神经网络进(jìn)行情感分析。

      5.深度学习和NLP

      深度学(xué)习和自然语言的(de)核心是“词义”,在这里,单(dān)词用一个实数向(xiàng)量(liàng)来表示。因此,通过向量(liàng)来代表单词单(dān)词(cí),我们可以(yǐ)将单词(cí)置于高维度(dù)的空间(jiān)中,由向量表示的单词(cí)起到语义空间的作用。这仅仅意味着在该高维向量空间中,形近意近的单词(cí)倾向(xiàng)于聚集在一(yī)起。下图中,可以(yǐ)看到单词(cí)含义的直观展示:

      自然语言(yán)处理(lǐ)入门(mén)教(jiāo)程

      在此空间中,如(rú)果想要知道某一组聚集成类(lèi)的单词的含义,可(kě)以通过使用主成分(fèn)分析(xī)法(PCA),也可以(yǐ)使用降维法。但(dàn)这些方法太简单并且会遗漏了(le)周(zhōu)边的(de)大量信(xìn)息,因而产生误差。在研究的初始(shǐ)阶段,这(zhè)些方(fāng)法(fǎ)很好用(yòng),(如数据(jù)科学中的(de)逻辑或线性回归)但并不是前沿技术。

      我们还可以将单词的一部分当作向量,这些(xiē)向量可以代表单词的含义。想象一(yī)下(xià)“undesirability”这个词(cí)。使用“形态学方法”,它涉及一个词所具有的不(bú)同部(bù)分,我们认(rèn)为它由词素(单词部分)构成:“Un + desire + able + ity”。每个语素都有自己的向量。这允许(xǔ)我们构建一个神经网络,它可(kě)以构成一(yī)个更大的(de)单位的意义,而更大的单(dān)位又由(yóu)所有这(zhè)些语素组(zǔ)成。

      深度学习还可以通过(guò)创建句法分(fèn)析器来理(lǐ)解句子的结构,谷歌正在使用这样的依赖解析技术,在他们(men)的“McParseface”和“SyntaxNet”(两种语言(yán)解析器),不过更加宏大,更加复(fù)杂。

      通过分析句(jù)子(zǐ)结构(gòu),我(wǒ)们开(kāi)始理解(jiě)句子的意义,可以从单词的含义开始(shǐ),也可以从(cóng)整(zhěng)个(gè)短语和句子(zǐ)开始,无论(lùn)单词的意义、短语还是句子,都用向量来表示(shì)。如果想知道句子之间的关系,我们(men)可以创建神经网络(luò)来帮助分析(xī)。

      深度(dù)学习也(yě)适用于情感分析。请(qǐng)看这个电影评论:“这部电影不在乎是不是巧(qiǎo)妙,也不在乎幽默与否(fǒu)”。传统的机器学习(xí)算法(fǎ)会(huì)认为这是一个积极的评论,因为“聪明”和(hé)“幽默(mò)”是积极(jí)的词(cí)汇,但是神经网络(luò)能够识(shí)别出它的真正含义。

      另外,深度(dù)学(xué)习算法实现的机器(qì)翻译中,它从句子开始翻译(yì),并生(shēng)成一个向量,然后用另外一种语言生成所需(xū)要的(de)信(xìn)息。

      总而言(yán)之,NLP与(yǔ)深度学习相结合,就是(shì)表示单词、短语的向量,以(yǐ)及它们(men)的(de)含义(yì)。

      关键词: AI挖(wā)掘技术




      AI人工智能(néng)网声明:

      凡资讯来源注明为其他媒体来源的信息,均为(wéi)转载自其他媒体,并不代表本网站赞同其观(guān)点,也不(bú)代表本网站对其真实性负责。您若(ruò)对该(gāi)文章内容有任何疑(yí)问(wèn)或质疑,请立即与网(wǎng)站(www.longyan.14842.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站(zhàn)将迅速(sù)给您回应并做处(chù)理。


      联系电话:021-31666777   新闻(wén)、技术(shù)文章投稿QQ:3267146135   投稿邮箱(xiāng):syy@gongboshi.com

      工博士人(rén)工智能(néng)网
      乐竞官网-乐竞(中国)一站式体育服务
      扫描二维(wéi)码关注微信
      扫(sǎo)码反馈

      扫一扫,反(fǎn)馈当前页面(miàn)

      咨(zī)询反馈(kuì)
      扫码关注

      微信(xìn)公众号

      返回顶部

      乐竞官网-乐竞(中国)一站式体育服务

      乐竞官网-乐竞(中国)一站式体育服务