乐竞官网-乐竞(中国)一站式体育服务






    1. 咨询热(rè)线:021-80392549

      乐竞官网-乐竞(中国)一站式体育服务 QQ在(zài)线 乐竞官网-乐竞(中国)一站式体育服务 企业微信
      乐竞官网-乐竞(中国)一站式体育服务
      乐竞官网-乐竞(中国)一站式体育服务 资(zī)讯 > AI挖掘技术 > 正文

      ”关于初入NPL领域的(de)一些小建议“

      2020/05/263868

      ”关于初入NPL领域的一些小建议“


      1.了解 NLP 的最基(jī)本(běn)知识:Jurafsky 和 Martin 的 Speech and Language Processing 是领域(yù)内的经典教材,里面包含了(le) NLP 的基础知识、语言学扫(sǎo)盲知(zhī)识、基本任务以及解决思路。阅读此书会接(jiē)触到很多 NLP 的最基本任(rèn)务和知(zhī)识,比如 tagging, 各种 parsing,coreference, semantic role labeling 等等等(děng)等。这对于全局地了解 NLP 领域有着极其重要的意义。书里面的知识并不需要烂熟于心,但是刷上一两(liǎng)遍,起码对于 NLP 任务有基本认识,下次遇(yù)到了知道去哪里找还(hái)是非常有意义的。另外 Chris Manning 的 introduction to information retrieval 也是(shì)一本可以扫一下(xià)盲的书,当(dāng)然我认为依然不(bú)需要记住所有细(xì)节,但轮廓需要了解。IR 里(lǐ)面的很多基本算法跟 NLP 有不少(shǎo)的重合。说(shuō)说(shuō)我自己曾经走过的弯(wān)路。Stanford NLP 的 qualification 考试的(de)一部分就是选一些 jurafsky 和 manning 书里面的一些 chapter 来(lái)读,然后老师来问相(xiàng)关问题。开始我一(yī)直对里面(miàn)的(de)东西懒(lǎn)得看,所(suǒ)以 qualification 考(kǎo)试一拖再拖。但博士最后一(yī)年没办法拖的时候,才发(fā)现如果早知道这些东西,博士早年(nián)可以(yǐ)少走很多(duō)弯(wān)路。

      为什么了解 NLP 基础知识的重要(yào),我给(gěi)大家举(jǔ)几(jǐ)个例子。

      最(zuì)近跟同学(xué)一起(qǐ)做语(yǔ)言模型 language modeling 相关的(de)事情,很多同学用 LSTM 或者 transformers 做 language model 随手就能实(shí)现,但是(shì)实现一个 bigram 或者 trigram 的(de) language model(LM)却(què)因为里(lǐ)面的 OOV 的(de)平滑问题卡(kǎ)了大(dà)半天(熟悉的同学(xué)可(kě)能知道,需要拉普拉斯平滑(huá)或(huò)者更 sophisticated 的 Kneser-Ney 平滑)。为什么(me) bigram 或者 trigram 的(de) LM 很重要呢?去做一(yī)个语言模型(xíng)的(de)问(wèn)题,实现深度模型之(zhī)前,第一(yī)步其(qí)实就要去(qù)写(xiě)一个 bigram 或者 trigram 的 LM。为什(shí)么呢?因(yīn)为这些 N-gram 模型实现(xiàn)简单(dān),并且 robust。通(tōng)过这样简单的实现,可(kě)以(yǐ)告诉你(nǐ)这个数据集的 LM 模型(xíng)的下限(xiàn)。这样我们心里会(huì)有数,神(shén)经网(wǎng)络模型至少不应该比这个模型(xíng)差的。神经网络模(mó)型因为其(qí)超参数、梯(tī)度爆炸(zhà)等(děng)问题(tí),有时候我们不太容易决定是真的模型不行(háng)、参数没调好还是代码有(yǒu) bug。那么(me)通过 N-gram LM 的给出的下限,我们就可以直(zhí)观地知(zhī)道神经网络是有 bug 还(hái)是没(méi)调(diào)好参(cān)数。

      第二个例子(zǐ)就是涉及发(fā)文章了,不知道有没有同学想过,BERT 里(lǐ)面训练 LM 的随机替换(huàn)为什么就使结果(guǒ)变(biàn)好(hǎo),随(suí)机替换是什么(me)鬼(guǐ),怎么结(jié)果就好了。其实在(zài) BERT 之前,斯坦(tǎn)福(fú)的吴恩(ēn)达组(zǔ)的 Ziang Xie 的 Data Noising as Smoothing in Neural Network Language Models ICLR2017(https://arxiv.org/pdf/1703.02573.pdf)就首次提出了此方法,而且(qiě)给出了理论解释。这种(zhǒng) random 替换其实(shí)本质(zhì)上属(shǔ)于 language modeling 里面基于 interpolation 的平滑方式,而基于 interpolation 的 LM 平滑,就(jiù)躺(tǎng)在 jurafsky 那本书的(de)第(dì) 3.4.3 节(jiē)。

      2.了解早年(nián)经典的 NLP 模型(xíng)以(yǐ)及(jí)论文:相比简(jiǎn)单(dān)粗暴的神经网络模型,早(zǎo)年的 NLP 算法确实比较繁琐复(fù)杂,但里面确实有很多早(zǎo)年学者在(zài)硬件条件艰苦情况下的智慧(huì)结晶。熟悉了这些模型,可(kě)以在现在神经网络里面融会贯通。去年在人民大学做 seminar。Seminar 有大概 30-40 位同学(xué)参加。Seminar 中,我问了一个问题,有谁(shuí)知道(dào)机(jī)器翻译中的 IBM 模型大概是干嘛的,举手的同学大概有五分之一。我再问(wèn),谁能来手写(或者(zhě)大概(gài)手写(xiě))一(yī)下 IBM model1,一个人都(dōu)没有。仅仅从(cóng)基于 IBM 模型的(de) Hierarchical Phrase-based MT, 近几年就有很(hěn)多(duō)篇引(yǐn)用量(liàng)很高的文章是基于里(lǐ)面的(de)思想的。例子数不(bú)胜数:

      chris dyer 组的 Incorporating structural alignment biases into an attentional neural translation model (NAACL16) 提出用(yòng)双向 attention 做(zuò) neural 机(jī)器翻译的(de)约束项,意(yì)思(sī)是(shì)如(rú)果在英语翻(fān)译法语生成的 target 中的一(yī)个法语词 attend 到(dào)了一个 source 中的(de)英语词,那么反过来,法(fǎ)语翻(fān)译英(yīng)文 target 中相同(tóng)这个英(yīng)语词应该也 attend 到 source 中的这个英语词。其实这个思想就是完完全全相似 Percy Liang 曾经的成名作之一,早在 NAACL06 年 Alignment by Agreement,大家通过(guò)题目(mù)的意思就(jiù)可以猜到文章的(de)内容,正(zhèng)向翻(fān)译与(yǔ)反向(xiàng)翻译(yì)中的 对齐 (alignment) 要 一致 (agree)。如今做 neural MT 的同学,有多少同学读过 Percy 的这篇大作呢(大家知道 Percy 最多的应(yīng)该是(shì) Squad 吧)。

      处理对(duì)话系(xì)统的无聊回(huí)复,用 p(target|source) 做 reranking 现在应(yīng)该已经(jīng)是(shì)标配。再比如 Rico Sennrich 的成名作之一(yī)将 Monolingual data 跟 seq2seq 模型结合。其(qí)实这连个思(sī)想在 phrase-base MT 里面早就被广发的使用。Neural 之(zhī)前的 MT,需要对一个大的 N-best list 用 MERT 做 reranking,反向概率(lǜ) p(target|source) 以及语言模型概(gài)率 p(target) 是 reranking 中 feature 的标配。

      Harvard NLP 组, Sam Wiseman 和 Alex 发表的(de) EMNLP16 best paper runner-up, Sequence-to-Sequence Learning as Beam-Search Optimization, 基本上传承了 Daume III and Daniel Marcu 2005 年的 LaSO 模型,将其(qí)思想 adapt 到(dào) neural 里面。

      如果再准本溯源,诞(dàn)生于 neural MT 的 attention,不就(jiù)是 IBM 模(mó)型的神经网络版本嘛。

      3.了解机(jī)器学习的基(jī)本模型:神经(jīng)网络的简单(dān)暴力并且有效。但是从科研的角(jiǎo)度讲,熟悉基本的机(jī)器学习算(suàn)法是必修(xiū)课。比如吴恩达的 machine learning 就是必要之选。记得前段(duàn)时间我面试(shì)一个小伙子(zǐ),一看就是(shì)很聪明的同学,而(ér)且很短的时间就有一(yī)篇 NAACL 在投。我就(jiù)问小(xiǎo)伙子,EM 算法是什(shí)么(me),小伙子说没有听说过 EM,而且(qiě)自己的科研也用不到 EM。我认为这其(qí)实是一个挺(tǐng)大的误区(qū)。当我想起我自己,曾经就吃过很(hěn)多类似的亏。因为早期数学基础偏弱,也没(méi)有(yǒu)决心恶补一下数学,所以早年每次看(kàn)到跟(gēn) variational inference 相关(guān)的(de)算法就头大,这(zhè)种偏(piān)科(kē)持续了很(hěn)久,限制了(le)科研的广度。相比粗(cū)暴的神(shén)经(jīng)网络,CRF 等(děng)模型(xíng)的 inference 确实相对复杂(zá)(当年我自己也看了很多次才彻底搞明白(bái))。但搞懂这些,是(shì)一个 NLP researcher 的基(jī)本素养。Pattern Recognition and Machine Learning 那(nà)本书(shū),尤其是某(mǒu)些小节确实(shí)比较难(又暴露(lù)了数学基础(chǔ)差(chà)的(de)事(shì)实),即便是只是为了过一遍,也需要(yào)很强的耐力才能看完(wán),更不用说完全看懂了。我自(zì)己也曾经半途而废很多次,如今依然有很多(duō)章节是不太懂的。但是其中(zhōng)的很多基础 chapter,我认为还是很值得一读的。其实可以(yǐ)组成那种两三个人(rén)的学习(xí)小组,不需要有(yǒu)太雄伟的目标,用个一年哪怕两年的(de)时间,把几个重要的 chapter 过一遍。

      NLP 相(xiàng)对是应用科学,并不是特别的(de)数学。但是(shì)我们天天(tiān)用的算法的基本数学逻辑我(wǒ)认为还(hái)是需要(yào)搞懂,比如 dropout, 比如天天用到的优化 (SGD, momentum, adaboost, adagrad),比如各(gè)种(zhǒng) batch, layer normalization。这样其实可以(yǐ)省去很多浪费的时间,磨刀不误砍柴工。这些年来,在帮同学调 bug 的过程(chéng)中,我(wǒ)至(zhì)少遇(yù)见过 3-5 个同(tóng)学 training 的(de)时候开(kāi) dropout, test 的时候没有(yǒu)对每个 cell 用 (1-dropout) 去 scale(大(dà)家不要笑,这是真的)。然后画出 dropout 曲(qǔ)线就是(shì) dropout 值越大,结(jié)果越差。在(zài)讨论的时(shí)候,同学一脸茫然并且不清楚 test 时(shí)候需要 scale。其实本(běn)质(zhì)就是并不了解 dropout 背后(hòu)的数学原理。

      4.多看 NLP 其他子领域的论(lùn)文:NLP 有很多子(zǐ)领域,MT,信息抽取,parsing,tagging,情感分(fèn)析(xī),MRC 等等。多多熟悉其他子领(lǐng)域的进(jìn)展是必要的。其实不同子领域所(suǒ)运用的模(mó)型不会相差太大(dà)。但是最开始看不熟悉领(lǐng)域的问题可能会有(yǒu)一(yī)点难(nán),原因是对(duì)问题(tí)的 formalization 不是很了(le)解。这可能(néng)就需要多花(huā)一些(xiē)时间,多找懂的同学(xué)去问。其实了解不同问(wèn)题的 formalization 也(yě)是对领域知识最好的扩充。

      5.了解 CV 和(hé) data mining 领(lǐng)域的基本重大进展(zhǎn):当(dāng)熟悉(xī)了上面所说的点之(zhī)后(hòu)(当然可能至少也需要一年的时间)。熟悉 CV 领域的基(jī)本(běn)任务、基本算法我认为对于打开科研视野很重要(yào)。但是不(bú)可否(fǒu)认,因为(wéi)领域不用,写作风(fēng)格、术语表达相差(chà)很大,又因为缺(quē)乏背景知识(文章(zhāng)中会省略一(yī)些基础知识,默认(rèn)大家都懂(dǒng)。但是跨领域的人可(kě)能不懂),第一次想读懂跨领域的文章其实并不容易。我就出(chū)现过竟然在讨论班上直接把 faster-RCNN 讲错了的情况,以(yǐ)为自己看懂了(le),然后就讲错了(至今昱先天(tiān)天还(hái)在因为这个事(shì)情(qíng)调侃我)。不过(guò)重要的(de)是,NLP 领域里面一些重要的文章其实或多或(huò)少借鉴了 CV 里面(miàn)的(de)思(sī)想,当然也(yě)同(tóng)样出现(xiàn) CV 借鉴 NLP 的(de)情况。NLP 神经(jīng)网络可视化(huà)、可解释性(xìng)的(de)研究,时间(jiān)上还是落后于 CV 里面(miàn)对 CNN 的可视化(huà)。所以很多工作大量借鉴了 CV 里(lǐ)面的类似工(gōng)作。NLP 运用 GAN 其实也(yě)是借(jiè)鉴 CV 的。其(qí)实两个领域很(hěn)多(duō)是很相通的。比如,如果不考虑 question query, vision 里面 detection 中的 region proposal(在一个大的图片背(bèi)景下找(zhǎo)一个特定区域), 大家想(xiǎng)是不是跟 MRC 里面的 span extraction(在一大堆文字里面找一(yī)个 span)有异曲同工之妙(miào)。更不用说 image caption generation 与 sequence-to-sequence 模型了,本质(zhì)上几乎没什(shí)么太大的区(qū)别(bié)。强化学习在生成领域(yù) generation,发完了(le) MT(Ranzato et al., ICLR2016) 再(zài)发 image caption generation, 再(zài)回到(dào) summarization. Actor-critic 模型(xíng)也(yě)是类似的,还(hái)是很多做 generation diversity 的文章(zhāng)。因为跨领域不(bú)好(hǎo)懂,所以第一次推荐看 tutorial, 如果有(yǒu) sudo code 的 tutorial 那就更(gèng)好了(le)。另外(wài)看看扫盲(máng)课的(de)视频,比(bǐ)如(rú) Stanford CS231n 也是个(gè)好办法。另外,一个 NLP 组里面有一个很懂 CV 的人也很(hěn)重(chóng)要(拜谢昱先(xiān)),and vise versa。graph embedding 近两年崛起于 data mining 领域(yù)。目(mù)测会(huì)在(或者(zhě)已经在)NLP 的不少任务(wù)得到(dào)广泛(fàn)应用(yòng)。想到(dào)几年前,deep walk 借鉴了 word2vec, 开始(shǐ)在(zài) data mining 领域发迹(jì),然后似乎又要(yào)轮转回 NLP 了。

      关键词: AI挖掘技(jì)术




      AI人(rén)工智能网声明:

      凡资讯来(lái)源注明为其(qí)他媒体来源(yuán)的信息,均为转载自(zì)其他(tā)媒体,并不代(dài)表本网(wǎng)站赞同其观点(diǎn),也不(bú)代表本网站对其真实(shí)性负责(zé)。您若对该(gāi)文章(zhāng)内(nèi)容有(yǒu)任何疑问或质疑,请立(lì)即与网站(www.longyan.14842.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站(zhàn)将迅速给您(nín)回应并做处理。


      联系电话:021-31666777   新闻(wén)、技术文(wén)章投(tóu)稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

      工博士人工智能网
      乐竞官网-乐竞(中国)一站式体育服务
      扫描二维码关注微信
      扫码(mǎ)反馈

      扫一扫,反(fǎn)馈当前页(yè)面

      咨询反馈
      扫码关注

      微信公(gōng)众号

      返回(huí)顶(dǐng)部

      乐竞官网-乐竞(中国)一站式体育服务

      乐竞官网-乐竞(中国)一站式体育服务