GloVe-全局共现词频信息嵌入
why? From LSA(latent semantic analysis) and skip-gram to GloVe
LSA: 基于全局词频的稀疏矩阵, 在词义推理任务上表现较差、
skip-gram: 局部共现,没能利用全局统计信息
GloVe: 全局统计信息+共现=全局共现词频
GloVe: Global Vectors for Word Representation
理论基础:
①在指定窗口大小内共同出现的词$w_i,w_j$具有相似的语义
②$w_i,w_j$共现的次数越多,语义越相似
③$w_i,w_j$之间的距离$d$越远,语义越不相似
已有信息:
语料,及其共现矩阵$X$, ...
FastText-考虑子词信息
本文为 A Visual Guide to FastText Word Embeddings (amitness.com)的翻译版
如何让你的词嵌入模型能理解这几个词abandon,-s,-ed,-ing的意思是类似的呢?
1. why 要提出FastText: Word2Vec的局限
不能处理训练中未出现的词(Out of Vocabulary, OOV)
例如:tensor,flow 已在Word2Vec的词典出现过,但tensorflow未出现过→OOV error
无法处理形态相同的词(morphology),即词根相同的词
对于具有相同词根(eat)的词,eaten,eating,eats,他们之间较难同时出现,不能实现参数共享,即...
旅行
我是Glenn1Q84
当下我是一名有一点点理想的准数据分析工程师。
喜欢捣鼓一些看起来没什么用的东西,尤其是现实世界与专业知识彼此有交集的东西,比如发朋友圈的时候怎么获得更多的点赞呢?用学术的话来说就是什么样的因素或者特征能获得更多的社会支持呢?
希望通过出视频Push自己学习的up主
人总是需要各种理由,比如学习需要动力。研二的时候我一度以为我是一颗正在冉冉升起的学术星星,但社会引力的存在让我担心我总有一天会摆烂,所以选择一星期出一期技术视频的方式来Push自己学习,每天看到来自粉丝们的一键三连应该就会动力满满。
虽然一键三连并不多,但视频发布的时候真的让我非常有成就感,当然,后面因为找工作、肝毕设的事情让我果然成了鸽子精。
当下和以后会做点什么
...
关于我
我是Glenn1Q84
当下我是一名有一点点理想的准数据分析工程师。
喜欢捣鼓一些看起来没什么用的东西,尤其是现实世界与专业知识彼此有交集的东西,比如发朋友圈的时候怎么获得更多的点赞呢?用学术的话来说就是什么样的因素或者特征能获得更多的社会支持呢?
希望通过出视频Push自己学习的up主
人总是需要各种理由,比如学习需要动力。研二的时候我一度以为我是一颗正在冉冉升起的学术星星,但社会引力的存在让我担心我总有一天会摆烂,所以选择一星期出一期技术视频的方式来Push自己学习,每天看到来自粉丝们的一键三连应该就会动力满满。
虽然一键三连并不多,但视频发布的时候真的让我非常有成就感,当然,后面因为找工作、肝毕设的事情让我果然成了鸽子精。
当下和以后会做点什么
工作是数据分析嘛,数据科...
共计 28 篇文章,4 页。