美滋滋的生活
BERT BERT
[TOC] 1 BERTBERT论文: 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》 2 主要结构2.1 输入​
二分类多分类多标签分类的评估指标计算与实现 二分类多分类多标签分类的评估指标计算与实现
1 二分类1.1 二分类例子reference_list = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1] prediciton_list = [0, 0, 1, 1, 1, 0, 0, 1, 1, 1] 1.2 指标计算
文本生成之VAE 文本生成之VAE
VAE的论文光看摘要就看的脑壳痛,网上很多关于VAE的资料都花里胡哨的,讲的特别乱。一是任务定义和模型的目的都没讲清楚就开始balabala了,二是只乱堆公式让人一头雾水,我来整理一下吧。(真是脑壳痛) 有部分词句是从文末的引用摘过来的,侵
DL常用函数和评估指标 DL常用函数和评估指标
[TOC] 1 激活函数1.1 为什么需要激活函数如果不使用非线性激活函数,那么每一层输出都是上层输入的线性组合 此时无论网络有多少层,其整体也将是线性的 1.2 常用的激活函数1.2.1 sigmoid \begin{aligned}
NLP之文本表示 NLP之文本表示
1 词袋词袋模型(Bag-of-words model)是将一段文本(比如一个句子或是一个文档)用一个“装着这些词的袋子”来表示,这种表示方式不考虑文法以及词的顺序。「而在用词袋模型时,文档的向量表示直接将各词的词频向量表示加和」。 缺点:
Word2vec Word2vec
[TOC] 1 One-hot vector将每个单词用N维的长向量表示,N是一个很大的数字。 缺点是: 每个单词都是单独的,无法计算单词之间的相似性,因为他们的乘积为0 并且维度较高,计算成本较大 2 基于SVD奇异值分解的词向量表
seq2seq seq2seq
1. seq2seq在⾃然语⾔处理的很多应⽤中,输⼊和输出都可以是不定⻓序列。以机器翻译为例,输⼊可以是⼀段不定⻓的英语⽂本序列,输出可以是⼀段不定⻓的法语⽂本序列,例如: 英语输⼊:“They”、“are”、“watching”、“.”
TF-IDF TF-IDF
[TOC] TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。 1 定义一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文
CNN and RNNs CNN and RNNs
[TOC] 1 CNN卷积神经网络:是一种专门用来处理具有类似网格结构数据的神经网络。 1.1 卷积神经网络结构 CNN层次结构 作用 输入层 卷积网络的原始输入,可以是原始或预处理后的像素矩阵 卷积层 参数共享、局部连接
Attention Attention
[TOC] 1 Basic Attention1.1 Attention 定义 对于Attention机制的整个计算过程,可以总结为以下三个过程: socre 函数: 根据 Query 与 Key 计算两者之间的相似性或相关性, 即 so
1 / 2