LSTM

 

RNN과 다른점은,, Cell State부문에서는 weight조정이 없음으로 Gradient 문제가 없다?

 

 

input gate

forget gate

output gate

Gate gate(?)00

 

계속 흐르는 것을 얼마나 잊어버릴까 ( 0~1을 갖는다)

i = input gate, 넣을꺼냐 말꺼냐

그럼 i 랑 f는 역관계다?

 

gate g는 얼마나 넣을거냐

 

그럼 f i g를 통해서 cell state가 생성이 되고, 생성이 된 값은 hidden state에 tanh를 곱하여 값이 들어간다.

 

BERT, Transformer알아두기 (자연어처리)

굉장히 핫하다. 곧있으면 쉽게 라이브러리가 나오지 않을까 한다.

 

+ Recent posts