[노토랩 변형호] Qwen 3-Next 이해하기 Part 1: Mixture-of-Experts (MoE) 정리

채널 수도리무브(@sudoremove)

                                                                                                                                      251004 발표자료

                                                                                                                                           변형호(노토랩

본 자료는 파트 1과 2로 나누어져 있습니다!

[노토랩 변형호] Qwen 3 Next 이해하기 Part 2: Attention과 Long Context (Linear Attention, DeltaNet, Mamba2, )

설명 영상 링크

https://youtu.be/qpHgHcWxB5I?si=nY9cTdFsiwTTpi46

0) 들어가며: MoE 모델이 뭔데?

1) Dense 모델과 스케일링 법칙, 그리고 MoE

2) MoE, 뭐가 좋아? 뭐가 어려워?

3) 주요 MoE LLM 분석

4) Further Reading