Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
Search
Masato Mita
March 11, 2025
Research
2
580
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
言語処理学会第31回年次大会(NLP2025) の発表資料
Masato Mita
March 11, 2025
Tweet
Share
More Decks by Masato Mita
See All by Masato Mita
国際会議ACL2024参加報告
chemical_tree
1
520
論文紹介/Expectations over Unspoken Alternatives Predict Pragmatic Inferences
chemical_tree
2
390
広告文生成タスクの規定とベンチマーク構築(NLP2023)
chemical_tree
0
530
論述リビジョンのためのメタ評価基盤
chemical_tree
0
370
ライティング支援のための文法誤り訂正
chemical_tree
2
1.8k
Other Decks in Research
See All in Research
3D Gaussian Splattingによる高効率な新規視点合成技術とその応用
muskie82
5
2.3k
研究テーマのデザインと研究遂行の方法論
hisashiishihara
5
1.3k
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
2
1.1k
ASSADS:ASMR動画に合わせて撫でられる感覚を提示するシステムの開発と評価 / ec75-shimizu
yumulab
1
350
A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis
satai
3
200
Sosiaalisen median katsaus 03/2025 + tekoäly
hponka
0
1.2k
(NULLCON Goa 2025)Windows Keylogger Detection: Targeting Past and Present Keylogging Techniques
asuna_jp
1
510
Mechanistic Interpretability:解釈可能性研究の新たな潮流
koshiro_aoki
1
160
数理最適化と機械学習の融合
mickey_kubo
15
8.6k
Agentic AIとMCPを利用したサービス作成入門
mickey_kubo
0
180
Computational OT #4 - Gradient flow and diffusion models
gpeyre
0
260
ことばの意味を計算するしくみ
verypluming
11
2.6k
Featured
See All Featured
Rails Girls Zürich Keynote
gr2m
94
14k
Making Projects Easy
brettharned
116
6.2k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.8k
A better future with KSS
kneath
239
17k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
How to Ace a Technical Interview
jacobian
276
23k
Practical Orchestrator
shlominoach
188
11k
How to train your dragon (web standard)
notwaldorf
92
6.1k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
180
53k
Build The Right Thing And Hit Your Dates
maggiecrowley
36
2.7k
GitHub's CSS Performance
jonrohan
1031
460k
The Language of Interfaces
destraynor
158
25k
Transcript
作業記憶の発達的特性が⾔語獲得の臨界期を形成する ◯三⽥雅⼈1,2 吉⽥遼1 深津聡世1 ⼤関洋平1 1東京⼤学, 2サイバーエージェント 1 B4-6
2 前置き • 予稿に誤植があったためerrataを公開しています • 本発表ではその後の探究に基づく最新結果[Mita+’25]についても報告します cf. [Mita+’25]: Developmentally-plausible Working
Memory Shapes a Critical Period for Language Acquisition
LLMと⼈間の「⾔語獲得効率」における乖離 • LLMは多くの評価指標において⼈間と同等の性能を達するために ⼈間と⽐較して 3~4 桁多いデータ量を必要 [Warstadt+’23] 3 [Warstadt+’23] より
➢ ⼈間の⾔語処理や獲得過程からの「教訓」が存在しうることを⽰唆
⾔語獲得の臨界期仮説 • ⾔語を効率的に習得できる特定の時期が存在し, この時期を過ぎると その能⼒が低下するという理論 [Lenneberg’67] ◦ 幼少期に⾔語を聞く機会が制限された事例や第⼆⾔語習得における年齢の影響 など, 多くの研究が臨界期の存在を⽀持
[Mayberry&Fischer’89, Johnson&Newport’89, Newport’90] • 理論的視点 ◦ ⽣得論: ⾔語獲得は遺伝的にプログラムされた能⼒ [Chomsky’65, Pinker’94] ◦ 経験論: 社会的‧環境的要因, 特に⾔語的インプットの量と質によっても説明可能 [Elman+’96,Seidenberg&Zevin’06] 4 ➢ 臨界期の正確な境界やメカニズムは依然として議論が続いている
Less-is-More仮説 5 • 論拠 ◦ 幼児は処理可能な情報が限られるため,⾔語の基本的なパターンや構造 (例: ⽂法規則)を効率的に抽出できる ◦ ⼀⽅,⼤⼈は認知能⼒が⾼いがゆえに複雑な情報に気を取られ規則の学習
が妨げられる 幼児の認知的な制約(例: 短期記憶の容量や注意の範囲)がむしろ ⾔語学習に有利に働く[Newport’90] Less-is-More仮説
本研究の概要 • ⽬的 ◦ ✅⼈間の作業記憶の発達特性を⾔語モデルの学習に組み込みことで, 効率的な第⼀⾔語 (L1) 獲得が可能か検証 • 提案⼿法&検証⽅法
◦ 🔸学習初期では記憶を制限し, その後指数関数的に緩和する機構の導⼊ ◦ 🔸統語評価ベンチマーク上で記憶制限なし/静的制限ありの⼿法と⽐較 • 結果&貢献 ◦ 🚀提案⼿法が最も効率的な⽂法獲得を実現 ◦ 📌NLP: データ効率の良い⾔語モデル設計のための新たな⽅針を提供 ◦ 📌認知科学: 作業記憶の発達特性が臨界期の基盤メカニズムとなる可能性を⽰唆 (⽣得主義的⽴場を⽀持する間接証拠を提供) 6
⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期(2~7 歳): ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期(8~14
歳): ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後(15 歳以上): ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 7
⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期(2~7 歳): ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期(8~14
歳): ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後(15 歳以上): ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 8 言語獲得の臨界期 [Lenneberg’67] 臨界期における作業記憶の発達的特性を⾔語モデルに組み込む ことで効率的な⾔語獲得が誘発されるか? RQ
作業記憶の認知モデリング • 作業記憶の発達は指数関数的に増加する形で モデル化可能: y = b − a x
(0 < a < 1) • 指数モデルの妥当性: ◦ 成熟した後の記憶容量の上限(漸近線)を表現可能 ◦ 幼児期の急速な成⻑を適切に表現 ◦ 線形や対数モデルよりも現実の発達パターンに適合 9 言語獲得の臨界期 [Lenneberg’67] 成人レベルの最大記憶容量 成長速度
⾔語モデルにおける「作業記憶」の制限⽅法 • 記憶の制限⼿法として, ⾔語モデルへの「新近性バイアス」を導⼊する ALiBi(Attention with Linear Biases)[Press+’22] を活⽤ ◦
注意スコアを計算する際, トークン間の距離に応じて負の線形ペナルティを付与 ◦ ⼈間の読解⾏動に近いサプライザルの推定が可能 [Clark+’25] • ALiBiを適⽤するうえでの課題 ◦ ALiBiの勾配 𝓂 は各注意ヘッドで固定のため静的な記憶制限を表現 ◦ ⼈間の作業記憶の発達特性(動的な記憶制限)を⼗分に反映できない 10 [Press+’22] より
提案⼿法: DynamicLimit-Exp • 学習の進⾏に応じて勾配𝓂を指数関数的に減少 • 記憶容量 𝑤 𝘵 は, モデル
に基づき 次式で既定 11 (𝓂 𝘵 : 初期勾配, r: 減衰率, 𝘵: エポック数) 𝓂 𝘵 = 𝓂 0 ·r𝘵 𝑤 𝘵 ≔ 1 − 𝓂 𝘵 ➢ モデルは初期段階では近距離の注意を重視し, 学習が進むにつれて ⻑距離の依存関係に注意を向けられる
実験設定 • ベースモデル ◦ GPT-2[Radford+’19]の⼩規模版(4層, 4注意ヘッド, 256次元) • データセット ◦
AO-CHILDES [Huebner&Willits’21] ▪ 英語圏のおよそ 1 ~ 6歳までの⼦ども向け発話(CDS)が年齢順に収録された 5M単語規模のデータセット ◦ Wikipedia ▪ 50万⽂をランダム抽出 cf. [Huebner+’21] • 評価 ◦ Zorro [Huebner+’21] ▪ ⽂法項⽬ごとに容認可能な⽂と不可能な⽂からなるミニマルペアを⽤いて ⾔語モデルの統語能⼒を評価するBLiMP[Warstadt+’20]のCDS特化版 ▪ seedを変えた3試⾏の平均値を報告 12 P(The lie on the foot is flat.) > P(*The lies on the foot is flat.) 臨界期効果は特定の⼊⼒刺激(例: CDS) or 学習メカニズムに起因するかを切り分け
ベースラインモデル • NoLimit(GPT-2に相当) ◦ 記憶制限をかけないモデル ◦ 学習初期から作業記憶が⼀定であり,思春期以降 に観察される発達が成熟した作業記憶を模倣 • StaticLimit(GPT-2
w/ ALiBiに相当) ◦ 注意スコア計算時にALiBiを適⽤したモデル ◦ 学習初期から学習後期にかけて⼀定の記憶制限 • DynamicLimit-Linear ◦ ALiBiの勾配𝓂を学習の進⾏に伴い「線形」に減少 させたモデル ◦ 作業記憶の発達特性の粗い近似 13 線形増加と指数関数的増加を公平に⽐較する ために記憶容量の初期値と最終値を統制
⾔語獲得における臨界期現象は再現されるか? ➢ L1獲得における臨界期現象の再現を確認 ◦ 作業記憶の発達特性が重要な役割を果たしている可能性を⽰唆 14 AO-CHILDES +5.7
臨界期効果は特定の⼊⼒刺激(データ)に依存するか? 15 ➢ 臨界期効果は⼊⼒刺激ではなく(⼦供特有の)学習メカニズムに起因 AO-CHILDES Wikipedia +5.7 +4.4
臨界期効果は “Less-is-More”に起因するか? 16 性能向上は作業記憶の「変化( ≠ 成長)」による 副作用(例: 情報量の増加)では?
臨界期効果は “Less-is-More”に起因するか? 17 反転した認知制約モデル を用いて検証 性能向上は作業記憶の「変化( ≠ 成長)」による 副作用(例: 情報量の増加)では?
臨界期効果は作業記憶の「成⻑」により誘発される 18
臨界期効果は作業記憶の「成⻑」により誘発される 19 (a) Mark fixed one worn canal, and Roger
fixed more (worn canals). (b) *Mark fixed one canal, and Roger fixed more worn. 例: ELLIPSIS(”省略”) 「more worn」だけでは完全な 意味を成さないため非文 省略された部分が明確に推測で きる場合のみ許容 長距離依存関係の維持 が必要 ➢ 学習初期段階から多くの記憶容量が必要な項目は提案手法ではうまくいかない可能性
段階的な記憶拡張は表現学習の質を向上させる • 埋め込みの多様性を維持し過度な圧縮を防ぐ • クラスター間の分離が保たれ学習が停滞しにくい • 異⽅性が抑制されより構造化された表現学習が可能 ◦ 埋め込み空間の等⽅性が統語的汎化を促進 [Diehl
Martinez+'24] 20 例: FILLER. GAP
まとめ • 作業記憶の発達特性を⾔語モデルに組み込む⼿法を提案 ◦ 学習初期では記憶を制限し, 学習の進⾏に伴い指数関数的に緩和する機構の導⼊ • 統語評価ベンチマークにおいて, 記憶制限なし/静的制限ありのモデル よりも優れた性能を確認
→ L1獲得における臨界期現象の再現 ◦ 段階的な記憶拡張により ▪ 初期に基本的なパターン抽出を優先し, 後に複雑な規則をブートストラップ的に 学習させることで規則の汎化を促進するとともに, ▪ 異⽅性が抑制されより構造化された表現学習の促進に寄与した可能性 • 主要な貢献 ◦ データ効率の良い⾔語モデル設計の新たな⽅向性の提⽰ ◦ ⼈間の作業記憶の発達特性が臨界期の効率的な⾔語獲得に関与する可能性を⽰唆 (⽣得主義的⽴場を⽀持する間接証拠を提供) 21
22 付録
ベースモデル実験設定 23
Zorroの各⽂法項⽬リスト 24
埋め込み空間の変化(例: CASE) 25
訓練データの⽂⻑を変更した場合のZorro性能 26