|
現代日本語学の方法(林直樹) のバックアップ(No.17)
■日本語学の方法 概要
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ▼ | 検索(初級〜中級) |
検索(初級〜中級) |
| ▼ | ピボットテーブルの作成・レジスターの比較 |
ピボットテーブルの作成・レジスターの比較 |
| ▼ | 特定の表現の抽出 |
特定の表現の抽出 |
| ▼ | 複数のコーパスを用いた検索 |
複数のコーパスを用いた検索 |
前期に開講。
現代日本語学の方法2(方言の研究)は後期に開かれる。
| 授業形態 | 対面授業 |
| 日程/教室 | 金曜日 四限目/3207教室(三号館二階七番教室)・3208教室(三号館二階八番教室) |
3207教室と3208教室で開講される。
授業の説明がほとんど。席が足らず、壁際に十数名が座り込むことになった。
今日の課題
- 「国立国語研究所 中納言」を検索し、ユーザー登録画面から登録を行う。
https://chunagon.ninjal.ac.jp/useraccount/register- 「登録コードをショートメッセージで受け取る」を選択
- 利用規約を確認してから、用途に「授業で使用するため」と記入して、すべてのコーパスの利用を申請する。
- (取得していない場合)Gmail のアカウントを取得する。
今後の授業で用いることがあるため、アカウント(メールアドレス)・パスワードはきちんと記録・管理しておくこと- Canvas に掲げられている「第 1 回課題」に情報を入力する。(締切:4/12 23:59まで)
| ▼ | ことばの分析 |
ことばの分析
|
課題
課題提出期限 4月19日 23:59まで ファイル名 学籍番号・名前・課題 2 (LMSのBlackboard「教材」→「課題」→「第2回課題」に提出)
課題のWord・ドキュメントファイルに記載する情報
- 分析グループそれぞれの名前(仮名可)
- 各グループにおける分析メッセージ数(各人のメッセージ数もできれば記載)
- 分析結果
| ▼ | 会話分析 |
会話分析
Wordを使用した文字起こしの方法: | |||||||||
課題(データ分析)
自身が選んだ二種の音声の文字起こしデータを作成し、発話数や文字数といった何等かの観点から考察する。
二つの音声の違いを指摘出来る場合はする。数量的に示せると尚良い。
何の音声データかといった情報やURLは書き留めておく。
フィラーにタグ(「あー」→[F あー])を付けると良い。独自のタグを付けられる人は付けてみるように。
提出期限:4/26
ファイル名:学籍番号・名前・課題 3
コーパス
ある言語の研究の為に、その言語で実際に用いられた研究を
大量に偏りなく集め、コンピュータで検索・分析できるように整理・構造化した言語データベースのこと。
課題
少納言で自動詞・他動詞のペアで「~ガ」「~ヲ」を入れ替えてそれぞれ検索し、検索数を
Word・ドキュメントファイルにまとめる。できれば結果について考察する。
※思いつく自他動詞のペアがあればそれらを調べてみる。
提出期限:5月12日の23:59
ヲの違い
ペンを落ちる(目的格のヲ→言えない)
崖を落ちる(場所格のヲ→言えそう)
| BCCWJのレジスター | |
| 出版サブコーパス(約3,437万語) | 書籍・雑誌・新聞 |
| 図書館サブコーパス(約3,038万語) | 書籍 |
| 特定目的サブコーパス(約4,017万語) | 白書・教科書・広報誌・ベストセラー・Yahoo!知恵袋・Yahoo!ブログ・韻文・法律・国会会議録 |
レジスターとは、発信者の属性や場面のこと。
課題
ある語を調べ、レジスターごとにどのような出現傾向の違いがあるかを分析し、分析結果と考察を
Wordファイルあるいはドキュメントファイルに記載して、LMSへ提出。ファイル名は「学籍番号・名前・課題 5」
➢ 検索機能を活用しても、ピボットテーブルを活用しても可
出現率=個数÷総語数
提出期限:5/17(日)23:59
休講
コーパスは言語をある単位で区切っていることが多い。
その最小単位は形態素である。
形態素(morpheme)=言語単位の一つで、意味を有する最小の単位のこと
| ▼ | ピボットテーブルの使い方 |
Web茶まめ
各時代語に対応した辞書のある形態素解析器
解析率は99.5%(長い文章だと100語に1語は誤解析)
- 解析結果の確認箇所
- 頻出語・稀少語の確認
- 品詞の割合
- 語種(和語・漢語など)の割合
課題
最低2種類の文書の語彙表を出し、何らかの観点で比較・考察する。
期限:5月31日の23:59
TTR(Type-Token Ratio:異なり語数と延べ語数の比)
テキスト分析において文章の「語彙の豊かさ」や「多様性」を数値化するための指標。
TTR=異なり語数(Type)÷延べ語数(Token)
MVR(Modifier-Verb Ratio:修飾語と動詞の比率)
文章における修飾語(ありさま)と動詞(動き)のバランスを数値化し、文体の特徴を評価するための計量言語学的な指標です。
M 形容詞・形容動詞・副詞・連体詞 V 動詞 MVR=M÷V×100
品詞が関係する文章指標(樺山・寿岳 1963)
- 名詞が多い文章
要約的文章(骨組みを述べる)- 動詞・形容詞が多い文章
描写的文章
- 形容詞が多い ありさま描写
- 動詞が多い 動き描写
課題
『こころ』と『ごんぎつね』(出来るのならば、それ以外の文章も)を形態素解析で分析した上で
各文章の名詞比率・MVRを計算し、それぞれの文章の特性を把握する。
コメントはありません。 Comments/現代日本語学の方法(林直樹)?