卿少納言

卿少納言

JavaScript & Japanese, Python & Polyglot, TypeScript & Translate.
zhihu
github
email
x

会議日程_言語資源ワークショップ2024

日本語コーパス / 計算言語学方向のオンラインセミナー「言語資源ワークショップ 2024」がやってきました

言語資源ワークショップ 2024#

国立国語研究所主催のコーパス、計算言語学関連のオンラインセミナーで、参加する前に公式サイトで申し込みフォームに記入する必要があります https://clrd.ninjal.ac.jp/lrw2024.html (無料)

次に、自分が興味のある発表をいくつか挙げます。完全な会議内容は公式サイトで確認できます: https://clrd.ninjal.ac.jp/lrw2024-programme.html

また、国立国語研究所が主催する学術会議「計量国語学会第 68 回大会」の会議日程も発表されました。こちらは対面での開催となるため、興味がある方は公式サイトで詳細を確認してください。

https://sites.google.com/view/mathling2024/%E3%83%9B%E3%83%BC%E3%83%A0

1 日目:8月28日(水)#

09:30〜10:45#

o01:[[会話データにおける「文の包摂」の出現状況]]

https://clrd.ninjal.ac.jp/lrw/lrw2024/o01-paper.pdf

「文の包摂」とは何か:「早くしろオーラ」「私頑張ってますアピール」「ポケモンカードゲームはじめようキャンペーン」などの言語表現は、「文」相当の要素が語の内部に生起しており、語の内部にはそれより大きい単位は入り得ないという一般的な語形成規則を逸脱する特異な言語現象である(本発表では「文の包摂」と呼ぶ)。

自己は [[非辞書]] の研究をしている際に、アニメの字幕から多くの例文を収集しましたが、これらの例文の中には日本語の標準文法に合わないものが多くあり、この発表で話される「文の包摂」と似ていると思い、学界がこれらのあまり標準的でない例文をどう考えているのかを見てみたいです。

10:55〜12:10#

o04s:[[カタカナ語の意味分類に対する大規模言語モデルの有効性検証]]

本稿では、LLM を用いてカタカナ語の文脈中の意味分類を行った手法と結果について報告する。
https://clrd.ninjal.ac.jp/lrw/lrw2024/o04s-paper.pdf

意味分類?どうやって実現するのか興味があります。自分もこの方向でプロンプトを設計したことがあります:

# Role: 辞書検索アシスタント

## プロフィール

- 著者: NoHeartPen
- バージョン: 0.1
- 説明: 辞書検索アシスタントは、権威ある辞書から提供された完全な説明の中から、文脈に最も近い意味項を検索する言語学習アシスタントです。

## ルール
1. 原文を尊重し、提供された辞書の完全な説明を翻訳してはならず、提供された辞書の完全な説明を変更してはならない。
2. 文脈に辞書に未収録の用法が現れた場合は「辞書にはこの用法が収録されていません」と返答し、その他の場合は補助説明を提供せず、辞書の説明のみを返す。

## ワークフロー
1. ユーザーに「文脈:[], 知りたい単語:[], 辞書の完全な説明:[]」の形式で文脈と知りたい単語を提供させる。
2. ユーザーが提供した文脈、知りたい単語、辞書の完全な説明に基づいて、文脈に最も近い意味項を分析する。
3. 文脈に最も近い意味項の関連説明のみを返し、文脈に無関係な他の説明は返さない。
4. 辞書の説明を翻訳せず、補助説明を行わない。

## 初期化
役割<Role>として、<Rules>を厳守し、ユーザーを友好的に歓迎します。次に自己紹介をし、ユーザーに<Workflow>を伝えます。

## 例
文脈:[全部さらけ出して], 知りたい単語:[さらけ出して], 辞書の完全な説明:[さらけ‐だ・す【×曝け出す】  
[動サ五(四)]  
 隠すところなく、すべてを現す。ありのままを見せる。「内情を―・す」「弱点を―・す」  
 追い出す。  
「おらあ女房を―・してしまって」〈滑・膝栗毛・発端〉]
あなたの回答:① 隠すところなく、すべてを現す。ありのままを見せる。「内情を―・す」「弱点を―・す」 

(注意:このプロンプトは GPT3.5 や多くの国内 AI ではうまく機能しませんが、GPT4o mini では非常に良い結果を出します。《大辞泉》のような権威ある辞書が提供する膨大な意味項の中から、文脈に最も類似した意味を迅速に検索できます。少し例を変更して、国内 AI で《牛津高階英漢双解詞典》を使って英単語を調べる際にも良い体験が得られます。)

o06s:漢語動名詞を含む名詞節の構造パターンの分析-BCCWJ データに基づいて-

漢語動名詞が名詞節内で使用される場合、少なくとも、動詞型(「漢語 + スル・シタ」)、名詞型(「漢語 + ノ」)、形容詞型(「漢語 + 的・的ナ・ナ」)などの 3 種類の構造パターンがある。…… 結果、漢語動名詞が名詞節内で使用される際に、(1)動詞型の構造パターンの典型性が突出していること、(2)名詞型の構造パターンには制約があること、(3)形容詞型の構造パターンは例外的であることが確認された。また、漢語動名詞の品詞性、使用環境、意味範疇、時代などの要因が、各パターンの選択に影響を及ぼすことも明らかになった。

https://clrd.ninjal.ac.jp/lrw/lrw2024/o06s-paper.pdf

卒業論文を書く際、指導教官が推薦した数篇の論文の中に著者の論文があり、今回も出会えるとは思いませんでした。方向性と結論がとても興味深いです。

14:10〜15:50#

o07s:『中国語動画音声コーパス』の構築 ──複数モダリティによる正確な書き起こしを目指して

https://clrd.ninjal.ac.jp/lrw/lrw2024/o07s-paper.pdf

自分も [[柯南双語コーパス]] のようなものを作ろうと思っていましたが、[[易查]] を書く前に時間がなくなってしまい、彼らがどのような技術スタックを使用しているのか、何が必要なのかを見てみたいです。

動画共有サイトにアップロードされている中国語の動画は,字幕が画像データとして動画のフレーム内に埋め込まれていることが一般的である.中国語コーパスの作成に際し,より広範なテキストの収集を可能にするためには,動画に対し文字認識あるいは音声認識の手法を用いる必要がある.本研究では,埋め込み字幕に対する OCR,音声に対する音声認識,動画制作者が用意した字幕など,複数のリソースから得られる,テキストを同時に表示・検索できるようなアプリケーションを実装する.また試験的にいくつかのジャンルを収集し,言語分析を試みる.
アップロードされた中国語の動画は、字幕が画像データとして動画のフレーム内に埋め込まれていることが一般的です。中国語コーパスを作成する際、より広範なテキストを収集するためには、動画に対して文字認識または音声認識の手法を用いる必要があります。本研究では、埋め込まれた字幕に対する OCR、音声に対する音声認識、動画制作者が用意した字幕など、複数のリソースから得られるテキストを同時に表示・検索できるアプリケーションを実装します。また、いくつかのジャンルを試験的に収集し、言語分析を試みます。

16:15 〜 17:15#

i1_A3s A ルーム 日本語学習者用の日本語・スロベニア語辞書のための読みやすいアクセント表記の試み

https://clrd.ninjal.ac.jp/lrw/lrw2024/i1_A3s-paper.pdf

日本語 - スロベニア語(スロベニア語)辞典を構築する学者が経験を共有するとは思いませんでした。しかも、共有されるのは UniDic の処理経験です。必見です!(また、以前は UniDic に音調情報が含まれていることに気づきませんでした)

i1_B3s パタンマッチングによるオノマトペ候補語抽出の試み ーオノマトペ形態変換プログラムを用いてー

現代日本語の書き言葉・話し言葉に出現するオノマトペの形態パタンは 61 種で、具現形は約 2200 語であることが明らかになった。
https://clrd.ninjal.ac.jp/lrw/lrw2024/i1_B3s-paper.pdf

入力法の研究……?自分の [[非辞書]] と入力文字は非常に似たプロセスですが、日本人が実際にひらがなを使用する際に非常に柔軟であることをぼんやりと感じていましたが、オノマトペが 61 種類に分けられるとは思いませんでした。

i1_C2 日本語における外来語として取り入れられていない英語語彙の特徴

本発表では、日本語に取り入れられていない英語の外来語に焦点を当て、それらの語にはどのような特徴があるのか、その一端を明らかにする。現代日本語には多くの英語からの外来語が存在することはよく知られている。しかし、すべての英語が日本語の外来語になっているわけではなく、例えば、使用頻度が高い冠詞の「a」、副詞の「as」、代名詞の「he」などは日本語の外来語にはなっていない(国語辞典の見出し語にはなっていない)。…… 上位 100 語の結果では、「デジタル大辞泉」の見出し語になっているものが 49 語、なっていないものが 51 語と約半々であった。品詞別で見ると、名詞(8 語)はすべて見出し語になっていたのに対し、助動詞は 6 語中 5 語が、代名詞は 12 語中 9 語が見出しになっていないことが分った。

自分は以前、知乎で「[[知乎回答_来源于英语的日语单词有哪些]]」という質問に答えたことがあります https://www.zhihu.com/question/544356324/answer/2609385955。卒業論文では、日語外来語と中国の四級、雅思、托福などの試験の語彙の交差を分析しようと思っていましたが、最終的には [[非辞書]] の形態素解析の方向を選びました(残念ながら最終的には半分しか書けませんでした 2333)。

2 日目:08 月 29 日(木)#

9:20 〜 10:40#

i2_A1『日本語ゲームコーパス(JGC)』の構築に関する中間報告―前期のアクションゲームに見られる量的特徴―

https://clrd.ninjal.ac.jp/lrw/lrw2024/i2_A1-paper.pdf

ゲームコーパス?! 必見です!また、選ばれたのは日本のメーカーの家庭用ゲームで、新旧さまざまです(残念ながら、原神はありませんでした)。

i2_A2:(仮)「国会図書館デジタル化資料全文テキストデータ」を利用した日本語研究の試み

公開されたデータベースを学術界がどのように利用しているのか興味があります。

i2_A3:『分類語彙表』番号の多義語コードとしての検討―『計算機用日本語基本辞書 IPAL』最重要動詞を用いて―

今回のワークショップでは、いくつかの発表がこの『分類語彙表』を使用しており、番号付けの際に考慮された問題が気になります。

i2_B3:ポップアップ辞書に向けての日本語形態素解析システムの設計・実装・運用

調査したい単語にマウスを当てて辞書を表示することは、リーディングの効率を高める効果があるとされている。しかし、この機能を実現するためには、マウスで当てられているところの文字列を辞書形に変換するという問題を解決する必要がある。Mecab などの形態素解析システムを利用することは、一つの解決策であるが、そのようなシステムは、ユーザーのコンピュータのパフォーマンスに特定の要件を求めることがあるため、通常はサーバー上で実行されることが多い。しかし、このプロセスの形態素解析は、語学研究や機械翻訳や全文検索のための形態素解析とは異なり、入力された文字列を辞書形に変換することが主な目的である。そのため、形態素解析システムのサイズを縮小し、より効率的な実装が可能である。本稿では、ポップアプ辞書に向けて辞書検索に特化した形態素解析システム NonJishoKei の設計、実装、運用について論じる。
事実、調査したい単語にマウスを当てると自動的に辞書の説明が表示されることは、リーディングの効率を高める効果があるとされています。しかし、この機能を実現するためには、マウスのポインタの近くにあるテキストを辞書に収録された形式に変換する必要があります。Mecab などの形態素解析システムを使用することは一つの解決策ですが、そのようなシステムは通常、ユーザーのデバイスに高い要求を持つため、通常はサーバー上で実行されます。しかし、このプロセスの形態素解析は、言語研究や機械翻訳、全文検索のための形態素解析とは異なり、マウスのポインタの近くにあるテキストを辞書に収録された形式に変換することが主な目的です。したがって、このような使用シーンのために特別に設計された軽量の形態素解析器を作成することが可能です。日本語非辞書形辞典(NonJishoKei)はこの考えに基づいて設計された形態素解析器であり、この記事ではそのアルゴリズムの原理と工学的実装について論じます。

自分の発表(図穷匕見 2333)、翻訳は原文を提出した後に書き直したので、かなり差があります(囧

i2_C2:学習者コーパス構築機構としての作文教育支援システム TEachOtherS

(a) 学習者に Web ベースの作文・コメント・振り返り環境を提供する,(b) 教師がクラス全員のアカウントを管理したり,作文・コメント・振り返りといった活動フェーズを制御し,クラス全員に一括して適用できるようにする。これらに加え,他人から受けたコメントなどに基づき作文を改訂することを想定し,作文のバージョン管理機能を持つ。また,作文教育活動の結果は HTML 形式で出力することが可能である。

このシステムの実装の詳細に非常に興味があります。

i2_C4:(仮)高校生の手書き漢字における書き誤りの傾向

1 年生では約 70%の生徒の作文に漢字の書き誤りが見られたが、学年が上がるにつれて誤りは減少し、3 年生では 50%程度に減少した。また 20 作文以上で使用された漢字の中で書き誤りの割合が最も高かった漢字は「達」であり、「達」が出現する作文のうち約 40%の作文で「達」の字形に誤りが見られた。

関心のある問題の結論がとても興味深いです。

10:50〜12:05#

o12:(仮)誤解析からみるアニメ・ゲーム語彙の特徴―語彙リストの作成に向けて―

日本語学習者にとってアニメやゲームはリソースの一つであるが、教室で学ぶ日本語とは用いられる語彙が異なる。しかしジャンル別の語彙やその頻度がわかる、学習者にも教師にも活用しやすい語彙リストは公開されていない。そこで、日本語教育で活用できる言語資源として語彙リストを作成することにした。アニメやゲームのスクリプトはそのまま形態素解析すると誤解析が生じやすい。正確なデータ提供を目指し、まずどこにどの程度誤解析が生じるかを確認するため、アニメ 4 作品、ゲーム 1 作品を対象に形態素解析を行った。その結果、10% 前後の誤解析が生じることが分かった。そのほとんどが作品特有の名詞に加え、感動詞、くだけた話し言葉、言い淀みなど、アニメやゲームの語彙の特徴を表すものであった。本発表では、語彙リスト作成に向けて行った形態素解析の手順と誤解析の内容を整理し、アニメやゲームの特徴を可能な限り残したまま解析する方法を検討する。
https://clrd.ninjal.ac.jp/lrw/lrw2024/o12-paper.pdf

方向性と指摘された「誤解析」の問題に自分も興味があります。また、研究対象のアニメには「推しの子」と「五等分の花嫁」が含まれていました(大笑)。

o13:『子ども版日常会話コーパス』モニター公開版の概要

https://clrd.ninjal.ac.jp/lrw/lrw2024/o13-paper.pdf

子供の対話コーパス?期待しています!

13:00〜14:00#

生成 AI との対話を深める言語学
発表者:佐野大樹(Google 合同会社)

おお、Google の登場です!

14:25〜15:25#

i3_A1:上昇下降調と会話形式の関連性―「日本語日常会話コーパス」を用いて―

発表者:李海琪(浙江大学日本語科)
句末音調である上昇下降調の使用場面に関して、見解の相違がある。内省と資料に基づいたまとめによれば、上昇下降調はやや改まった場で使われやすい。しかし、独話をデータとした印象評定と使用率の統計によれば、上昇下降調はくだけた発話で多用される。
https://clrd.ninjal.ac.jp/lrw/lrw2024/i3_A1-paper.pdf

結論がとても興味深いです。

i3_A2:(仮)日常会話場面による発話速度の違い

本発表では同様に会話場面や会話相手によって発話速度がどのように変わりうるか調べた結果について報告する。
https://clrd.ninjal.ac.jp/lrw/lrw2024/i3_A2-paper.pdf

タイトルが私の興味を引きました。

i3_A3:日本語における /ei/ 母音連続の発音

発表者:Katarina Hitomi Gerl(カタリーナ・ゲール)(University of Ljubljana, Faculty of Arts, Japanese Studies(リュブリャーナ大学、文学部、日本研究講座))
様々な辞書によれば、日本語における ei 母音連続は、意味の切れ目の間にない場合、長い「え」として発音される。

関心のある問題がとても興味深いです。

i3_B3:辞書反転とオープンデータを元にしたスロベニア語・日本語学習辞典の構築
発表者:クリスティナ・フメリャク寒川 (Kristina Hmeljak Sangawa)(リュブリャナ大学 / University of Ljubljana)、Laura Barovič Božjak、 Nadja Bostič、 Katarina Hitomi Gerl、 Jan Hrastnik、 Nina Kališnik、 Sara Kleč、 Eva Kovač、 Nina Sangawa Hmeljak、 Jure Tomše and Tomaž Erjavec
スロベニアでは日本語学習が盛んだが、参考書はまだ少ない。そこで、以前に編集した日本語・スロベニア語辞典のデータを反転し、オープンデータも利用し、スロベニア語・日本語学習辞典の構築を試みた。まず、日ス辞典から語義ごとの対訳語を抽出し、スロベニア語を見出し語にした対に並べ替え、次に手動で重複、不適切な見出し語を削除し、自動で見出し語の品詞と CEFR 準拠難易度、一部に例文を付与した。共同編集用のソフト Lexonomy を使い、手作業で多義の見出し語に語義ごとの意味ヒント、相位ラベルを付与し、一部の見出し語にはパラレルコーパスからの例文も添えた。このように構築した約 8500 語の辞書データを TEI Lex0 準拠の xml データとして一般公開した。企画に参加した学習者は辞書の仕組みに関する知識が得られてためになったとの反応があり、今後も同じ体制での編集を続ける予定である。

紹介が私の興味を引きました。期待しています。

i3_C2:個人的な緊急事態:X (Twitter) における「待って」の分析

X (Twitter) において,同一文中で主体や対象等を表す他の要素を伴わず,送り手(書き手)自身のことばとして記される言い切りの「待って」の用例に着目して使用実態と特徴を分析した。直近 60 分間に投稿された用例の観察から,そのような「待って」は類似の特徴を持つ「見て」「聞いて」よりも多く用いられており,特定の宛先を持たない「ツイート」(ポスト)で使用されることが多いことを明らかにした。また,そのような「待って」は,送り手(書き手)自身の感情や評価の発露と共起することが多いことから,後続文とあわせて「感情・評価を揺さぶる何らかの出来事があり,かつ,それが送り手(書き手)個人にとって文字通り待ってほしいほどの緊急事態である」ということを表しているものと考えた。さらに,Yahoo! ブログ及び LINE チャットにおける用例とも比較を行い,X (Twitter) で特にそのような「待って」が用いられやすいことを推測した。

https://clrd.ninjal.ac.jp/lrw/lrw2024/i3_C2-paper.pdf

分析対象がとても興味深いです。

15:35〜16:50#

o15:A corpus-based cognitive semantic analysis of the polysemy of the Japanese temperature adjective tsumetai

発表者:Wang Haitao(Kyoto University)、Huang Haihong(Kyoto University)、 Zhong Yong(Nanjing University of Aeronautics and Astronautics)

https://clrd.ninjal.ac.jp/lrw/lrw2024/o15-paper.pdf

中国人が投じた日本語の英語論文……?発表時にどの言語を使うのか興味があります 2333。

o16:小説のセリフの書き分けに使われる文末形式

本稿では、エンターテイメント小説・ライトノベル 10 作品に登場する 24 名のキャラクタのセリフから文末の形式を収集し、整理・分析を試みる。

https://clrd.ninjal.ac.jp/lrw/lrw2024/o16-paper.pdf

タイトルを見て日本文学の名作を分析するのかと思ったら、実際には「10 部のライトノベルに登場する異なるキャラクターの言語スタイルを分析した」とのことで、一瞬で興味が湧きました。論文を開いてみると、分析対象の作品に「青春猪頭」が含まれていました!しかも、「葬送のフリーレン」のような新作も…… 来年のワークショップで「MyGo」を分析する人がいるのではないかと期待しています(大雾)。

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。