お知らせ 研究会の開催と会場に参加される皆様へのお願い(2021年10月開催~)
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2012-12-19 16:20
Twitter上の「おはよう」を例とした崩れた異表記の認識
藤沼祥成東大)・横野 光NII)・Pascual Martinez-Gomez相澤彰子東大/NIINLC2012-39
抄録 (和) 近年 Twitter を始めとする Consumer Generated Media (CGM) の発展により、正式な表記でないもの、いわゆる崩れた表記が増加してきた。特に日本語を処理する時に前処理として分かち書きを必要とするが、このような崩れた表記に対しては現在の自然言語処理ツールは対応できていない。本論文においては一つの単語、「おはようございます」に注目し、Conditional Random Field (CRF) を用いて崩された「おはようございます」を抽出した。また、「おはよう」がどのようなルールにて正式な表記から崩れた表記に変化するかを追究した。実験では「おはよう」に相当する部分の抽出と「おはようございます」に相当する全体の抽出を行った。実験の結果、共に 0.91 を超える F1 値で抽出できた。また「おはよう」に相当する部分に対しては「おはよう」からどのように変換されたかのルール抽出を行い、JUMAN7.0 にないルールを抽出できた。 
(英) Recently, the rapid growth of Consumer Generated Media (CGM) such as Twitter introduced much expressive variations and informal representations into textual resources. Although word segmentation is the first step in most Japanese language applications, current word segmentation tools are not sufficiently adapted to such informal text yet. In this paper, we focus on a most frequent phrase expression in Japanese morning twitter, “おはようございます”, and construct a CRF-based extractor of the variations. Using 500 manually annotated samples, we obtain F1 score of over 0.91 for both the head span (“おはよう”) and the entire span (including the attachment part such as “ございます”). We also show that the extracted variations contain normalization pattern which are not defined in JUMAN 7.0.
キーワード (和) 崩れた表記 / ルール抽出 / Twitter / CRF / / / /  
(英) Informal text / Rule extraction / Twitter / CRF / / / /  
文献情報 信学技報, vol. 112, no. 367, NLC2012-39, pp. 35-40, 2012年12月.
資料番号 NLC2012-39 
発行日 2012-12-12 (NLC) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NLC2012-39

研究会情報
研究会 NLC  
開催期間 2012-12-19 - 2012-12-20 
開催地(和) 東京工業大学・大岡山キャンパス 
開催地(英) Ookayama Campasu, Tokyo Institute of Technology 
テーマ(和) 第4回 集合知シンポジウム 
テーマ(英)  
講演論文情報の詳細
申込み研究会 NLC 
会議コード 2012-12-NLC 
本文の言語 英語(日本語タイトルあり) 
タイトル(和) Twitter上の「おはよう」を例とした崩れた異表記の認識 
サブタイトル(和)  
タイトル(英) Recognizing Variations of Japanese "Good Morning" Phrases in Twitter 
サブタイトル(英)  
キーワード(1)(和/英) 崩れた表記 / Informal text  
キーワード(2)(和/英) ルール抽出 / Rule extraction  
キーワード(3)(和/英) Twitter / Twitter  
キーワード(4)(和/英) CRF / CRF  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 藤沼 祥成 / Yoshinari Fujinuma /
第1著者 所属(和/英) 東京大学 (略称: 東大)
The University of Tokyo (略称: Univ. of Tokyo)
第2著者 氏名(和/英/ヨミ) 横野 光 / Hikaru Yokono /
第2著者 所属(和/英) 国立情報学研究所 (略称: NII)
National Institute of Informatics (略称: NII)
第3著者 氏名(和/英/ヨミ) Pascual Martinez-Gomez / Pascual Martinez-Gomez / アイザワ アキコ
第3著者 所属(和/英) 東京大学/国立情報学研究所 (略称: 東大/NII)
The University of Tokyo/National Institute of Informatics (略称: Univ. of Tokyo/NII)
第4著者 氏名(和/英/ヨミ) 相澤 彰子 / Akiko Aizawa /
第4著者 所属(和/英) 東京大学/国立情報学研究所 (略称: 東大/NII)
The University of Tokyo/National Institute of Informatics (略称: Univ. of Tokyo/NII)
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2012-12-19 16:20:00 
発表時間 25 
申込先研究会 NLC 
資料番号 IEICE-NLC2012-39 
巻番号(vol) IEICE-112 
号番号(no) no.367 
ページ範囲 pp.35-40 
ページ数 IEICE-6 
発行日 IEICE-NLC-2012-12-12 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会