![]() |
|
何を数えるのか 何の中から数えるのか |
どうやって使うか(準備編) ファイルのダウンロード Rubyの準備 単語分析ソフトの準備 |
どうやって使うか (実行編) すべての単語の数え方 前後の単語の数え方 どうやって使うか (応用編) 同一視について 辞書について |
例えば
数えたい単語の入っているネタ (データベース) は自分で用意してください.
文学作品なら
Liber Liber
Antologia (frammentaria) della Letteratura Italiana
などからとってくることができます (著作権が切れているものしか載っていません,念のため).
新聞記事なら,各新聞のページ(リンクページ参照)から取って来れます.
テキストデータおよびHTMLデータが対象です.ワープロソフトで作った文章などは「テキスト形式で保存」すればOKです.もちろんアクセント文字にもばっちり対応しています.
※アクセント文字はcaffe` タイプ,caffè タイプ,さらにHTMLで使われているcaffè という表記 (ブラウザ上で表示されるときはcaffè と表示されるが,ファイル上ではcaffè と書いてある) のすべてに対応しているので,大抵は大丈夫でしょう.※大量のデータをネット上からごそっとまとめてとってきたいとき(いちいちクリックして保存するのが面倒くさいとき)には,自動巡回ソフトが便利です.いろんな仕様のものがありますが,私が使っているGetHTMLWの場合は,あるページのURL(アドレス)を指定すると,そのページおよび,そのページにリンクされているページをとってきて,ハードディスクにためてくれる,というものです.毎日の新聞記事を無差別にとってきて家のコンピュータにためておきたい,という人は,こういうのを持っておくと便利です.
VectorのWin95/98用自動巡回ソフト一覧
VectorのMac用自動巡回ソフト一覧
私が使っているGetHTMLW (フリーソフト・Win95/98用)
※フリーソフト=無料でダウンロードして使っていいソフトという意味
1. ファイルのダウンロード
2. Rubyの準備
3. 単語分析ソフトの準備
という順番でやっていきます.Rubyというのがないと,単語分析ソフトは動きません.
以下は Win95/98 を使っている人むけの解説です.Macの人にはMac版のRubyというのもあるみたいですが,私にはよくわかりません (ごめんなさい).
いずれも圧縮されているので,展開ソフトを持っていない人は
Vectorのhttp://www.vector.co.jp/vpack/filearea/win95/util/arc/index.htmlとかに行くといろいろあるので,持っておくと今後も何かと便利でしょう.
これでRubyの準備完了
これで単語分析ソフトの準備完了
これだけです.MS-DOSプロンプトって何だ?と思った人は,下の方法でやってみてください.
すると c:\count に
| count.csv | 変化形で同一視する前の「生の」集計結果 |
| genkei.csv | 変化形を同一視し、辞書の意味も併記 |
| sogo.csv | 変化形それぞれについて、どういう変化をしているのか |
の3つのファイルが出来ているはずです.
あとは,そのファイルを眺めてたりいじったりして楽しんでください.エクセルなどで開けるほか,エディタでみることもできます.
解析対象の HTML ファイルが多いほど時間がかかります。
例えば 3000 ファイル(33MB) の解析には K6-2 450MHz で30分以上かかります。
参考までに新聞il manifestoインターネット版8月1ヶ月分のデータベースで調べてみるとこんなかんじのデータがでてきます.
|
|
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
あるいは以下の方法でも同じことです.
また複数語の前後を同時に調べたいときには,沢山一度に書いておくこともできます.すると c:\count に
ruby zengo.rb andare fare di a per -n2
とすれば,andare, fare, di, a, perのすべての,前後2語を数えます.
| 注目単語 個数-avanti.txt 例 andare2-avanti.txt |
注目単語と,その前の前後の単語を指定個数とりだしたもののリスト. 注目単語の前の単語列の多い順にならんでいる. 登場したファイル名と行数がついていて,タグジャンプに対応しているので、それぞれの行でタグジャンプすると、解析したテキストの該当行が表示される. |
| 注目単語 個数-dopo.txt 例 andare2-dopo.txt | 注目単語と,その前の前後の単語を指定個数とりだしたもののリスト. 注目単語の後の単語列の多い順にならんでいる. 登場したファイル名と行数がついていて,タグジャンプに対応しているので、それぞれの行でタグジャンプすると、解析したテキストの該当行が表示される. |
| 注目単語 個数-avanti.csv 例 andare2-avanti.csv | 注目単語の前に現れた単語列の集計 |
| 注目単語 個数-dopo.csv 例 andare2-dopo.csv | 注目単語の後ろに現れた単語列の集計 |
※タグジャンプというのは「メモ帳」にはついてないけれども,多くのエディタについている機能で,例えば参考までに同じく新聞il manifestoインターネット版8月1ヶ月分のデータベースでandareの前後2語づつを調べてみるとこんなかんじのデータがでてきます.
24-Agosto-2000/index.html(168): ne va dopo
と書いてある行のうえでタグジャンプさせると,自動的に24-Agosto-2000というフォルダに入っているindex.htmlというファイルが開き,その168行目が表示される,というものです.「メモ帳」しかエディタを持っていない人はこの際Vectorの秀丸エディタのページなどから秀丸エディタをゲットしておくと何かと便利でしょう.他のエディタでももちろんいいですけど.
|
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| nuovo,nuova nuovi nuove |
| arrivare,ARE |
以上で説明は終わりです.これだけで結構遊べますが,どうやら日々進化しているようなので,新バージョンにも期待しましょう!