YaCyで日本語Web検索
YaCyはWeb検索データをP2Pで共有するフリーソフトの検索エンジン。
- 試しに動かしてみた例 http://www.suri.cs.okayama-u.ac.jp:8090
YaCyは正式には日本語検索に対応していないが、誰かが日本語検索データをP2Pネットワーク上にあげてくれれば日本語検索が可能にできる。その日本語検索データ作成方法は以下
Linuxで動かす手順( windowsでの手順はここ http://d.hatena.ne.jp/niitsuma/20100416/1273138280 )
kakasi libtext-kakasi-perl をインストール
ubuntuなら
sudo apt-get install kakasi libtext-kakasi-perl
またはgentooなら
emerge dev-perl/Text-Kakasi app-i18n/kakasi
delegeateと設定ファイルをインストール
sudo mkdir /usr/share/delegate/ cd /tmp wget http://www2s.biglobe.ne.jp/~niitsuma/delegate9.9.6.tar.gz tar zxf delegate9.9.6.tar.gz cd delegate9.9.6/ make
makeの途中で聞かれる質問はすべてデフォルト(リターンキー)
sudo cp src/delegated /usr/share/delegate/
cd /tmp
wget https://github.com/niitsuma/yacy-japanese-proxy/archive/master.zip
unzip master.zip
sudo cp yacy-japanese-proxy-master/* /usr/share/delegate/
delegateを起動
/usr/share/delegate/delgate-kakasi-double.sh
YaCyをインストール
- yacyをマニュアル通りにintsallする
YaCyを起動して設定
-
- YaCyのメニューを次のように選択
- Peer Administration -> Administration Console -> Advanced Settings -> Remote Proxy (optional)
- proxy設定画面になるので次のように設定を入力
- Use remote proxy: にチェック
- Use remote proxy for yacy <-> yacy communication: のチェックをはずす
- Remote proxy host:localhost
- Remote proxy port:8300
- YaCyのメニューを次のように選択
YaCyの検索データを作成
-
- YaCy の管理画面からIndex Creation または Advanced Crawler のメニューを選択
- 検索インデックス作成メニュー画面になるので、検索データを作りたいURLを入力
- Start New Crowl ボタンを押す
- 日本語のインデックスが作られてWeb検索が日本語(とローマ字)でできるようになる
- port解放してるなら作成したデータは自動的にP2Pネットワークにアップロードされる
補足
- ローマ字検索
delegateではなくjapana http://www.cgarbs.de/japana.en.html を代わりに使うとローマ字検索ができるはず。ubuntuの場合は sudo apt-get install japana でインストールできる
- squidと連携
delegate経由でWebを閲覧すると「proxy経由の接続を拒否します」等のエラーで見れないことがある。そんな場合はsquidを経由する。
/usr/share/delegate/delgate-kakasi-double.sh の delegateの起動オプションに
delegated -P8300 ADMIN=none CACHE=no SERVER=http CHARCODE=SJIS FTOCL=wakati-kakasi.cfi PROXY=localhost:3128
というように
PROXY=squid-server:port-number
というオプションをつけると、検索可能なサイトが増えます