Google検索結果のURLを整形する

スポンサーリンク

url=[ここを取得]&rct
の ここ のみを取得します。

というわけでこんなサブルーチンを作ってみました。

sub urlget{
    my $url=shift;
    if ( $url=~ /\?url\=(.*)\&rct/ ){
        return $1;
    }
    else{
        return $url;
    }
}

ほんで、取得・・・

静岡県公式ホームページ ふじのくに総合トップページ
https://www.pref.shizuoka.jp/
静岡県 – Wikipedia
https://ja.wikipedia.org/wiki/%25E9%259D%2599%25E5%25B2%25A1%25E7%259C%258C
静岡の観光スポットランキングTOP10 – じゃらんnet
http://www.jalan.net/kankou/210000/
ハローナビしずおか 静岡県観光情報公式ホームページ
http://hellonavi.jp/
静岡 のニュース検索結果
/search?q=%E9%9D%99%E5%B2%A1&lr=&hl=ja&prmd=ivnsm&source=univ&tbm=nws&tbo=u&sa=X&ved=0ahUKEwjtxcLm0q_UAhXITrwKHQjbBVwQqAIILA
静岡市ホームページ
http://www.city.shizuoka.jp/
絶対に行きたい!“静岡”のオススメ観光スポットランキングTOP40 …
https://retrip.jp/articles/5381/
@S[アットエス] | 静岡新聞SBSオフィシャルサイト
http://www.at-s.com/
しずおか観光情報 駿府静岡市 最高の体験と感動を
http://www.visit-shizuoka.com/
静岡銀行
http://www.shizuokabank.co.jp/

おや・・・一つ変なのがあります。

静岡 のニュース検索結果
/search?q=%E9%9D%99%E5%B2%A1&lr=&hl=ja&prmd=ivnsm&source=univ&tbm=nws&tbo=u&sa=X&ved=0ahUKEwjtxcLm0q_UAhXITrwKHQjbBVwQqAIILA

これって、「googleの検索結果が」検索結果に出ているってことみたいですね。
相対パスになります。

ので

https://www.google.co.jp/search?q=%E9%9D%99%E5%B2%A1&lr=&hl=ja&prmd=ivnsm&source=univ&tbm=nws&tbo=u&sa=X&ved=0ahUKEwjtxcLm0q_UAhXITrwKHQjbBVwQqAIILA

とするのが正しそうです。

ですが、いまは共起語の取得のためですから、
このURLは除外してしまっても良いかもしれません。

除外、とすることにします。

sub urlget{
    my $url=shift;
    if ( $url=~ /\?url\=(.*)\&rct/ ){
        return $1;
    }
    else{
        return "";
    }
}


こうすると、マッチしないときには空を返すようになりますね。

スポンサーリンク







シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク