こんにちはゲストさん。会員登録(無料)して質問・回答してみよう!

解決済みの質問

HTMLソースから検索エンジンの要約のように文章を抽出したい

検索エンジンで検索すると、

------------------------------------------------------------
質問するならOKWave
(タイトル部分)

OKWave(オウケイウェイヴ)は120万人が参加する日本初、最大級の
Q&Aサイト。あなたの質問にみんなが回答をしてくれるため、疑問や
悩みをすばやく解決することができます。
(要約部分)
------------------------------------------------------------

以上のように、そのページの文章が要約されて表示されますよね。
file_get_contentsで取り込んだHTMLソースから、そのような要約文章を抽出したいのですが、どのような方法があるでしょうか?

ライブラリ等を教えていただいても結構です。
お分かりになる方、回答願います。

投稿日時 - 2008-11-03 02:21:50

QNo.4449762

すぐに回答ほしいです

質問者が選んだベストアンサー

どんなページでも、検索結果に表示されている文章はdescriptionの中身ですよね?
OKWAVEみたいな質問掲示板の中のページ(質問のページ)とかも、全部。

HTMLファイルとして生成する時に、質問文をdescriptionの中に埋め込んでいる
から、検索結果に要約文として表示されているだけですよね

検索エンジンの検索結果に表示される文章はdescriptionの中身です
頼る・頼らないっつうか頼ってるんですよ
中身はサイト次第で、OKWAVEは質問内容を入れているというだけの話で。

OKWAVEとかはファイル生成時に質問内容をdescriptionに埋め込んでいるから
検索結果の要約文にも表示されているだけってことです

descriptionに頼らずに要約文を抽出させるなら
descriptionに変わる、何か目印をつけた部分に要約文を書いて
正規表現なりを使って抽出表示 ということになるんじゃないでしょうか

投稿日時 - 2008-11-04 20:36:42

お礼

正規表現等を使った抽出も視野に入れて、フリーの検索エンジンソースを漁ってみようかと思います。

ご回答ありがとうございました。

投稿日時 - 2008-11-04 21:50:22

ANo.2

このQ&Aは役に立ちましたか?

0人が「このQ&Aが役に立った」と投票しています

回答(2)

ANo.1

こんにちは
検索エンジンで表示される要約文は
<meta name="description" content=" この中 ">
に記載している文章が表示されているので

これを取り出して表示すれば良いです
同じような質問・回答のやりとりをしているサイトがあったので
参考URLにはっておきますね

私も試してみたら、うまく抽出出来ました

参考URL:http://ml.php.gr.jp/pipermail/php-users/2006-August/030629.html

投稿日時 - 2008-11-04 15:55:56

お礼

ご回答ありがとうございます。
確かにdescriptionを抽出することはできたのですが、やはり、検索サイトの要約文といいますと

PHPで検索
------------------------------------------------------------
OKwave - HTMLソースから検索エンジンの要約のように文章を抽出したい

... PHPのfile_get_contents関数を使って抽出したいのですが、どのような ... ですのでPHPを使って抽出にはどのような方法があるでしょうか
------------------------------------------------------------
などと、トップページ以外はdescriptionに頼らず結果を表示しています。

全文検索システム等を使って、何か良い方法はないでしょうか?

投稿日時 - 2008-11-04 19:03:53

あなたにオススメの質問