藍森林首頁 | 返回主頁 | 本站地圖 | 站內搜索 | 聯繫信箱 |
 您目前的位置:首頁 > 自由軟件 > 技術交流 > 應用編程


    

藍森林 http://www.lslnet.com 2006年8月11日 19:58

想從html文件中,解析出內容,就是html2text,有沒有辦法?

或者哪位前輩有經驗,告訴小弟如何實施。

Re: 想從html文件中,解析出內容,就是html2text,有沒有辦法?

有一個用python寫的可以參考。地址是:http://www.aaronsw.com/2002/html2text/

gpl的,看了就懂了。

Re: 想從html文件中,解析出內容,就是html2text,有沒有辦法?

strip_tags不就可以了嗎?

我想的一個方法,你看是否符合你需要

其實主要方法就是使用PHP獲得服務器頁面,同時利用SCRIPT的innerText屬性,獲得所有文字,如果做處理可以將這些值傳入進行處理.

我這裡只是暫時將所有文字獲得顯示,其實就是innerText而已,

代碼在下面,你看看是否是否符合你需要

=============================

主體.php
-------------

<?php
//讀取頁面的時候經常會超出系統允許的執行時間
set_time_limit(0);
//傳入參數
$url = isset($_GET[u])&&strlen($_GET[u])>4?$_GET[u]:"http://group.php5group.com";

//常值
$afile = "script.html"; //注意,這裡是顯示或者獲得HTML文件的一些操作方法
$objfile = "s_".time().".php";

//獲得內容(請注意PHP版本,如果過底低於4.3.0版本請使用fopen等組合使用)
$sourcecontent = file_get_contents($url);
$acontent = file_get_contents($afile);
$objcontent = $sourcecontent."\r\n\r\n\r\n\r\n".$acontent;

//寫入內容
$fp = @fopen($objfile,"w");
@fputs($fp,$objcontent);
@fclose($fp);

//打印出訪問地址
echo "<a href=\"$objfile\" target=_blank>$objfile</a>";
?>





script.html
----------------

<script language="javascript">
document.write(document.body.innerText);
</script>






主要是script.html文件內的 document.body.innerText屬性,你可以考慮一下.



Copyright © 1999-2000 LSLNET.COM. All rights reserved. 藍森林網站 版權所有。 E-mail : webmaster@lslnet.com