|
導(dǎo)航頁(yè)的數(shù)據(jù)都是規(guī)則的排列在DOM樹(shù)當(dāng)中的,用JS可以用幾個(gè)循環(huán)輕松的對(duì)其進(jìn)行操作,而且JS需要依賴瀏覽器,操作數(shù)據(jù)庫(kù)很困難。其實(shí)php就有現(xiàn)成的類庫(kù)對(duì)DOM樹(shù)種的節(jié)點(diǎn)進(jìn)行增刪改查操作,在此做一些筆記。
這里涉及到2個(gè)類 DOMDocument 和 DOMXPath。
其實(shí)思路比較明確,就是通過(guò)DOMDocument將一個(gè)html file轉(zhuǎn)換成DOM樹(shù)的數(shù)據(jù)結(jié)構(gòu),再用DOMXPath的實(shí)例去搜索這個(gè)DOM樹(shù),拿到想要特定節(jié)點(diǎn),接下來(lái)就可以對(duì)當(dāng)前節(jié)點(diǎn)的子樹(shù)進(jìn)行遍歷,得到想要的結(jié)果。
在當(dāng)前目錄下有一個(gè)這樣一個(gè)導(dǎo)航的html文件 "./hao.html"
現(xiàn)在需要得到所有<a>標(biāo)簽的中文內(nèi)容,php代碼如下:
復(fù)制代碼 代碼如下:
<?php
//將html/xml文件轉(zhuǎn)換成DOM樹(shù)
$dom = new DOMDocument();
$dom->loadHTMLFile("hao.html");
//得到所有class為fix的dl標(biāo)簽
// example 1: for everything with an id
//$elements = $xpath->query("http://*[@id]");
// example 2: for node data in a selected id
//$elements = $xpath->query("/html/body/div[@id='yourTagIdHere']");
// example 3: same as above with wildcard
//$elements = $xpath->query("*/div[@id='yourTagIdHere']");
$xpath = new DOMXPath($dom);
$dls = $xpath->query('//dl[@class="fix"]');
foreach ($dls as $dl) {
$spans = $dl->childNodes;
foreach ($spans as $span) {
echo trim($span->textContent)."/t";
}
echo "/n";
}
?>
輸出結(jié)果如下:
注意:值得注意的一點(diǎn)是DOMDocument的默認(rèn)編碼方式是Latin,所以在處理utf編碼的中文的時(shí)候,需要在<head>后面緊跟著填入
復(fù)制代碼 代碼如下:
<meta http-equiv="content-type" content="text/html; charset=utf-8">
在其他位置,或者是只寫上<meta content="charset=utf-8">都是不識(shí)別的哦
php技術(shù):用PHP代替JS玩轉(zhuǎn)DOM的思路及示例代碼,轉(zhuǎn)載需保留來(lái)源!
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。