一键上传淘宝php源码

2024-12-03 09:52:14
推荐回答(1个)
回答1:

  PHP实现采集抓取淘宝网单个商品信息,本文是一种实现思路,使用file_get_contents函数实现,并给出了采集正则,需要的朋友可以参考下
  调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。
  思路:
  file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图的img中id就是J_ImgBooth!
  具体实现方法:(获取500图,名称,价格,属性及商品描述)
  复制代码 代码如下:
  $text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //将url地址上页面内容保存进$text
  A.获取500图:
  复制代码 代码如下:
  preg_match('/]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
  //运用正则抓取img标签中id为J_ImgBooth的img,$img[0]为该500图img标签,$img[1]为500图的图片地址;
  B. 获取名称:
  复制代码 代码如下:
  preg_match('/([^<>]*)<\/title>/', $text, $title);<br>  //因为正文中的商品名称标签没有特殊class或id正则不好抓取,就抓<title>标签中的内容了,一般来说title中内容就是商品名称了(实际有些出入),$title[0]整个title标签 $title[1]标签中内容;<br>  $title=iconv('GBK','UTF-8',$title);<br>  //如果你的网站是utf8编码,那么需要进行一下转码(淘宝是gbk编码)<br>  C.获取价格:<br>  复制代码 代码如下:<br>  preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);<br>  //同理获取id为J_StrPrice的标签内容$price[2], $price[0]是整个标签, $price[1]为strong标签名;<br>  $price=floatval($price);//放入数据库估计还有转一下变量类型<br>  D.获取属性:<br>  这之前获取的内容都是在单标签中相对只需一个正则就可搞定,然而如果要获取如<br>  复制代码 代码如下:<br>  …<br>  <div id=”xxx”><br>  …<br>  <ul><br>  …<br>  </ul><br>  <div>…<br>  <div>…<br>  </div><br>  </div><br>  </div><br>  …<br>  这样特定div中有未知n个<>标签,获取该特定div将会非常的困难,搜了下网上,最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/”这样使用递归抓取标签对,但是他不能抓特定标签,所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性,就是它的各个标签结构基本是固定的…<div>…</div>标签后面不是</div><div id=”description”>就是</div><div>,所以我们可以采用变通法达到获取属性标签内容的目的。<br>  复制代码 代码如下:<br>  preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);<br>  //这个正则会抓取<div开始到整个页面最后一个</div>标签,当然我们属性标签就在这个的前面部分。<br>  $text1=preg_replace("/<\/div>[^<]*<(div)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);<br>  //匹配到</div ><div id=”description”>至最后</div>然后用””代替(就是把匹配的删除了),所以如果attributes的div后面紧跟的是description那么我们已经达到目的了。<br>  $attributes=preg_replace("/<\/div>[^<]*<(div)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);<br>  //如果attributes后面紧跟box J_Tbox标签,那么我们还需要使用以上这步来剔除box J_Tbox标签,当然如果attributes的div后面紧跟的是description,这一步将不会匹配到任何即什么都不会做。<br>  E.获取描述:<br>  通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧(我之前也是这么想的),但是使用这个方法获取描述时得到的内容将会是“描述加载中”,是的,这个描述内容不是在源码中的,它是打开页面加载进一大堆js后,不知道从淘宝的哪个角落中加载进来的。<br>  好吧,那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用?没事,全加载进来肯定没错。不知道需要放那些特定div上去有作用?抓一个源码,删掉一些div一步步试试看,你会发现“<div id=”detail”> </div><br>  复制代码 代码如下:<br>  <div id="description"><br>  <div id="J_DivItemDesc">描述加载中</div><br>  </div><br>  这几个div是加载描述所必须的,那么下面就是写代码了:<br>  复制代码 代码如下:<br>  preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//页面js脚本<br>  $content=$content[0];<br>  $description='<div id="detail"> </div><br>  <div id="description"><br>  <div id="J_DivItemDesc">描述加载中</div><br>  </div>';<br>  foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};<br>  //将这个$description放进页面,描述就会自动的加载进来了,当然多个商品描述在同一个页面也会只有一个描述会被加载的。</p> </div> </div> <div class="clear"></div> </div> </div> </div> <div class="wendaright"> <div class="wdluluerwema"> <div class="wdxgwttop">相关问答</div> <div class="wdxgwtnr"> </div> <div class="clear"></div> </div> <!-- 其他随机问答['id'=>alphaID($like['zid'])] --> <div class="wdluluerwema"> <div class="wdxgwttop">最新问答</div> <div class="wdxgwtnr"> <div class="wdxgwtcont"> <div class="wdxgtitle"><a href="https://aq8.net/557116425.html">在同一函数内,相邻的极大值和极小值,极大值一定大于极小值吗?</a></div> </div> <div class="wdxgwtcont"> <div class="wdxgtitle"><a href="https://aq8.net/253058422.html">网上订的南航机票可以去柜台退嘛.急!!在线等!!!!!</a></div> </div> <div class="wdxgwtcont"> <div class="wdxgtitle"><a href="https://aq8.net/440921438.html">我的Y450T6600玩游戏是cpu的温度在65度左右,请问正常吗</a></div> </div> <div class="wdxgwtcont"> <div class="wdxgtitle"><a href="https://aq8.net/376900469.html">【急】雅思5.5一个月可以达到6.5么</a></div> </div> <div class="wdxgwtcont"> <div class="wdxgtitle"><a href="https://aq8.net/375351747943041404.html">在什么地方《海员四小证》培训 拿证最快</a></div> </div> <div class="wdxgwtcont"> <div class="wdxgtitle"><a href="https://aq8.net/18405491.html">请问前辈:我公司工资实行年薪制,在年底一次性发放工资每月不发基本工资。个人所得税应该怎样计算?</a></div> </div> <div class="wdxgwtcont"> <div class="wdxgtitle"><a href="https://aq8.net/590626425.html">我国发射在赤道上空的同步地球卫星,与赤道上对应的点相比:</a></div> </div> <div class="wdxgwtcont"> <div class="wdxgtitle"><a href="https://aq8.net/1611310768513364627.html">传奇私服道士PK技巧?</a></div> </div> <div class="wdxgwtcont"> <div class="wdxgtitle"><a href="https://aq8.net/1765899281753303100.html">永恒之塔什么职业最厉害</a></div> </div> <div class="wdxgwtcont"> <div class="wdxgtitle"><a href="https://aq8.net/167313032.html">psp2000 WIFI连接,问题如下;</a></div> </div> </div> </div> </div> <div class="clear"></div> <div class="footer"> <!-- 移动底部导航 --> <div class="fanhuitop"><a href="#top" ref="nofollow"><img src="https://aq8.net/static/old/img/fhtop.png" alt="返回顶部" title="返回顶部"></a></div> <div class="dibu"> <div class="dibu"> </div> </div> <div class="banquan"> <p>内容全部来源于网络收集,如有侵权,请联系网站删除:QQ:24596024</p> </div> </div> </div> </div> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?d86df1760ee607dc5bff1a7aab937e8e"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>