php在线词典数据采集 php 数据库

php采集大数据的方案

1、建议你读写数据和下载图片分开，各用不同的进程完成。

创新互联建站专注于企业营销型网站建设、网站重做改版、金州网站定制设计、自适应品牌网站建设、成都h5网站建设、成都做商城网站、集团公司官网建设、成都外贸网站建设公司、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为金州等各大城市提供网站开发制作服务。

比如说，取数据用get-data.php，下载图片用get-image.php。

2、多进程的话，php可以简单的用pcntl_fork()。这样可以并发多个子进程。

但是我不建议你用fork，我建议你安装一个gearman worker。这样你要并发几个，就启几个worker，写代码简单，根本不用在代码里考虑thread啊，process等等。

3、综上，解决方案这样：

（1）安装gearman worker。

（2）写一个get-data.php，在crontab里设置它每5分钟执行一次，只负责读数据，然后把读回来的数据一条一条的扔到 gearman worker的队列里；

然后再写一个处理数据的脚本作为worker，例如叫process-data.php，这个脚本常驻内存。它作为worker从geraman 队列里读出一条一条的数据，然后跟你的数据库老数据比较，进行你的业务逻辑。如果你要10个并发，那就启动10个process-data.php好了。处理完后，如果图片地址有变动需要下载图片，就把图片地址扔到 gearman worker的另一个队列里。

（3）再写一个download-data.php，作为下载图片的worker，同样，你启动10个20个并发随便你。这个进程也常驻内存运行，从gearman worker的图片数据队列里取数据出来，下载图片

4、常驻进程的话，就是在代码里写个while(true)死循环，让它一直运行好了。如果怕内存泄露啥的，你可以每循环10万次退出一下。然后在crontab里设置，每分钟检查一下进程有没有启动，比如说这样启动3个process-data worker进程：

* * * * * flock -xn /tmp/process-data.1.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.2.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.3.lock -c '/usr/bin/php /process-data.php /dev/null 21'

不知道你明白了没有

在线词典数据怎么采集？请大家给个思路！参考资料(php的)。谢谢

虽然我没有做过采集在线词典，

不过看了下百度词典，可以采集，给个参考思路。

1、做一个本地的单词库

2、php循环一条一条读取词语库

3、php采集 URL地址：百度词典网址/s？wd=单词，读取html源码php正则匹配内容。

4、数据入库。

怎么用php采集网站数据

简单的分了几个步骤：

1、确定采集目标

2、获取目标远程页面内容（curl、file_get_contents）

3、分析页面html源码，正则匹配你需要的内容（preg_match、preg_match_all），这一步最为重要，不同页面正则匹配规则不一样

4、入库

php 百度知道数据采集

问题其实不难，自己都能写。给你几个思路吧：

1.在百度知道中，输入linux，然后会出现列表。复制浏览器地址栏内容。

然后翻页，在复制地址栏内容，看看有什么不同，不同之处，就是你要循环分页的i值。

当然这个是笨方法。

2.使用php的file或者file_get_contents函数，获取链接URL的内容。

3.通过php正则表达式，获取你需要的3个字段内容。

4.写入数据库。

需要注意的是，百度知道有可能做了防抓取的功能，你刚一抓几个页面，可能会被禁止。

建议也就抓10页数据。

其实不难，你肯定写的出来。还有，网上应该有很多抓取工具，你找找看，然后将抓下来的数据

在做分析。写入数据库。

PHP 数据采集太慢

一页一页采啊，你要是想把N个网页一下子采下来，在浏览器中肯定不行，你可以用php.exe在命令行下运行你的采集脚本。如果你想在浏览器上采，你得一次采集一个页面，然后用window.location.href转向，把下一个要采集的地址传过去，这样一页一页的循环来采集。

文章名称：php在线词典数据采集 php 数据库
地址分享：http://pcwzsj.com/article/dooipep.html

平昌建站

php在线词典数据采集 php 数据库

php采集大数据的方案

在线词典数据怎么采集？请大家给个思路！参考资料(php的)。谢谢

怎么用php采集网站数据

php 百度知道数据采集

PHP 数据采集太慢

其他资讯

php在线词典数据采集 php 数据库

php采集大数据的方案

在线词典数据怎么采集？请大家给个思路！参考资料(php的)。谢谢

怎么用php采集网站数据

php 百度 知道数据采集

PHP 数据采集 太慢

其他资讯

php 百度知道数据采集

PHP 数据采集太慢