话题区粘性/行为分析系统架构

July 25th, 2010 陈毓端 comments
[文章作者:陈毓端 若转载请标注原文链接:http://www.woyuw.com/?p=824]

项目的重点从新闻/抓取的内容阅读转型到以话题为主,这使的话题区用户行为变得十分重要如用户粘性,访问路径。

用户行为分析包过系列的原始数据采集,仓储,挖掘,报表等。

本系统主要是针对用户访问路径,话题区核心功能的事件驱动分析。

用户行为分析简单的划分为2条收集路线

//主线 队列
 this.MainQuery   = function () {
  //第一次访问当前URL或者刷新 用来处理pv等看做的首次访问逻辑

}

//副线 事件驱动 队列
 this.EventQuery   = function () {
  this.Doc.onclick  =  function() {
   //驱动逻辑 用来收集用户的页面操作区域 点击等消息
  }
 }

 

Categories: 架构 Tags:

redhat 更新源 到centos

July 9th, 2010 陈毓端 comments
[文章作者:陈毓端 若转载请标注原文链接:http://www.woyuw.com/?p=818]

前两天答应一朋友给他安装两台新采购服务器的LAMP环境,晚上抽时间SSH的登录。
我也没有看服务器都安装了什么。
编译mysql时候碰到
configure: error: no acceptable C compiler found in $PATH
天哪 连GCC G++ 基本库都没装
因为是redhat 习惯的
yum install gcc g++
no
This system is not registered with RHN.
RHN support will be disabled.
提示系统未注册RHN
悲哀 伪开源的约束
只能更新源的 采用centos的源
操作步骤:
cd /etc/yum.repos.d/
vi centos.repo
[base]
name=CentOS-$releasever – Base
baseurl=http://centos.ustc.edu.cn/centos/5/os/i386/
gpgcheck=1
gpgkey=http://mirror.centos.org/centos/RPM-GPG-KEY-CentOS-5
重新安装
yum install gcc g++
Categories: linux Tags:

抽象的798

July 3rd, 2010 陈毓端 comments
[文章作者:陈毓端 若转载请标注原文链接:http://www.woyuw.com/?p=813]

早上去医院体检,回来的时候路过798。
早就听说798,可是来北京这么多年也没用去过。
798, 一个建立在老旧工厂上,标榜艺术和潮流的圣地。
在我的脑海里,也探寻着它到底是什么样的一个地方?
不明白,
什么是艺术?
我肤浅的觉的只是社会意识形态的一种渲染和映射。
进入798,
我有意的去寻找,
极力的去伪装自己的艺术底蕴,
我仔细看着,并艰难品阅着每个自我抽象的所谓艺术品。
抽象的798,
艺术也是本身就是抽象的。
很有意思,自己的职业告诉我抽象,抽出共性,抛弃非特征本质。

Categories: 生活 Tags:

FastCGI 深入学习第二步

June 28th, 2010 陈毓端 comments
[文章作者:陈毓端 若转载请标注原文链接:http://www.woyuw.com/?p=810]

FastCGI 学习第二步就看看example下的echo.c吧 看看到底是一个什么东西。

源码:

#ifndef lint
static const char rcsid[] = "$Id: echo.c,v 1.5 1999/07/28 00:29:37 roberts Exp $";
#endif /* not lint */

#include "fcgi_config.h"

#include <stdlib.h>

#ifdef HAVE_UNISTD_H
#include <unistd.h>
#endif

#ifdef _WIN32
#include <process.h>
#else
extern char **environ;
#endif

#include "fcgi_stdio.h"

static void PrintEnv(char *label, char **envp)
{
    printf("%s:<br>\n<pre>\n", label);
    for ( ; *envp != NULL; envp++) {
        printf("%s\n", *envp);
    }
    printf("</pre><p>\n");
}

int main ()
{
    char **initialEnv = environ;
    int count = 0;

    while (FCGI_Accept() >= 0) { //判断是否有请求产生
        char *contentLength = getenv("CONTENT_LENGTH");
        int len;

	printf("Content-type: text/html\r\n"
	    "\r\n"
	    "<title>FastCGI echo</title>"
	    "<h1>FastCGI echo</h1>\n"
            "Request number %d,  Process ID: %d<p>\n", ++count, getpid());

        if (contentLength != NULL) {
            len = strtol(contentLength, NULL, 10);
        }
        else {
            len = 0;
        }

        if (len <= 0) {
	    printf("No data from standard input.<p>\n");
        }
        else {
            int i, ch;

	    printf("Standard input:<br>\n<pre>\n");
            for (i = 0; i < len; i++) {
                if ((ch = getchar()) < 0) {
                    printf("Error: Not enough bytes received on standard input<p>\n");
                    break;
		}
                putchar(ch);
            }
            printf("\n</pre><p>\n");
        }

        PrintEnv("Request environment", environ);
        PrintEnv("Initial environment", initialEnv);
    } /* while */

    return 0;
}

这个demo很简单 核心代码 FCGI_Accept() 判断是否有请求产生 接下的就是写简单的业务逻辑。
Categories: c/c++/cs软件开发 Tags:

深入研究FastCGI 第一步

June 25th, 2010 陈毓端 comments
[文章作者:陈毓端 若转载请标注原文链接:http://www.woyuw.com/?p=801]

说道FastCGI 大家都觉得它比CGI的效率高 具体高在那?很多人会说CGI需要不断的fork 对系统压力大。
其实第一次接触FastCGI是在应用Nginx环境时候,今天再次理下FastCGI 到底是什么?
从官方(http://www.fastcgi.com)的About FastCGI
第一句话就告诉我们:
FastCGI is simple because it is actually CGI with only a few extensions.
FastCGI 其实是一些简单CGI的扩展
Like CGI, FastCGI is also language-independent. For instance, FastCGI provides a way to improve the performance of the thousands of Perl applications that have been written for the Web.
如CGI ,FastCGI也具备语言无关系性。例如,FastCGI 提供一种的方法来提高Prel应用程序的处理能力。
既然是简单的CGI扩展那它的优势在那呢? 难道又是所谓的“重复造车”?
再看看官方的一句重要的解释
Like CGI, FastCGI runs applications in processes isolated from the core Web server, which provides greater security than APIs. (APIs link application code into the core Web server, which means that a bug in one API-based application can corrupt another application or the core server; a malicious API-based application can, for example, steal key security secrets from another application or the core server.)
如CGI , FastCGI 独立运行于WEB服务器的核心进程。并提供大量的安全API。 后面的英文我觉得说的有点严肃。它告诉我们一个问题,FastCGI出现问题之后,以至于不会破坏WEB server的核心进程,一句话WEB server 还可以使用脱离FastCGI的应用。
简单的说就是某些核心应用的托管。 如 托管 Nginx的PHP 解析器进程。
spawn-fcgi.c的核心代码
static int fcgi_spawn_connection(char *appPath, char **appArgv, char *addr, unsigned short port, const char *unixsocket, int fork_count, int child_count, int pid_fd, int nofork);
static int find_user_group(const char *user, const char *group, uid_t *uid, gid_t *gid, const char **username);
最近真的要看看里面的代码。
Nginx的fast-cgi 源码在: src/http/modules/ngx_http_fastcgi_module.c  可以详细的研究下,再次鞭策自己。
FastCGI 的API文档:http://www.fastcgi.com/drupal/node/5
Categories: c, c/c++/cs软件开发, linux Tags:

小型vps nginx+php-cgi 内存过大应急预案

April 30th, 2010 陈毓端 comments
[文章作者:陈毓端 若转载请标注原文链接:http://www.woyuw.com/?p=783]

朋友买了台vps 内存在512M ,有时候多个cgi进程是的内存使用过大 导致502错误

除了基本的优化外 ,这里就不写了,网上一堆。

应急预案脚本

#!/bin/sh
function fastCgiRestart(){
killall -9 php-cgi
/usr/local/bin/spawn-fcgi -a 127.0.0.1 -p 9000   -u www -f /usr/local/php5/bin/php-cgi
}
function startNginx(){
/usr/local/nginx/sbin/nginx -t
}
while true
do
echo `free | awk ‘{print $3}’` | awk ‘{print $2}’ >a
usemem=`cat a`
echo `free | awk ‘{print $2}’` | awk ‘{print $2}’ >b
countmem=`cat b`
usememcache=”$usemem”
sysmemcache=”$countmem”

if [ $usememcache -gt 511111 ] ; then
fastCgiRestart
startNginx
else
echo ’sys is ok’
fi
sleep 5
done

注释:

# if [ $usememcache -gt 511111 ] ; then   表示但内存达到511111 时候重启php-cgi具体的参数可以依照内存的大小而定

总之这个《应急预案》是主动出击,保证站点的运行。


Categories: linux Tags:

gnome-terminal 错误记录

April 25th, 2010 陈毓端 comments
[文章作者:陈毓端 若转载请标注原文链接:http://www.woyuw.com/?p=779]

今天我的redhat5启动发生如下错误:在为 gnome-terminal 装入或保存配置信息时发生错误。您的某些配置设置可能不能正常工作。

打开终端:rm -rf /tmp/*

重启 ok。

Categories: linux Tags:

Android编程体验

April 9th, 2010 陈毓端 comments
[文章作者:陈毓端 若转载请标注原文链接:http://www.woyuw.com/?p=771]

Android编程体验

当今Mobile OS 虽四足鼎立, 但windows mobile 传统优势正在消失, Symbian颇显老矣, iPhone OS 秉承苹果一贯的作风高高在上,唯有Google Android还算比较优质兼平民,这点从G4就可以看出。
以前倒腾过windows mobile的编程,再看看现在的android编程真是相差蛮多的。虽然两者都是基于java编程。Android更能体现java高度配置的特性。
Android的编程环境搭建也比较容易
安装
1 android-sdk-windows
2 Eclipse + ADT

Android的编程过程比较人性化 以下是重点

重要配置

— layout 界面布局文件
Main.xml 界面核心XML配置
…… 其它更能界面配置

— values 变量定义文件夹
Strings.xml 可以理解为程序的语言包配置文件

— AndroidManifest.xml 十分重要的活动控制中枢 如对话框等活动都要向它登记 比较强势的文件

以下的我的一个例子截图

Categories: java Tags:

被肯德基第二轮秒杀

April 7th, 2010 陈毓端 comments
[文章作者:陈毓端 若转载请标注原文链接:http://www.woyuw.com/?p=762]

秒杀地点:肯德基北京安定门店
秒杀主题:肯德基中国公司于北京时间2010年4月6日发起了“超值星期二 特别秒杀”活动,有效期4月6日至4月9日。
秒杀内容: 超值星期二 热别秒杀 外带全家桶一份 原价64.00元 力减32元。
秒杀过程 :怀着对肯德基品牌的几分热度掏出优惠券,“它”说我的优惠价已经第二轮甚至第三轮了。

秒杀”一种快速而高效的制敌方式。呈几何时蜂拥互联网。
近来一些公司也看中其公关效应,大力“秒杀”消费者的热情。典型的案例是“淘宝的一元秒杀房子”。

我们“被秒杀”了

又一次“被”

肯德基说只想让秒杀“N元” 可是对肯德基品牌忠诚的中国人疯狂了

肯德基怕了

“不是怕中国人疯狂 因为他们爱我们”肯德基说

“坚持住” “沉默住” 他们会散去

于是他们坚持住了

无情的白纸写着 “中国人“ 你们已经是二轮或三轮了

我怕了 请不要再秒杀我了

“让利 超值” 一种可笑公关

可笑活动的开始 注定要秒杀消费者

可笑活动的开始 注定要秒杀企业的信用



Categories: Uncategorized Tags:

网页正文提取

April 6th, 2010 陈毓端 1 comment
[文章作者:陈毓端 若转载请标注原文链接:http://www.woyuw.com/?p=757]

网页正文提取的算法很多也很复杂 当然准确度更有不同

技术难点无非就是在正文除噪

我的实现方法是《基于相似度及密度匹配》

1 网页分块

2 标题相似度匹配

3 求网页平均长度及密度

下图是sina的一篇新闻最终页密度值及相似度波形图:

先放出demo

http://www.woyuw.com/exthtml/

准确度还有待提高

Categories: php/ajax/, 算法 Tags: