用Python实现CRUD功能REST服务

最近内部需要实现一个新的HTTP REST服务,数据用JSON。打算用Python来做一个原型,用于比较和Java实现方案的具体差异,以前也没有Python实战经验,所以摸索过程如下。

首先定义协议,假定我们要实现一个群组成员管理的服务
添加成员:
POST http://server/group-user/<group-id>
users=[1,2,3…]

删除成员:
DELETE http://server/group-user/<group-id>
users=[1,2,3…]

获取成员:
GET http://server/group-user/<group-id>

评估了几个python web框架之后,包括django, selector, CherryPy等。
Django安装和看了一些文档之后觉得它类似ruby on rails, 是一个快速的MVC/ORM的框架,相对于一个轻量级的REST服务来说不太适合。
selector文档太少,使用也感觉比较繁琐。
网上相关的讨论也比较少,可能目前REST方式还没大规模应用。正在比较迷茫的时候,看到了web.py的介绍,试用了一下之后,发现是碰到最适合目前需求的,使用也最简单。POST,GET,DELETE,PUT只需要在相应的function实现即可。另外还带了db,form,http等常用的web应用所需的类。

主要源代码:

class group_user:
    def __init__(self):
        pass
    def GET(self, gid):
        db = web.database(dbn='mysql', user='user', pw='pass', db='db', host="localhost")
        users = db.query('SELECT * FROM groupuser WHERE groupid=$gid', \
            vars={'gid':gid})
        output = StringIO.StringIO()
        output.write("[")
        count = 0
        for u in users:
            if count > 0:
                output.write(',')
            output.write('["uid":%d,"nickname":%s]' % \
                (u['uid'], json.dumps(u['nick'], True, False))
            count += 1
        output.write("]")
        str = output.getvalue()
        return str
    def POST(self, gid):
        data = web.data()
        result = urlparse.parse_qs(data)
        uid = result['uid'][0]
        add_count = 0
        list = json.loads(result['users'][0])
        for u in list:
            add_count += self.add_user(gid, u[0])
        return add_count
    def DELETE(self, gid):
        data = web.data()
        result = urlparse.parse_qs(data)
        uid = result['uid'][0]
        del_count = 0
        list = json.loads(result['users'][0])
        for u in list:
            uid = u[0]
            self.del_user(uid)
            del_count += 1
        return del_coun

几点感想:

  1. 原型所需要的功能很精简,开发效率比Java稍快,Java的代码长度可能会是这个1-2倍之间,但是针对这种纯业务逻辑的代码,Python的优势也不是非常明显,一个熟练的Java程序员可以很快完成这个功能。
  2. 性能。测试环境下每秒只能执行40-50次,如果用Java实现的话可以轻松上千次。如果性能问题不能调优,可能Python实现的这个功能也只能用来验证原型,没法用在生产环境。
  3. 数据库连接是每个function内部都执行一次连接,从Java的角度来看比较低效。
  4. Python 2.6之上自带JSON支持,无须另外寻找JSON库,比较方便。
  5. Python Web框架通过一个WSGI的规范来定义,类似Java的Servlet的规范。
  6. Python的代码强制嵌入的方式看起来比Java更优雅,除了class function定义中要带一个self参数比较怪异。

参考文档
http://jhcore.com/2008/09/20/getting-restful-with-webpy/

使用Google App Engine写的农历日历

我的手机没有农历日历,想搜索一个WAP版的方便随时查看,但是一直以来都没看到合适的。刚好搜索到一个免费的python源代码。于是就把它移植和改造了一下,使它可以运行在 Google App Engine的环境,并增加了 Web 交互功能。Google App Engine以前也没正式用过,对一个没写过Python程序的眼光看来,感觉还是比较容易使用。

开发及改造过程

先花了几分钟看了文档中的 Hello World并跑起来,将找到的Python的农历代码替换了 Hello World 原来的程序,未料却碰到中文问题报错:

<type ‘exceptions.UnicodeEncodeError’>: ‘ascii’ codec can’t encode characters in position 1-2: ordinal not in range(128)

问了一下arbow, 发现将 u”中文” 改成 “中文”就搞定,原来是自己过度优化。然后把原来程序中的 print 改成了 IoString.write, 方便 response 输出。并增加向前和向后翻页功能,每一页是一月。App Engine 中的request, response 类似JSP中的request, response,所以很容易理解。

在本地调试通过,上传到服务器。用手机访问,OK

源码

# coding=utf-8
# Chinese Calendar for App Engine
# author Tim: iso1600 (at) gmail (dot) com, the Chinese calendar code searched from Internet.
from google.appengine.api import users
from google.appengine.ext import webapp
from google.appengine.ext.webapp.util import run_wsgi_app

g_lunar_month_day = [
    0x4ae0, 0xa570, 0x5268, 0xd260, 0xd950, 0x6aa8, 0x56a0, 0x9ad0, 0x4ae8, 0x4ae0,   #1910
    0xa4d8, 0xa4d0, 0xd250, 0xd548, 0xb550, 0x56a0, 0x96d0, 0x95b0, 0x49b8, 0x49b0,   #1920
    0xa4b0, 0xb258, 0x6a50, 0x6d40, 0xada8, 0x2b60, 0x9570, 0x4978, 0x4970, 0x64b0,   #1930
    0xd4a0, 0xea50, 0x6d48, 0x5ad0, 0x2b60, 0x9370, 0x92e0, 0xc968, 0xc950, 0xd4a0,   #1940
    0xda50, 0xb550, 0x56a0, 0xaad8, 0x25d0, 0x92d0, 0xc958, 0xa950, 0xb4a8, 0x6ca0,   #1950
    0xb550, 0x55a8, 0x4da0, 0xa5b0, 0x52b8, 0x52b0, 0xa950, 0xe950, 0x6aa0, 0xad50,   #1960
    0xab50, 0x4b60, 0xa570, 0xa570, 0x5260, 0xe930, 0xd950, 0x5aa8, 0x56a0, 0x96d0,   #1970
    0x4ae8, 0x4ad0, 0xa4d0, 0xd268, 0xd250, 0xd528, 0xb540, 0xb6a0, 0x96d0, 0x95b0,   #1980
    0x49b0, 0xa4b8, 0xa4b0, 0xb258, 0x6a50, 0x6d40, 0xada0, 0xab60, 0x9370, 0x4978,   #1990
    0x4970, 0x64b0, 0x6a50, 0xea50, 0x6b28, 0x5ac0, 0xab60, 0x9368, 0x92e0, 0xc960,   #2000
    0xd4a8, 0xd4a0, 0xda50, 0x5aa8, 0x56a0, 0xaad8, 0x25d0, 0x92d0, 0xc958, 0xa950,   #2010
    0xb4a0, 0xb550, 0xb550, 0x55a8, 0x4ba0, 0xa5b0, 0x52b8, 0x52b0, 0xa930, 0x74a8,   #2020
    0x6aa0, 0xad50, 0x4da8, 0x4b60, 0x9570, 0xa4e0, 0xd260, 0xe930, 0xd530, 0x5aa0,   #2030
    0x6b50, 0x96d0, 0x4ae8, 0x4ad0, 0xa4d0, 0xd258, 0xd250, 0xd520, 0xdaa0, 0xb5a0,   #2040
    0x56d0, 0x4ad8, 0x49b0, 0xa4b8, 0xa4b0, 0xaa50, 0xb528, 0x6d20, 0xada0, 0x55b0,   #2050
]

g_lunar_month = [
    0x00, 0x50, 0x04, 0x00, 0x20,   #1910
    0x60, 0x05, 0x00, 0x20, 0x70,   #1920
    0x05, 0x00, 0x40, 0x02, 0x06,   #1930
    0x00, 0x50, 0x03, 0x07, 0x00,   #1940
    0x60, 0x04, 0x00, 0x20, 0x70,   #1950
    0x05, 0x00, 0x30, 0x80, 0x06,   #1960
    0x00, 0x40, 0x03, 0x07, 0x00,   #1970
    0x50, 0x04, 0x08, 0x00, 0x60,   #1980
    0x04, 0x0a, 0x00, 0x60, 0x05,   #1990
    0x00, 0x30, 0x80, 0x05, 0x00,   #2000
    0x40, 0x02, 0x07, 0x00, 0x50,   #2010
    0x04, 0x09, 0x00, 0x60, 0x04,   #2020
    0x00, 0x20, 0x60, 0x05, 0x00,   #2030
    0x30, 0xb0, 0x06, 0x00, 0x50,   #2040
    0x02, 0x07, 0x00, 0x50, 0x03    #2050
]

#==================================================================================

from datetime import date, datetime
from calendar import Calendar as Cal

START_YEAR = 1901

def is_leap_year(tm):
    y = tm.year
    return (not (y % 4)) and (y % 100) or (not (y % 400))

def show_month(tm, out):
    (ly, lm, ld) = get_ludar_date(tm)
    out.write('\r\n')
    out.write("%d年%d月%d日" % (tm.year, tm.month, tm.day))
    out.write(" " + week_str(tm))
    out.write("|农历:" + y_lunar(ly) + m_lunar(lm) + d_lunar(ld))
    out.write('\r\n')
    out.write("日|一|二|三|四|五|六\r\n")

    c = Cal()
    ds = [d for d in c.itermonthdays(tm.year, tm.month)]
    count = 0
    for d in ds:
        count += 1
        if d == 0:
            out.write("| ")
            continue

        (ly, lm, ld) = get_ludar_date(datetime(tm.year, tm.month, d))
        if count % 7 == 0:
            out.write('\r\n')

        d_str = str(d)
        if d == tm.day:
            d_str = "*" + d_str
        out.write(d_str + d_lunar(ld) + "|")
    out.write('\r\n')

def this_month(out):
    show_month(datetime.now(), out)

def week_str(tm):
    a = '星期一 星期二 星期三 星期四 星期五 星期六 星期日'.split()
    return a[tm.weekday()]

def d_lunar(ld):
    a = '初一 初二 初三 初四 初五 初六 初七 初八 初九 初十\
         十一 十二 十三 十四 十五 十六 十七 十八 十九 廿十\
         廿一 廿二 廿三 廿四 廿五 廿六 廿七 廿八 廿九 三十'.split()
    return a[ld - 1]

def m_lunar(lm):
    a = '正月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月'.split()
    return a[lm - 1]

def y_lunar(ly):
    y = ly
    tg = '甲 乙 丙 丁 戊 己 庚 辛 壬 癸'.split()
    dz = '子 丑 寅 卯 辰 巳 午 未 申 酉 戌 亥'.split()
    sx = '鼠 牛 虎 免 龙 蛇 马 羊 猴 鸡 狗 猪'.split()
    return tg[(y - 4) % 10] + dz[(y - 4) % 12] + ' ' + sx[(y - 4) % 12] + '年'

def date_diff(tm):
    return (tm - datetime(1901, 1, 1)).days

def get_leap_month(lunar_year):
    flag = g_lunar_month[(lunar_year - START_YEAR) / 2]
    if (lunar_year - START_YEAR) % 2:
        return flag & 0x0f
    else:
        return flag >> 4

def lunar_month_days(lunar_year, lunar_month):
    if (lunar_year < START_YEAR):
        return 30

    high, low = 0, 29
    iBit = 16 - lunar_month;

    if (lunar_month > get_leap_month(lunar_year) and get_leap_month(lunar_year)):
        iBit -= 1

    if (g_lunar_month_day[lunar_year - START_YEAR] & (1 << iBit)):
        low += 1

    if (lunar_month == get_leap_month(lunar_year)):
        if (g_lunar_month_day[lunar_year - START_YEAR] & (1 << (iBit -1))):
             high = 30
        else:
             high = 29

    return (high, low)

def lunar_year_days(year):
    days = 0
    for i in range(1, 13):
        (high, low) = lunar_month_days(year, i)
        days += high
        days += low
    return days

def get_ludar_date(tm):
    span_days = date_diff(tm)

    if (span_days <49):
        year = START_YEAR - 1
        if (span_days <19):
          month = 11;
          day = 11 + span_days
        else:
            month = 12;
            day = span_days - 18
        return (year, month, day)

    span_days -= 49
    year, month, day = START_YEAR, 1, 1
    tmp = lunar_year_days(year)
    while span_days >= tmp:
        span_days -= tmp
        year += 1
        tmp = lunar_year_days(year)

    (foo, tmp) = lunar_month_days(year, month)
    while span_days >= tmp:
        span_days -= tmp
        if (month == get_leap_month(year)):
            (tmp, foo) = lunar_month_days(year, month)
            if (span_days < tmp):
                return (0, 0, 0)
            span_days -= tmp
        month += 1
        (foo, tmp) = lunar_month_days(year, month)

    day += span_days
    return (year, month, day)

from datetime import date, timedelta
class MainPage(webapp.RequestHandler):
  def get(self):
    fontsize = 1
    pc = False
    if self.request.headers['User-Agent'].find("MSIE") >= 0:
      pc = True
    elif self.request.headers['User-Agent'].find("Firefox") >= 0:
      pc = True
    if pc:
      fontsize = 2
    mon = int(self.request.get("mon", default_value='0'))
    nm = datetime.now()
    out = self.response.out
    if mon != 0:
      dt = datetime.now()
      mo = dt.month
      yr = dt.year
      nm = datetime(yr, mo, 1) + timedelta(days=31) * mon
      nm = datetime(nm.year, nm.month, 1)
    if pc == False:
      self.response.headers['Content-Type'] = 'application/xhtml+xml; charaset=UTF8'

    out.write("""<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//WAPFORUM//DTD XHTML Mobile 1.0//EN" "http://www.wapforum.org/DTD/xhtml-mobile10.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<title>WAP/Mobile/Web农历</title>
</head>
<body>
<h3>WAP/Mobile/Web农历</h3>
<div style="font-size:%dex; line-height:2ex;">
<a href="/nongli?mon=%d">上一月</a>
<a href="/nongli?mon=%d">下一月</a>
<a href="/">Tim's App Engine</a>
</div>
<pre style="font-size:%dex; line-height:2ex;">""" % (fontsize, mon - 1, mon + 1, fontsize))
    show_month(nm, out)
    self.response.out.write("</pre></body></html>")

application = webapp.WSGIApplication(
                                     [('/nongli', MainPage), ('/nongli', MainPage)],
                                     debug=True)
def main():
  run_wsgi_app(application)

if __name__ == "__main__":
  main()

访问地址

WAP/Mobile/WEB农历

另外排版有点乱,因为为了适应手机的屏幕,所以把空格都去掉了。下一步考虑用个TABLE套进去,这样界面会更整洁一些。

Java垃圾回收调优

在Java中,通常通讯类型的服务器对GC(Garbage Collection)比较敏感。通常通讯服务器每秒需要处理大量进出的数据包,需要解析,分解成不同的业务逻辑对象并做相关的业务处理,这样会导致大量的临时对象被创建和回收。同时服务器如果需要同时保存用户状态的话,又会产生很多永久的对象,比如用户session。业务越复杂的应用往往用户session包含的引用对象就越多。这样在极端情况下会发生两件事情,long gc pause time 或 out of memory。

一,要解决long pause time首先要了解JVM中heap的结构

java gc heap

java gc heap

  • Java Heap为什么要分成几个不同的代(generation)? 由于80%-98%的对象的生存周期很短,大部分新对象存放在young generation可以很高效的回收,避免遍历所有对象。
  • young与old中内存分配的算法完全不同。young generation中由于存活的很少,要mark, sweep 然后再 compact 剩余的对象比较耗时,干脆把 live object copy 到另外一个空间更高效。old generation完全相反,里面的 live object 变化较少。因此采用 mark-sweep-compact更合适。

二,Java中四种垃圾回收算法

Java中有四种不同的回收算法,对应的启动参数为
–XX:+UseSerialGC
–XX:+UseParallelGC
–XX:+UseParallelOldGC
–XX:+UseConcMarkSweepGC

1. Serial Collector
大部分平台或者强制 java -client 默认会使用这种。
young generation算法 = serial
old generation算法 = serial (mark-sweep-compact)
这种方法的缺点很明显,stop-the-world, 速度慢。服务器应用不推荐使用。

2. Parallel Collector
在linux x64上默认是这种,其他平台要加 java -server 参数才会默认选用这种。
young = parallel,多个thread同时copy
old = mark-sweep-compact = 1
优点:新生代回收更快。因为系统大部分时间做的gc都是新生代的,这样提高了throughput(cpu用于非gc时间)
缺点:当运行在8G/16G server上old generation live object太多时候pause time过长

3. Parallel Compact Collector (ParallelOld)
young = parallel = 2
old = parallel,分成多个独立的单元,如果单元中live object少则回收,多则跳过
优点:old old generation上性能较 parallel 方式有提高
缺点:大部分server系统old generation内存占用会达到60%-80%, 没有那么多理想的单元live object很少方便迅速回收,同时compact方面开销比起parallel并没明显减少。

4. Concurent Mark-Sweep(CMS) Collector
young generation = parallel collector = 2
old = cms
同时不做 compact 操作。
优点:pause time会降低, pause敏感但CPU有空闲的场景需要建议使用策略4.
缺点:cpu占用过多,cpu密集型服务器不适合。另外碎片太多,每个object的存储都要通过链表连续跳n个地方,空间浪费问题也会增大。

几条经验:
1. java -server
2. 设置Xms=Xmx=3/4物理内存
3. 如果是CPU密集型服务器,使用–XX:+UseParallelOldGC, 否则–XX:+UseConcMarkSweepGC
4. 新生代,Parallel/ParallelOld可设大于Xmx1/4,CMS可设小,小于Xmx1/4
5. 优化程序,特别是每个用户的session中的集合类等。我们的一个模块中session中曾经为每个用户使用了一个ConcurrentHashMap, 里面通常只有几条记录,后来改成数组之后,每台机大概节约了1~2G内存。

不过总的说来,Java的GC算法感觉是业界最成熟的,目前很多其他语言或者框架也都支持GC了,但大多数都是只达到Java Serial gc这种层面,甚至分generation都未考虑。JDK7里面针对CMS又进行了一种改进,会采用一种G1(Garbage-First Garbage Collection)的算法。实际上Garbage-First paper(PDF) 2004年已经出来了,相信到JDK7已经可以用于严格生产环境,有时间也会进一步介绍一下G1。
另外在今年的Sun Tech Days上Joey Shen讲的Improving Java Performance(PDF)也是一个很好的Java GC调优的入门教程。