如何合理地设计数据表?MySQL数据表设计原则
一、合理的存储引擎
在一个成熟完善且庞大的业务等系统中,数据表中的存储引擎可由多种存储引擎组成,比如有的表是MyISAM,有的表是InnoDB或其他,这也从侧面反映出不同引擎所应用的场景是有不同的
那该如何选择?先了解以下MySQL存储引擎的特点
1、MyISAM(5.1以及之前版本的默认引擎):
- 不支持行锁,读取时对需要读到的所有表加锁,写入时则对表加排它锁
- 不支持事务
- 不支持外键
- 不支持崩溃后的安全恢复
- 支持全文索引
- 支持延迟更新索引,极大提升写入性能
- 对于不会进行修改的表,支持压缩表,极大减少磁盘空间占用
2、InnoDB(5.5以及以上版本的默认引擎):
- 支持行锁,采用MVCC来支持高并发
- 支持事务
- 支持外键
- 支持崩溃后的安全恢复
- 不支持全文索引
总结:如果系统读多,写少,对原子性要求低,选择MyISAM;如果系统读少,写、更新多的时候,尤其是并发写入高的时候,选择InnoDB
二、合理设计表结构
1、范式设计,消除冗余
- 数据库范式是确保数据库结构合理,满足各种查询需要、避免数据库操作异常的数据库设计方式。满足范式要求的表,称为规范化表,范式产生于20世纪70年代初,一般表设计满足前三范式就可以,在这里简单介绍一下前三范式
第一范式:属性(字段)的原子性约束,要求属性具有原子性,不可再分割;
第二范式:记录的惟一性约束,要求记录有惟一标识,每条记录需要有一个属性来做为实体的唯一标识。
第三范式:属性(字段)冗余性的约束,即任何字段不能由其他字段派生出来,在通俗点就是:主键没有直接关系的数据列必须消除(消除的办法就是再创建一个表来存放他们,当然外键除外)
如果数据库设计达到了完全的标准化,则把所有的表通过关键字连接在一起时,不会出现任何数据的复本(repetition)。
标准化的优点是明显的,它避免了数据冗余,自然就节省了空间,也对数据的一致性(consistency)提供了根本的保障,
杜绝了数据不一致的现象,同时也提高了效率
2、反范式设计,适当冗余
数据库设计的实用原则是:在数据冗余和处理速度之间找到合适的平衡点 满足范式的表一定是规范化的表,但不一定是最佳的设计。
很多情况下会为了提高数据库的运行效率,常常需要降低范式标 准:适当增加冗余,达到以空间换时间的目的。
比如我们有一个表,产品名称,单价,库存量,总价值。这个表是不满足第三范式的,因为“总价值”可以由“单价”乘以“数量”得到,说明“金额”是冗余字段。但是,增加“总价值”这个冗余字段,可以提高查询统计的速度,这就是以空间换时间的作法。
合理的冗余可以分散数据量大的表的并发压力,也可以加快特殊查询的速度,冗余字段可以有效减少
数据库表的连接,提高效率。
三、主键
主键:根据第二范式,需要有一个字段去标识这条记录,主键无疑是最好的标识,需要满足唯一性、非空性,但是很多表也不一定需要主键,但是对于数据量大,查询频繁的数据库表,一定要有主键,主键可以增加效率、防止重复等优点。
主键的选择也比较重要,一般选择长度小的键,小的键的比较速度快,同时小的键可以使主键的B树结构的层次更少。
主键的选择还要注意组合主键的字段次序,对于组合主键来说,不同的字段次序的主键的性能差别可能会很大,一般应该选择重复率低、单独或者组合查询可能性大的字段放在前面。
四、选择合理的数据类型
更小的数据类型通常更好
更小的数据类型通常更快,因为它们占用更少的磁盘、 内存和CPU缓存, 并且处理时需要的CPU周期也更少
简单的数据类型更好
简单数据类型的操作通常需要更少的CPU周期。 例如, 整型比字符操作代价更低, 因为字符集和校对规则(排序规则 )使字符比较比整型比较更复杂。
尽量避免NULL
如果查询中包含可为NULL 的列, 对MySQL来说更难优化, 因为可为NULL 的列使得索引、 索引统计和值比较都更复杂。 可为NULL的列会使用更多的存储空间, 在MySQL里也需要特殊处理。 当可为NULL的列被索引时, 每个索引记录需要一个额外的字节, 在MyISAM里甚至还可能导致固定大小的索引(例如只有一个整数列的索引)变成可变大小的索引。当然也有例外, 例如InnoDB 使用单独的位 (bit) 存储NULL值, 所以对于稀疏数据有很好的空间效率。
数据类型尽量用数字型,数字型的比较比字符型的快很多
整数类型:
有两种类型的数字:整数 (whole number) 和实数 (real number) 。 如果存储整数, 可以使用这几种整数类型:TINYINT, SMALLINT, MEDIUMINT, INT, BIGINT。分别使用8,16, 24, 32, 64位存储空间。
整数类型有可选的 UNSIGNED属性,表示不允许负值,这大致可以使正数的上限提高一倍。
有符号和无符号类型使用相同的存储空间,并具有相同的性能, 因此可以根据实际情况选择合适的类型。
MySQL 可以为整数类型指定宽度, 例如 INT(11), 对大多数应用这是没有意义的:它不会限制值的合法范围,只是规定了MySQL 的一些交互工具(例如 MySQL 命令行客户端)用来显示字符的个数。 对于存储和计算来说, INT(1) 和 INT(20) 是相同的。
int(5)类型,长度5大多数没什么意义,不会限制值的合法范围,只有该字段使用UNSIGNED ZEROFILL属性时才起作用,具体表现为:
当该字段填入的值是1时,将在1的前面补4个0,即最终填入00001,如果填入的值是11111,最终填入的是11111位置不变。
实数类型:
实数是带有小数部分的数字。 然而, 它们不只是为了存储小数部分,也可以使用DECIMAL 存储比 BIGINT 还大的整数。
FLOAT和DOUBLE类型支持使用标准的浮点运算进行近似计算。
DECIMAL类型用于存储精确的小数。
浮点和DECIMAL类型都可以指定精度。 对于DECIMAL列, 可以指定小数点前后所允许的最大位数。这会影响列的空间消耗。
有多种方法可以指定浮点列所需要的精度, 这会使得MySQL选择不同的数据类型,或者在存储时对值进行取舍。 这些精度定义是非标准的,所以我们建议只指定数据类型,不指定精度。
浮点类型在存储同样范围的值时, 通常比DECIMAL使用更少的空间。FLOAT使用4个字节存储。DOUBLE占用8个字节,相比FLOAT有更高的精度和更大的范围。和整数类型一样, 能选择的只是存储类型; MySQL使用DOUBLE作为内部浮点计算的类型。
因为需要额外的空间和计算开销,所以应该尽量只在对小数进行精确计算时才使用DECIMAL。但在数据最比较大的时候, 可以考虑使用BIGINT代替DECIMAL, 将需要存储的货币单位根据小数的位数乘以相应的倍数即可。
字符串类型:
VARCHAR用于存储可变⻓字符串,长度支持到65535,需要使用1或2个额外字节记录字符串的长度,适合:字符串的最大⻓度比平均⻓度⼤很多;更新很少
CHAR:定⻓,⻓度范围是1~255,适合:存储很短的字符串,或者所有值接近同一个长度;经常变更
使用VARCHAR(5)和VARCHAR(200)存储'hello'的空间开销是一样的。 那么使用更短的列有什么优势吗?
事实证明有很大的优势。 更长的列会消耗更多的内存, 因为MySQL通常会分配固定大小的内存块来保存内部值。 尤其是使用内存临时表进行排序或操作时会特别糟糕。 在利用磁盘临时表进行排序时也同样糟糕。
所以最好的策略是只分配真正需要的空间。
- BLOB和TEXT类型:
BLOB和 TEXT都是为存储很大的数据而设计的字符串数据类型, 分别采用二进制和字符方式存储 。
与其他类型不同, MySQL把每个BLOB和TEXT值当作一个独立的对象处理。存储引擎在存储时通常会做特殊处理。 当BLOB和TEXT值太大时,InnoDB会使用专门的 “外部“存储区域来进行存储, 此时每个值在行内需要1 - 4个字节存储 存储区域存储实际的值。
BLOB 和 TEXT 之间仅有的不同是 BLOB 类型存储的是二进制数据, 没有排序规则或字符集, 而TEXT类型有字符集和排序规则
- 日期和时间类型:
尽量使用TIMESTAMP类型, 因为其存储空间只需要 DATETIME 类型的一半。对于只需要精确到某一天的数据类型,建议使用DATE类型,因为他的存储空间只需要3个字节,比TIMESTAMP还少。不建议通过INT类型类存储一个unix timestamp 的值,因为这太不直观,会给维护带来不必要的麻烦,同时还不会带来任何好处。
- 其他类型:
1、选择标识符
在可以满足值的范围的需求, 井且预留未来增长空间的前提下, 应该选择最小的数据类型。
- 整数类型
整数通常是标识列最好的选择, 因为它们很快并且可以使用AUTO_INCREMENT。
- ENUM和SET类型
对于标识列来说,EMUM和SET类型通常是一个糟糕的选择, 尽管对某些只包含固定状态或者类型的静态 ”定义表” 来说可能是没有问题的。ENUM和SET列适合存储固定信息, 例如有序的状态、 产品类型、 人的性别。
- 字符串类型
如果可能, 应该避免使用字符串类型作为标识列, 因为它们很消耗空间, 并且通常比数字类型慢。
对于完全 “随机” 的字符串也需要多加注意, 例如 MDS() 、 SHAl() 或者 UUID() 产生的字符串。 这些函数生成的新值会任意分布在很大的空间内, 这会导致 INSERT 以及一些SELECT语句变得很慢。如果存储 UUID 值, 则应该移除 "-"符号。
2、特殊类型数据
某些类型的数据井不直接与内置类型一致。 低千秒级精度的时间戳就是一个例子,另一个例子是以个1Pv4地址,人们经常使用VARCHAR(15)列来存储IP地址,然而, 它们实际上是32位无符号整数, 不是字符串。用小数点将地址分成四段的表示方法只是为了让人们阅读容易。所以应该用无符号整数存储IP地址。MySQL提供INET_ATON()和INET_NTOA()函数在这两种表示方法之间转换。
五、建立索引
索引是一个表优化的重要指标,在表优化中占有极其重要的成分
六、添加表注释
为表补充注释说明,添加字段注释说明。合理的表不仅体现在开发过程中数据库性能效率上的提升,也体现在后期运维、维护的效率方面。如果设计出来的表只有自己能看懂,别人看不懂,后期维护的难度是非常大的。