tags
type
status
date
slug
summary
category
password
icon
3.20 (st-gcn)Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

- Image integration:
,取样函数
,c维的特征函数
- Image→Graph
redefine fin&p&W
,定义为与节点边数≤D的节点集合。这里我们固定D=1
- st-gcn
labeling function。其中和都是针对,K是分组的组数。这样一共分为组。

第一种uniform。
第二种distance。根节点,邻居
第三种spatial configuration。所有节点的空间位置取平均为“重心”。根节点,比根节点离重心更近,否则
,(element-wise product)
(V*c’)=(V*V)(V*V)(V*V)(V*c)(c*c’)?
V=25, c=3,64,128,256
,3*9=27(对于第三种)
batchnorm→3→64^3→128^3→256^3→softmax
3.20 A scalable universal Ising machine based on interaction-centric storage and compute-in-memory
3.21 High-speed emerging memories for AI hardware accelerators
比较了各种硬件实现PIM buffer memory的路线
加速器需要两种存储:weight memory存模型权重 & buffer memory存中间结果
本文主要关注buffer memory,主要关注读写速度和寿命两个指标
- SRAM
传统实现buffer memory的方式
结构:传统6T,触发器4+MOS2
优点:访问快~ns,耐用性好>10^16 cycles,扩展性好
缺点:high stand-by leakage power
靠近运算单元的buffer需要ns级别的读写速度,但较远的global buffer对读写速度没有那么高的要求,有创新空间
- PCM/PRAM(phase change memory) & ReRAM
缺点:读写速度慢~100ns,耐用性差10^6~10^9cycles,写入耗能大>1pJ


- 2T gain cell
结构(上图左):利用寄生电容代替了传统DRAM中1T1C的C。SN(storage node)中的电荷存储信息。WWL写入信息,RWL读出信息
缺点:寄生电容必须足够大才能维持信息较长时间(~s)不变化,这样就能免去refresh的操作;漏电流大;charge-injection issue,寄生电容与WWL,RWL耦合
- FeFET & FeRAM
结构(上图右):经过掺杂的HfO2薄层具有铁电特性,用原子极性来存储信息。该种铁电材料可以替代半导体。FeRAM在FeFET的基础上加入一个MFM(metal–ferroelectric–metal)电容,WL激活后,
State ‘1’ induces a polarization switching current in addition to the discharge current of the state ‘0’.
通过BL电流的差别,我们就可以区分0和1。
缺点:‘1’的读取是destructive process,故每次读取完之后需要write-back。这使得读和写都会消耗铁电器件的寿命。目前寿命约~10^12cycles。可以通过dual-mode来优化,把经常变动的数据用类似eDRAM的方式存储
优点:?


- STT-MRAM & SOT-MRAM
结构(上图):核心是MTJ,铁电+电介质+铁电,其阻抗与两侧铁电材料极性有关。读取时,施加电压,观测电流;写入时,电流会引起铁电材料极性变化
优点:亚ns级读写速度
缺点:STT-MRAM共享read/write,SOT把两条通路分开但引入了额外的面积消耗
- 其他内容:各类memory的benchmark(prototype chips)
3.21 Resistive Memory-Based In-Memory Computing: From Device and Large-Scale Integration System Perspectives
这篇文章主要探讨了各个尺度上RRAM器件的可能应用
- 存储、运算
数据传输的瓶颈不是新出现的,几十年前数据库就已经遇到了这种问题。PIM/CIM希望为了解决数据传输的高时延和高耗能问题,其高密度在边缘计算有很大潜力,无论是边缘推理还是边缘训练(因为数据隐私问题)
有潜力的存储器:SRAM, flash memory, MRAM, racetrack memory(sequential), PCM, RRAM。除了SRAM均为非易失性nonvolatile存储器(断点数据不消失)
RRAM device:阻抗可以被外加电压/电流改变。SET将其变成高阻态,RESET将其变成低阻态。有双态、多态、模拟等多种类别
2012年Hu第一次提出基于基尔霍夫定律电流相加,用RRAM进行VMM矩阵向量乘
PIM不支持outer product。目前难以完全在PIM中进行反向传播。RRAM一般与数字电路配合,数字电路可以方便实现pooling、activation等操作
能不能支持outer product?
能不能抛弃反向传播设计学习算法?
- 非线性和随机性
在spiking neural network中,可能通过SET作为激活函数(RRAM synapse)
As an alternate to train RRAM synapse, hyperdimensional (HD) computing eases the computation complexity and enhan ces training efficiency with interpretability
用于震荡电路:
That is,the induced current decreases as the applied voltage increases. This uncommon nonlinearity has been leveraged in developing a relaxation oscillation circuit.
Mott忆阻器有内在伪随机性,可以帮助跳出局部最优解
- 架构

- 器件性能(2019)

3.27 In-memory hyperdimensional computing
inspiration:生物神经网络,牺牲准确度换效率
advantage:
- HDC对个别的bit错误不敏感
- 只需要少量的样本
用来适配NISQ?
像zcs的AGI线路
- Hypervector
HDC全程基于d(>1000)维的hypervectors超维向量,每一个位置独立同分布,等概率0/1
这些向量伪正交quasi-orthogonal,因为
因此我们可以随机生成h个向量作为基底(fixed in the process),h为symbol的个数
这些基向量(h*d)组成Item Memory(IM)
对于任何一个系统,怎么确定symbols是哪些?信息熵?PCA?
怎么快速生成这些(伪)随机的向量?
如果分量不是简单01,是否还能满足伪正交性?有何优势?
- Operators
- addition/bundle
component-wise majority看每一位0多还是1多
- multiply
按位XNOR
- permutation
对下标的伪随机重排
QM排列算符?
- Encoding(prototype vectors)
训练数据有n个symbols,经过encoder生成对应的prototype vector,表示该训练数据
其中s表示symbol,B表示与symbol对应的basis,为XNOR
假设训练数据有c个类别,则经此过程生成c*d向量,称为associative memory(AM)
c很大怎么办?会不会存不下?
- Query
同上encode成Q,与AM中向量计算Hamming距进行分类
- PIM
IM(h*d)和AM(c*d)分别存在两个RRAM阵列上,每一行存一个向量。第一个RRAM相当于一个encoder
PIM实现,CMOS实现+,。
能不能全部用PIM实现?

本工作用PCM实现RRAM
实现时,由于向量中01个数相似,可以作如下简化
- 作者:XiaoTianyao
- 链接:https://www.xty27.top/article/papers
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。