Amazon Intern Review

从2017年5月29号玩到6月1号，主要玩了LACMA（洛杉矶当代艺术馆），环球影城，星光大道（Hollywood Walk of Fame）， Griffith Observatory（格里菲斯天文台），湖人主场（STAPLES Center），Angel’s Flight，Angel’s Knoll。
略感遗憾的是没去的成The Broad，里面有个很好看的房间，要去的话提前一周多在网上订票，否则票很快就没有了。
当然在这几天吃的非常好，每顿都非常心满意足。当然主要吃 Asian Food。

Amazon Go 体验

Posted on 2017-08-13 Edited on 2023-02-20

1. 位置

店的位置在，2131 7th Ave, Seattle, WA。位于Amazon新的办公楼day 1的楼下。

2. 进店准备

目前只有Amazon的员工通过申请才能够获取资格。需要提前下一个Amazon Go的app与你的Amazon账号进行绑定。基本和教程上面一致，只需要进店刷码就行。

3. 购物体验

真的是如宣传视频上面所说，只需要拿相应的东西。然后直接出门，就会把账单和结账过程完成。一般如果你只是正常买东西，也不会随意乱放回（故意放到错误位置）之类操作。基本上目前没出现过差错。整个流程就是，你拿了你要的东西，然后直接出门。整个购物就完成了。

宣传视频

因为我们是朋友，所以你可以使用我的文字，但请注明出处：http://alwa.info

1. 介绍

推荐引擎根据不同的推荐机制可能用到数据源中的一部分，然后根据这些数据，分析出一定的规则或者直接对用户对其他物品的喜好进行预测计算。这样推荐引擎可以在用户进入的时候给他推荐他可能感兴趣的物品。

强化学习笔记

Posted on 2017-04-24 Edited on 2023-02-20

1. 介绍

强化学习强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。在运筹学和控制理论下称之为“近似动态规划”。

在机器学习中，环境通常被规范为马尔科夫决策过程（MDP）。传统技术（动态规划）不需要MDP知识，而且不乏找到确切方法。强化学习和监督学习区别又有，它不需要出现正确的输入/输出对。也不需要精确校正次优化的行为。强化学习更加专注于在线规划，需要在探索（在未知的领域）和遵从（现有知识）之间找到平衡。

模型包括：

环境状态的集合 $S$;
动作的集合 $A$;
在状态之间转换的规则；
规定转换后“即时奖励”的规则；
描述主体能够观察到什么的规则。

每一个时间$t$，主体接收到一个观测$o_t$，通常其中包含奖励$r_t$。然后，它从允许的集合中选择一个动作 $a_{t} $，然后送出到环境中去。环境则变化到一个新的状态 $s_{t+1}$，然后决定了和这个变化 $ (s_t,a_t,s_{t+1})$相关联的奖励 $ r_{t+1}$。强化学习主体的目标，是得到尽可能多的奖励。主体选择的动作是其历史的函数，它也可以选择随机的动作。

强化学习有效在两个方面：使用样本优化行为，以及使用函数来逼近复杂的环境。

Introduction to Fallacies IV 学习笔记

Posted on 2017-03-26 Edited on 2023-02-20

0. 介绍

本文是学习coursera的Introduction to Fallacies IV的课程笔记。

EM算法学习笔记

Posted on 2017-03-26 Edited on 2023-02-20

1. 介绍

EM算法推导出来只是一个似然概率，以及一个求解步骤。要有实际意义还需要联系实际模型才有意义。

Softmax推导过程

Posted on 2017-03-26 Edited on 2023-02-20

1. 介绍

Softmax其实就是logstic回归的多类版本。

Shen Huang's Blog

Amazon Intern Review

1. Life

Hiking

aws 配置 hexo 博客

1. 介绍

hexo 自动部署远程脚本

1. 介绍

洛杉矶游记

Amazon Go 体验

1. 位置

2. 进店准备

3. 购物体验

推荐系统（Recommendation System）笔记

1. 介绍

强化学习笔记

1. 介绍

Introduction to Fallacies IV 学习笔记

0. 介绍

EM算法学习笔记

1. 介绍

Softmax推导过程

1. 介绍