107年學測研究試卷-卷(一) 一、 史蒂芬.史匹柏導演過一部科幻電影《A.I.人工智慧》,敘述亨利夫妻因兒子患絕症不 在身邊,所以亨利把會愛人的機器男孩大衛帶回家,讓大衛代替兒子,撫慰並陪伴自己的 妻子。 張系國在科幻小說《超人列傳》中則反諷的描述高智慧的「人工腦」經過教育後,所 具備的理性思維與能力遠遠超越人類,於是「人工腦」必須消滅「平凡」的人類,取而代 之,以完成其進化的終極目標。 科幻電影與小說所展現的人工智慧時代,現在已經開啟。牛津大學的研究報告表明未 來 70%的工作將有可能被機器所取代,如智能駕駛、醫療診斷、金融交易等,而近幾年人 工智慧已能部分模擬大腦認知、思考和決策的過程,2016 年 3 月在首爾圍棋大賽中以 4 :1 大勝世界高手李世乭的 AlphaGo 即是一例。 著名的物理學家霍金說過:「對人工智慧來說,短期的問題是誰來掌控它,長期的問 題是它能否被掌控」、「人工智慧的完全發展,可能會招致人類的滅絕」。哥倫比亞大學 教授霍德力普森(Hod Lipson)則指出,技術的利弊掌握在人類自己手裡:「人工智慧與機 器人的結合可能是危險的,但這並不會毀滅人類。相反的,我認為我們能夠使強大的技術 變為有利的東西」。 究竟人工智慧時代的來臨會為人類社會帶來什麼樣的改變?造成什麼樣的影響?人 類又應如何面對這個新的情勢?請以「我對人工智慧的看法」為題,寫一篇文章,闡述你 的見解。 一、 史蒂芬.史匹柏導演過一部科幻電影《A.I.人工智慧》,敘述亨利夫妻因兒子患絕症不 在身邊,所以亨利把會愛人的機器男孩大衛帶回家,讓大衛代替兒子,撫慰並陪伴自己的 妻子。 張系國在科幻小說《超人列傳》中則反諷的描述高智慧的「人工腦」經過教育後,所 具備的理性思維與能力遠遠超越人類,於是「人工腦」必須消滅「平凡」的人類,取而代 之,以完成其進化的終極目標。 科幻電影與小說所展現的人工智慧時代,現在已經開啟。牛津大學的研究報告表明未 來 70%的工作將有可能被機器所取代,如智能駕駛、醫療診斷、金融交易等,而近幾年人 工智慧已能部分模擬大腦認知、思考和決策的過程,2016 年 3 月在首爾圍棋大賽中以 4 :1 大勝世界高手李世乭的 AlphaGo 即是一例。 著名的物理學家霍金說過:「對人工智慧來說,短期的問題是誰來掌控它,長期的問 題是它能否被掌控」、「人工智慧的完全發展,可能會招致人類的滅絕」。哥倫比亞大學 教授霍德力普森(Hod Lipson)則指出,技術的利弊掌握在人類自己手裡:「人工智慧與機 器人的結合可能是危險的,但這並不會毀滅人類。相反的,我認為我們能夠使強大的技術 變為有利的東西」。 究竟人工智慧時代的來臨會為人類社會帶來什麼樣的改變?造成什麼樣的影響?人 類又應如何面對這個新的情勢?請以「我對人工智慧的看法」為題,寫一篇文章,闡述你的見解。 想知道更多如何加強學測寫作的相關資訊,請點擊:https://www.chenti-chinese.com/ 人工智慧是一個人類創作出來的產物。它透過人類所設定的邏輯系統中做中學,靠著大量數據判斷,能不斷的自我升級。它無法感性思考,但定性思考勝於人類。它可以處裡封閉、抽象的問題、單純的環境;但無法面對複雜、開放式的問題、人際互動的環境。 未來一定是處處充斥著人工智慧的時代,沒有直接相關,也有間接影響。未來起床時,鬧鐘除了報時還可以量體溫、測血壓,判斷身心狀況。門不用鎖,只要透過人臉辨識便可自動開門,也不必講「芝麻開門」的通關密語。看醫生時,醫生變成機器人的秘書,變成機器人與病患溝通的橋樑。只要有人就有機器人,人工智慧成為人類生活的一部分。 雖然不管怎樣想都覺得很不可思議,但它確實已漸漸融入人類生活中。有了人工智慧,這個新世界是方便、快速、有效率的。機器人透過大量數據演算,能準確判斷下一步行動。但是它的思考方向單純,專門處理封閉、抽象問題,雖是類人智慧,卻無法百分之百複製人類。人工智慧和人類最大的差別就是它沒有愛,沒有情緒,它無法理解複雜的情緒變化。牛津大學的研究報告表明未來將有70%的工作將會被人工智慧取代。人類應想辦法把最珍貴且不會被取代的東西保存住—愛。我們應好好地培養我們的人際關係,好好發揮愛的力量珍惜彼此。因為這是最珍稀、最不會被取代的。 未來的新世界會不斷的改變,我們應跨領域學習,同時俱備各種不同的能力才能防止被時代沖刷掉。溝通的能力也非常的重要。在這之中包括與機器和與人溝通的能力。多去學學程式語言,未來才懂得與機器人合作;多學幾種語言,科技的進步使四海成為一家、世界變平的,我們要和全世界的人交流才會不斷的進步。再來就是不斷的學習新知。活到老學到老不再是專有名詞,而是生活常態,持續自我更新才能應對這快速變化的新世界。 人工智慧的時代已來臨,我們無法逃避只能面對。不如現在提早準備,成為新世界底下不會被取代的新人類。 蔡文妮(高中學測) 你能明白「語文力」與「文學力」等等各種文字表達的特性嗎?你分得出來嗎?語文與文學大體上的文字風格是不同的。用同一個筆調寫兩種要求迥然不同的寫作,這當然是不對、不好與不妥的。文字與命題所要求的寫作內容不對味了,文章能美得起來嗎?
關於「我對人工智慧的看法」這一題,要求考生閱讀材料後,善用引文各種不同面向所提出的資訊,對「人工智慧的發展」這個議題: 1. 進行理性的分析評論。 考生須注意: 提供考生的寫作建議 1. 「我看」是關鍵詞 【書籍資訊】 01、监督学习和非监督学习? 监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如:分类; 非监督学习:直接对输入数据集进行建模,例如聚类。 半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。 02、常用的分类器有哪些,简述其原理? 线性分类器:Logistic归回 y=sigmoid(wx+b) 传统方式:特征描述和检测 KNN、k最邻近,判断图像与各个类别的距离 SVM、选项定特征、SVM算法输出一个最优化的分隔超平面(分类面)。 BPNN,全连接网络,计算量巨大 CNN,卷积神经网络 03、LR与线性回归的对比 LR的优化函数为似然函数,经典线性回归的优化函数为最小二乘。 LR将预测范围缩小到了[0,1],而经典线性回归的预测范围为整个实数。 04、SVM是什么? 是一个二分分类器,找寻数据之间间隔最大的线性分类器。 其学习策略是使分隔间隔最大化。对于线性可分的数据,SVM构造一个分隔面。对于线性不可分的数据,SVM采用核函数将低维空间的问题映射到了高维空间,从而线性可分。 常用核函数有多项式核函数、高斯核函数、线性核函数。为了应对维度爆炸的情形,核函数事先在低维空间上进行计算,再将分类的实际效果展现在高维上。 SVM的损失函数叫做Hinge(hɪndʒ) Loss,形式为max(0,1-y*a),y为真实值+-1,a为预测值,介于-1到1之间。 05、简述一下BP网络神经 back propagation神经网络 简写“BP”,输入X,通过隐藏节点的非线性变换后,输出信号Y,通过误差分析,来调整隐藏节点的W和b。 06、AdaBoost的基本原理? AdaBoost是一个广泛使用的BOOSTING算法,其中训练集上依次训练弱分类器,每次下一个弱分类器是在训练样本的不同权重集合上训练。权重是由每个样本分类的难度确定的。分类的难度是通过分类器的输出估计的。 07、聚类算法——说一下你所熟悉的聚类的算法并加以说明; K-meansClustering(K均值聚类) 将输入数据分到K个类中。K均值是通过循环更新类中心的初始估计值来实现的。优势是实现起来很简单,是并行化的。主要缺陷是,类的数目需要提前确定。 主要分三步:
层次聚类 层次聚类(或者叫做凝聚聚类)是另一个简单但是强大的聚类算法。其思想是基于成对距离建立一棵相似度树。该算法首先分组成为两个最近的对象(基于特征向量之间的距离),并且在一棵有着两个对象作为孩子的树中创建一个平均结点。然后在余下的结点中找到一个最近的pair,并且也包含任何平均节点,等等。在每一个结点,两个孩子之间的距离也会被存储。簇然后可以通过遍历这棵树并在距离比某个阈值小以至于决定聚类的大小的结点处停止来被提取出来。 层次聚类有几个优势。比如,树结构可以被用来可视化关系,并且显示簇是如何关联起来的。一个好的特征向量将得到树中好的分离。另一个优势是树可以在不同的簇阈值中被重用,而不需要重新计算树。缺点是需要选择一个阈值如果实际的簇需要的话。 谱聚类 对于n个元素的相似度矩阵(或者叫affinity matrix, 有时也叫距离矩阵)是一个有着成对相似度分数的n*n矩阵。谱聚类的这个名称是从相似度矩阵构造的矩阵的谱的使用得来。这个矩阵的特征向量被用来降维,然后再聚类。 谱聚类方法的其中一个优势是唯一的输入就是这个矩阵,并且可以被你可以想到的任何相似度度量构造出来。像K均值和层次聚类这样的方法计算特征向量的平均值,这个限制了特征(或者是描述符)对向量(为了能够计算平均值)。有了谱方法,不再需要任何类型的特征向量,只有“距离”或者“相似度”。 Mean Shift 聚类算法
08、机器学习中,为何要经常对数据做归一化? 归一化后加快的梯度下降对最优解的速度。 归一化有可能提高精度。 09、归一化的好处 归一化加快了梯度下降求解最优解的速度 归一化还可能会提高精度。 10、归一化的种类 线性归一化。利用max和min进行归一化,如果max和min不稳定,则常用经验值来替代max和min。 标准差归一化。利用所有样本的均值和方差将样本归一化为正态分布 非线性归一化。比如指数、对数、三角函数等。 11、归一化和标准化的区别是什么? 标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。 对于深度网络而言,归一化的目的是方便比较,可以加快网络的收敛速度;标准化是将数据利用z-score(均值、方差)的方法转化为符合特定分布的数据,方便进行下一步处理,不为比较。 12、简单说一下“熵” 熵是指样本的随机程度。样本越无序,熵越大, 信息越多。 13、L1和L2的区别 L1范数为向量中各个元素的绝对值之和,符合拉普拉斯分布,可以使权值稀疏; L2范数为向量中各个元素的平方和的1/2次方,符合高斯分布,可以防止过拟合; Lp范数为向量中各个元素的p次方和的1/p次方; 14、SGD 中 S(stochastic)代表什么? Stochastic Gradient Descent 随机梯度下降。GD即Full-Batch,SGD即为Mini-Batch。随机性表现在训练数据的shuffle。 15、Softmax Loss推倒 16、引入非线性激活函数的原因? 指数函数运算量大。ReLU节省运算量。(计算量小); Sigmoid容易引发梯度消失问题,因为Sigmoid函数在两端的导数趋近于0.(解决梯度消失问题); ReLU使得一部分神经元死亡,这样可以使得网络变得比较稀疏,缓解了过拟合的发生。(避免过拟合); 17、什么造成了梯度消失和梯度膨胀? 深度网络的链式连乘法则,使得反向传播时到达前几层时,权值更新值非常小或非常大。可以通过ReLU解决一部分。 18、为什么我们要称“朴素“贝叶斯? 因为我们在用到它的时候,有一个很强的假设,现实数据中几乎不会出现的:我们假设特征之间是相互独立,也就是我们计算条件概率时可以简化成它的组件的条件概率乘积。 19.第一类误差和第二类误差有什么区别,简单举一下啊例子? 第一类误差指的是假正率,第二类指的是假负率。简单来说,第一类误差意味着假设为真的情况下,作出了拒绝原假设的一种错误推断。第二类误差意味着假设为假的情况下,做出了接受原假设的一种错误判断。 举个例子:第一类误差,你告诉一个男的他怀孕了。第二类误差,你告诉一个已经怀孕的女子,她没怀孕。 20、什么是深度学习,它与机器学习算法之间有什么联系? 深度学习是机器学习的一个子领域,它关心的是参照神经学科的理论构建神经网络,使用反向传播对大量未标注或半结构化的数据进行建模。从这个角度看,深度学习可以看成一种非监督学习算法,通过使用神经网络学习数据的表示。 21、什么时候你应该使用分类而不是回归? 分类会产生离散的数值,使得数据严格的分为不同类。回归会得到连续的值,使你更好的区分独立点之间的区别。当你需要知道你的数据明确的属于那些类时你可以用分类。 22.交叉检验如何用在时间序列数据上? 与标准的k-folds 交叉检验不同,数据不是随机分布的,而是具有时序性的。如果模式出现在后期,模型仍然需要选择先前时间的数据,尽管前期对模式无影响。我们可以如下这么做: fold1:training[1], test[2] 23、如何对决策树进行剪枝? 剪枝是决策树发生过拟合后,为了降低模型复杂度,提高模型准确率的一种做法。可以分为自上而下和自下而上两种。常见的方法有:误差降低剪枝(REP)和代价复杂度剪枝(CCP)。 REP简单的来说就是对树的每一个结点进行剪枝,如果剪掉某个结点不会降低模型准确率,那么将其剪掉。这种启发式的做法实际上就是为了最大化准确率。 24、什么是贝叶斯定理,它是如何使用在机器学习中的? 贝叶斯定理会根据一件事发生的先验知识告诉你它后验概率。数学上,它表示为:一个条件样本发生的真正率占真正率和假正率之和的比例,即: 举个例子: 已知某疾病的患病概率为5%,现用某检验方法进行诊断,若患有该病,则有90%的几率检验结果呈阳性。但即使正常人使用该检验方法,也有10%的几率误诊而呈阳性。某人检验结果为阳性,求此人患病的概率。 贝叶斯定理使一些机器学习算法如:朴素贝叶斯等的理论基础。 25、解释一下ROC曲线的原理 ROC曲线是真正率和假正率在不同的阀值下之间的图形表示关系。通常用作权衡模型的敏感度与模型对一个错误分类报警的概率。 真正率表示:表示正的样本被预测为正占所有正样本的比例。 26、如何理解TensorFlow的计算图? TensorFlow分为二部分,一部分是构造部分,用来构造网络;一部分是执行部分,用来执行网络中的计算; 27、TensorFlow中都有哪些优化方法?
28、TensorFlow中常见的激活函数有? relu ,sigmoid, tanh 29、TensorFlow中交叉熵 常用的有哪些? tf.nn.weighted_cross_entropy_with_logits; tf.nn.sigmoid_cross_entropy_with_logits; tf.nn.softmax_cross_entropy_with_logits; tf.nn.sparse_softmax_cross_entropy_with_logits; 28、TensorFlow中常见的核函数都有哪些? SVM高斯核函数,应为如果想要分割非线性数据集,改变线性分类器隐射到数据集,就要改变SVM损失函数中的核函数; 线性核函数;多项式核函数; 29、什么是核技巧,有什么用处? 核技巧使用核函数,确保在高维空间不需要明确计算点的坐标,而是计算数据的特征空间中的内积。这使其具有一个很有用的属性:更容易的计算高维空间中点的坐标。许多算法都可以表示称这样的内积形式,使用核技巧可以保证低维数据在高维空间中运用算法进行计算。 30、什么是偏倚(bias)、方差(variable)均衡? 偏倚:指的是模型预测值与真实值的差异,是由使用的学习算法的某些错误或过于简单的假设造成的误差。它会导致模型欠拟合,很难有高的预测准确率。 方差:指的是不同训练数据训练的模型的预测值之间的差异,它是由于使用的算法模型过于复杂,导致对训练数据的变化十分敏感,这样会导致模型过拟合,使得模型带入了过多的噪音。 任何算法的学习误差都可以分解成偏倚、方差和噪音导致的固定误差。模型越复杂,会降低偏倚增加方差。为了降低整体的误差,我们需要对偏倚方差均衡,使得模型中不会由高偏倚或高方差。 |